4.Оперативный анализ данных(Ф) (Лаба 4)
Описание файла
Файл "4.Оперативный анализ данных(Ф)" внутри архива находится в папке "Лаба 4". PDF-файл из архива "Лаба 4", который расположен в категории "". Всё это находится в предмете "операционный анализ данных" из 5 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "лабораторные работы", в предмете "операционный анализ данных" в общих файлах.
Просмотр PDF-файла онлайн
Текст из PDF
Министерство образования и науки Российской ФедерацииФедеральное государственное бюджетное образовательное учреждение высшегопрофессионального образованияМосковский государственный технический университет им. Н.Э. БауманаФакультет «Информатика и системы управления»Кафедра «Автоматизированные системы обработки информации и управления»Тоноян С.А., Емельянов Д.С.Лабораторная работа№4по курсу“Оперативный анализ и визуализация данных”Методическое указаниепо выполнению лабораторной работыМосква - 2014 годОглавление1.Введение..........................................................................................................
32.Цель лабораторной работы ........................................................................... 43.Краткая характеристика объекта изучения, исследования ........................ 54.Схема и описание лабораторной .................................................................. 65.Задачи и порядок выполнения работы .......................................................
156.Содержание отчета по лабораторной работе ......237.Контрольные вопросы ................................................................................. 248.Литература .................................................................................................... 2721. Введение.Одной из важных частных задач машинного обучения является задачараспознавания объектов на изображениях. Задача состоит в определении,является ли предъявленное изображение изображением интересующего насобъекта. К задаче распознавания сводятся задачи обнаружения и локализацииобъектов: обнаружение исследуемых клеток на снимках с микроскопа, задачапоиска человеческих лиц на изображениях.
Последние исследованияпоказали эффективность обучаемых методов для решения данной задачи. Влабораторной работе рассматриваются различные методы классификации собучением по прецедентам, применяющиеся к задаче распознаванияобъектов на изображениях. Проводится сравнение, и анализ причин тех илииных показателей работы рассмотренных методов.Машинное обучение [machine learning] изучает методы построениямоделей, способных обучаться, и алгоритмы для их построения и обучения(пример алгоритмов – логистическая регрессия [logistic regression],нейронные сети [neural networks], машины опорных векторов [SVM – supportvector machines], деревья принятия решений [decisions trees]) и т.д.Классификация, регрессия являются одними из важнейших задач анализаданных. Действительно, как классификационная, так и регрессионная модельнаходят закономерности между входными и выходными переменными.
Ноесли входные и выходные переменные модели непрерывные — перед намизадача регрессии. Если выходная переменная одна и она является дискретной(метка класса), то речь идет о задаче классификации.32. Цель лабораторной работы2.1 Получить теоретические знания изучив:линейная регрессия;логистическая регрессия;байесовская классификация;.деревья решений;решающие правила;нейронные сети;метод k ближайших соседей и др.2.2. Получение практических навыков: исследование и оценка распознавания образов с применением моделилинейной регрессии; исследование и оценка распознавания образов с применением моделилогистической регрессии;43.Краткая характеристика объекта изучения, исследованияТак как курс начального уровня, то в нем будут изучены базовые длянекоторых алгоритмов математические понятия и приемы, в частности,линейная и логистическая регрессии.
Будут примнены некоторые методыоптимизации (градиентный спуск – подробно [gradient descent] , методБройдена – Флетчера – Гольдфарба – Шанно, более известный как BFGS,метод сходящихся градиентов [conjugate gradient – CG] ) и их влияние наскорость и качество обучения. Будет исследовано влияние различныхпараметров на качество и скорость обучения (скорость обучения, размервыборки для обучения, размер критерия остановки обучения, влияние L2регуляризации, нормализации ).54. Схема и описание лабораторной работыВыполнение лабораторной работы предполагает получить теоретическихзнания исследуемых методов анализа данных для их последующегоприменения.4.1 Теоретическая часть.В настоящее время для анализа данные различных природы и объемов,разработанобольшоеаналитическойколичествоплатформы,методовкотораяиалгоритмовбазируетсянанабазеследующиематематические методы:линейная регрессия;логистическая регрессия;байесовская классификация;.деревья решений;решающие правила;нейронные сети;метод k ближайших соседей и др.К базовому набору методов, которые входят в состав большинствааналитических платформ, относятся множественные регрессионные модели,деревья решений и искусственные нейронные сети.4.1.1 Методы с обучением по прецедентам.I.
Основные понятия:Это наиболее общий подход. Задача распознавания объектов наизображение сводится к задаче классификации и для неё применяетсяхорошо разработанный математический аппарат построения моделиобучения по прецедентам. Модель строиться автоматически по заранеесобранному набору прецедентов - изображений, для которых известно,являются ли они изображениями объекта или нет. Наблюдением, в данномслучае, является некоторый «вектор признаков», полученный из исходногоизображения некоторым преобразованием, отображающим изображения в6пространство действительных векторов. Гипотеза, подлежащая проверке принадлежность изображения к классу изображений искомого объекта.Таким образом, система распадается на два модуля: модуль преобразования изображения в вектор признаков модуль классификации.Задачей модуля преобразования является наиболее полное иинформативное представление изображения в виде числового вектора.Задачей модуля классификации является проверка гипотезыпринадлежности изображения классу изображений объекта на основаниинаблюдения, которым является вектор признаков.Модуль преобразования и модуль классификации тесно связаны.
Главнаяцель модуля преобразования – представить изображение в форме наиболееудобной для модуля классификации. Основные требования, предъявляемые кмодулю преобразования: скорость, наиболее полное и информативноепредставление данных, масштабируемость (преобразование корректноработает с изображением разных размеров, размерность вектора признаковне меняется).Также является желательной инвариантность модуля преобразования кдеформациям и пространственным искажениям объекта. Несмотря наважность метода преобразования, его подробное рассмотрение выходит зарамки этой работы.Пусть имеются множество объектов X, множество ответов Y , исуществует целевая функция (target function) y* : X → Y, значения которойyi = y*(xi), известны только на конечном подмножестве объектов{x1, .
. . , xℓ} ⊂ X. Пары «объект–ответ» (xi, yi) называются прецедентами.Совокупность пар Xℓ = (xi, yi)ℓi=1 называется обучающей выборкой (trainingsample).Задача обучения по прецедентам заключается в том, чтобывосстановить функциональную зависимость между объектами и ответами, то7есть построить отображение a: X → Y, удовлетворяющее следующейсовокупности требований:• Отображение a должно допускать эффективную компьютернуюреализацию –в виде алгоритмома.• Алгоритм a(x) должен воспроизводить на объектах выборки заданныеответы: a(xi) = yi, i = 1, . . .
, ℓ. Равенство здесь может пониматься какточное или как приближённое, в зависимости от конкретной задачи.• На алгоритм a(x) могут накладываться разного рода априорныеограничения, например, требования непрерывности, гладкости,монотонности, и т. д., или сочетание нескольких требований. Внекоторых случаях может задаваться модель алгоритма функциональный вид отображения a(x), определённый с точностью допараметров.• Алгоритм a должен обладать обобщающей способностью, то естьдостаточно точно приближать целевую функцию y*(x) не только наобъектах обучающей выборки, но и на всём множестве X.II. Разновидности задач обучения по прецедентамВ зависимости от природы множества Y задачи, обучения попрецедентам делятся на следующие типы:• Y = {1, .
. . ,M} - задача классификации (classification) на Mнепересекающихся классов Ky = {x ∈ X: y*(x) = y}. В некоторыхприложениях классы называют образами и говорят о задачераспознавания образов (pattern recognition).• Y = {0, 1}M - задача классификации на M пересекающихся классов. Впростейшем случае эта задача сводится к решению M независимых задачклассификации с двумя непересекающимися классами.• Y = R - задача восстановления регрессии (regression estimation).• Задача прогнозирования (forecasting) является частным случаемклассификации или восстановления регрессии, когда X - описание8прошлого поведения объекта, Y - описание некоторых характеристик егобудущего поведения.4.1.2 Линейная регрессияЗадача линейной регрессии заключается в нахождении коэффициентовуравнения линейной регрессии, которое имеет вид:y=bo + b1x1 + b2x2 + …+ bnxn (8.1) (1)где y — выходная (зависимая) переменная модели;x1, x2 …xn — входные (независимые) переменные;bi — коэффициенты линейной регрессии, называемые также параметрамимодели (b0 — свободный член).Задача линейной регрессии заключается в подборе коэффициентов bi,уравнения (1) таким образом, чтобы на заданный входной вектор X = (x1, x2…xn ) регрессионная модель формировала желаемое выходное значение y.Рис 1.1 Для каждоrо значения х значение у есть нормальнораспределенная случайная величинаСтатистическая модель простой линейной регрессии предполагает, чтодля каждого значения входной переменной х наблюдаемое значениевыходной переменной у является нормально распределенной случайнойвеличиной со средним Е(y)=bo + b1x1 и постоянной дисперсией σ2.
Данное9предположение иллюстрируется на рис. 1.1 для случаев х = 5, х = 10 их = 15, Видно, что все кривые нормального распределения имеют одну иту же форму, из чего следует, что дисперсия постоянна для всех х.Одним из наиболее востребованных приложений линейной регрессииявляется прогнозирование. В этом случае входными переменными модели х-,являются наблюдения из прошлого (предикторы), а y — прогнозируемоезначение. Несмотря на свою универсальность, линейная регрессионнаямодель не всегда пригодна для качественного предсказания зависимойпеременной. Когда для решения задачи строят модель линейной регрессии,на значения зависимой переменной обычно не налагают никакихограничений.