_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007) (_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007).pdf), страница 3

PDF-файл _пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007) (_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007).pdf), страница 3 (ММО) Методы машинного обучения (63169): Книга - 10 семестр (2 семестр магистратуры)_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007) (_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские м2020-08-252020-08-25KoalaСтудИзба

_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007).pdf343

Описание файла

PDF-файл из архива "_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007).pdf", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 3 страницы из PDF

. . , xd [i]),сделанных в определенные моменты времени• Требуется постросить алгоритм (предиктор), который вернул бы точечную оценку {x̂[i]}n+qi=n+1 , доверительный интервал {(x− [i], x+ [i])}n+qилиапостериорноераспределениеp(x[n+1],. . . , x[n +i=n+1q]|x[1], . . . , x[n]) прогноза на заданную глубину q (см. рис. 1.5)• В отличие от задачи восстановления регрессии, здесь осуществляется прогноз по времени, а не попризнакамГлава 1. Различные задачи машинного обученияпрошлое10настоящеебудущееРис. 1.5. Пример задачи прогнозирования. Черная кривая представляет собой предысторию (известное поведение характеристики). Серые кривые показывают различные варианты прогнозирования поведения характеристики в будущемПримеры задач прогнозирования• Биржевое дело: прогнозирование биржевых индексов и котировок• Системы управления: прогноз показателей работы реактора по данным телеметрии• Экономика: прогноз цен на недвижимость• Демография: прогноз изменения численности различных социальных групп в конкретном ареале• Гидрометеорология: прогноз геомагнитной активности1.1.6Задача извлечения знанийИзвлечение знаний• Исторически возникла при исследовании взаимозависимостей между косвенными показателями одного и того же явления• В классической задаче извлечения знаний обучающая выборка представляет собой набор отдельных объектов X = {xi }ni=1 , характеризующихся вектором вещественнозначных признаков xi =(xi,1 , .

. . , xi,d )• Требуется постросить алгоритм, генерирующий набор объективных закономерностей между признаками, имеющих место в генеральной совокупности (см. рис. 1.6)• Закономерности обычно имеют форму предикатов «ЕСЛИ ... ТО ...» и могут выражаться как вцифровых терминах ((0.45 ≤ x4 ≤ 32.1)&(−6.98 ≤ x7 ≤ −6.59) ⇒ (3.21 ≤ x2 ≤ 3.345)), так и втекстовых («ЕСЛИ Давление – низкое И (Реакция – слабая ИЛИ Реакция – отсутствует) ТО Пульс– нитевидный»)Примеры задач извлечения знаний• Медицина: поиск взаимосвязей (синдромов) между различными показателями при фиксированнойболезни• Социология: определение факторов, влияющих на победу на выборах• Генная инженерия: выявление связанных участков генома• Научные исследования: получение новых знаний об исследуемом процессе• Биржевое дело: определение закономерностей между различными биржевыми показателямиГлава 1.

Различные задачи машинного обучения11Рис. 1.6. Пример задачи извлечения знаний. В выборке представлены объекты из трех классов. Закономерности представляют собой области признакового пространства, в которых концентрация объектов из одного класса существенно превалируетнад концентрациями объектов из других классов1.21.2.1Основные проблемы машинного обученияМалый объем обучающей выборкиОбъем выборки I• Основным объектом работы любого метода машинного обучения служит обучающая выборка• Большой объем выборки позволяет– Получить более надежные результаты– Использовать более сложные модели алгоритмов– Оценить точность обучения– НО: Время обучения быстро растет• При малых выборках– Можно использовать только простые модели алгоритмов– Скорость обучения максимальна – можно использовать методы, требующие много времени наобучение– Высока вероятность переобучения при ошибке в выборе моделиОбъем выборки II• Одна и та же выборка может являться большой для простых моделей алгоритмов и малой длясложных моделей.• Для методов с т.н.

бесконечной емкостью Вапника-Червоненкиса любая выборка является малой.• С ростом числа признаков увеличивается количество объектов, необходимое для корректного анализа данных• Часто рассматривается т.н. эффективная размерность выборкиnd• При объемах данных порядка десятков и сотен тысяч встает проблема уменьшения выборки с сохранением ее репрезентативности (active learning)Глава 1. Различные задачи машинного обучения1.2.212Некорректность входных данныхНеполнота признакового описания• Отдельные признаки могут отсутствовать у некоторых объектов.

Это может быть связано с отсутствием данных об измерении данного признака для данного объекта, а может быть связано спринципиальным отсутствием данного свойства у данного объекта• Такое часто встречается в медицинских и химических данных• Необходимы специальные процедуры, позволяющие корректно обрабатывать пропуски в данных• Одним из возможных способов такой обработки является замена пропусков на среднее по выборкезначение данного признака• По возможности, пропуски следует игнорировать и исключать из рассмотрения при анализе соответствующего объектаПротиворечивость данных• Объекты с одним и тем же признаковым описанием могут иметь разные исходы (принадлежать кразным классам, иметь отличные значения регрессионной переменной и т.п.)• Многие методы машинного обучения не могут работать с такими наборами данных• Необходимо заранее исключать или корректировать противоречащие объекты• Использование вероятностных методов обучения позволяет корректно обрабатывать противоречивые данные• При таком подходе предполагается, что исход t для каждого признакового описания x есть случайная величина, имеющая некоторое условное распределение p(t|x)Разнородность признаков• Хотя формально предполагается, что признаки являются вещественнозначными, они могут бытьдискретными и номинальными• Номинальные признаки отличаются особенностями метрики между значениями• Стандартная практика состоит в замене номинальных признаков на набор бинарных переменных почислу значений номинального признака• Текстовые признаки, признаки-изображения, даты и пр.

необходимо заменить на соответствующиеноминальные либо числовые значения1.2.3ПереобучениеИдея машинного обучения• Задача машинного обучения заключается в восстановлении зависимостей по конечным выборкамданных (прецедентов)• Пусть (X, t) = (xi , ti )ni=1 – обучающая выборка, где xi ∈ Rd – признаковое описание объекта, а t ∈ T– значение скрытой компоненты (классовая принадлежность, значение прогноза, номер кластера ит.д.)• При статистическом подходе к решению задачи МО предполагается, что обучающая выборкаявляется выборкой из некоторой генеральной совокупности с плотностью p(x, t)• Требуется восстановить p(t|x), т.е.

знание о скрытой компоненте объекта по измеренным признакамГлава 1. Различные задачи машинного обучения13(a)(b)Рис. 1.7. Пример двухклассовой задачи классификации. На рисунке (a) представлено решающее правило, которое способнообъяснить только объекты обучающей выборки. Решающее правило на рисунке (b) улавливает общую тенденцию в данныхи обладает более высокой обобщающей способностью, чем решающее правило (a)3210−1−2−3123456Рис.

1.8. Пример задачи восстановления регрессии. Пунктирная функция регрессии в точности предсказывает объектыобучающей выборки, однако обладает слабой экстраполирующей способностью. Функция регрессии, представленная чернойлинией, не так точно объясняет объекты обучения, однако хорошо улавливает общую тенденцию в данныхПроблема переобученияПрямая минимизация невязки на обучающей выборке ведет к получению решающих правил, способных объяснить все что угодно и найти закономерности даже там, где их нет (см. рис.

1.7 и 1.8).Способы оценки и увеличения обобщающей способности• На сегодняшний день единственным универсальным способом оценивания обобщающей способностиявляется кросс-валидация• Все попытки предложить что-нибудь отличное от метода проб и ошибок пока не привели к общепризнанному решению.

Наиболее известны из них следующие:– Структурная минимизация риска (В. Вапник, А. Червоненкис, 1974)– Минимизация длины описания (Дж. Риссанен, 1978)– Информационные критерии Акаике и Байеса-Шварца (Акаике, 1974, Шварц, 1978)– Максимизация обоснованности (МакКай, 1992)• Последний принцип позволяет надеяться на конструктивное решение задачи выбора моделиПримеры задач выбора модели• Определение числа кластеров в данныхГлава 1.

Различные задачи машинного обучения14• Выбор коэффициента регуляризации в задаче машинного обучения (например, коэффициента затухания весов (weight decay) в нейронных сетях)• Установка степени полинома при интерполяции сплайнами• Выбор наилучшей ядровой функции в методе опорных векторов (SVM)• Определение количества ветвей в решающем дереве• и многое другое...1.3Ликбез: Основные понятия мат. статистикиКраткое напоминание основных вероятностных понятий• X : Ω → R – случайная величина• Вероятность попадания величины в интервал (a, b) равнаZP (a ≤ X ≤ b) =bp(x)dx,aгде p(x) – плотность распределения X,Z∞p(x) ≥ 0,p(x)dx = 1−∞• Если поведение случайной величины определяется некоторым параметром, возникают условныеплотности p(x|θ).

Если рассматривать уcловную плотность как функцию от параметраf (θ) = p(x|θ),то принято говорить о т.н. функции правдоподобияОсновная задача мат. статистики• Распределение случайной величины X известно с точностью до параметра θ• Имеется выборка значений величины X, x = (x1 , . . . , xn )• Требуется оценить значение θ• Метод максимального правдоподобияθ̂M L = arg max f (θ) = arg max p(x|θ) = arg maxnYp(xi |θ)i=1• Можно показать, что ММП является ассимптотически оптимальным при n → ∞• Увы, мир несовершенен. Величина n конечна и обычно не слишком велика• Необходима регуляризация методаГлава 1. Различные задачи машинного обучения15Пример некорректного использования метода максимального правдоподобия2• X ∼ w1 N (x|µ1 , σ12 ) + · · · + wm N (x|µm , σm)2• Необходимо определить θ = (m, µ1 , σ12 , .

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.