2010 Лекции МОТП (Ветров) (1185317), страница 2
Текст из файла (страница 2)
статистикиИдентификацияЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияЗадачаклассификацииЗадачавосстановлениярегрессииЗадачакластеризации(обучения безучителя)ЗадачаидентификацииЗадача прогнозированияЗадачаизвлечениязнанийОсновныепроблемымашинногообученияНапоминание• Исторически возникла из классификации,необходимости отделить объекты, обладающиеопределенным свойством, от «всего остального»• В классической задаче идентификации обучающаявыборка представляет собой набор отдельных объектовX = {xi }ni=1 , характеризующихся векторомвещественнозначных признаков xi = (xi,1 , . . .
, xi,d ),обладающих некоторым свойством χA (x) = 1• Особенностью задачи является то, что все объектыпринадлежат одному классу, причем не существуетвозможности сделать репрезентативную выборку изкласса «все остальное»• Требуется постросить алгоритм (идентификатор),который по вектору признаков x определил бы наличиесвойства A у объекта x, либо вернул оценку степени еговыраженности p(χA (x) = 1|x)ИдентификацияЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияЗадачаклассификацииЗадачавосстановлениярегрессииЗадачакластеризации(обучения безучителя)ЗадачаидентификацииЗадача прогнозированияЗадачаизвлечениязнанийОсновныепроблемымашинногообученияНапоминаниеПримеры задач идентификацииЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияЗадачаклассификацииЗадачавосстановлениярегрессииЗадачакластеризации(обучения безучителя)ЗадачаидентификацииЗадача прогнозированияЗадачаизвлечениязнанийОсновныепроблемымашинногообученияНапоминание• Медицинская диагностика: по набору медицинскиххарактеристик требуется установитьналичие/отсутствие конкретного заболевания• Системы безопасности: по камерам наблюдения вподъезде идентифицировать жильца дома• Банковское дело: определить подлинность подписи начеке• Обработка изображений: выделить участки сизображениями лиц на фотографии• Искусствоведение: по характеристикам произведения(картины, музыки, текста) определить, является ли егоавтором тот или иной авторПлан лекцииЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияЗадачаклассификацииЗадачавосстановлениярегрессииЗадачакластеризации(обучения безучителя)ЗадачаидентификацииЗадача прогнозированияЗадачаизвлечениязнанийОсновныепроблемымашинногообученияНапоминание1 Некоторые задачи машинного обученияЗадачаЗадачаЗадачаЗадачаЗадачаЗадачаклассификациивосстановления регрессиикластеризации (обучения без учителя)идентификациипрогнозированияизвлечения знаний2 Основные проблемы машинного обученияМалый объем обучающей выборкиНекорректность входных данныхПереобучение3 НапоминаниеПолезные сведения из линейной алгебры и теории оптимизОсновные понятия мат.
статистикиПрогнозированиеЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияЗадачаклассификацииЗадачавосстановлениярегрессииЗадачакластеризации(обучения безучителя)ЗадачаидентификацииЗадача прогнозированияЗадачаизвлечениязнанийОсновныепроблемымашинногообученияНапоминание• Исторически возникла при исследовании временныхрядов и попытке предсказания их значений черезкакой-то промежуток времени• В классической задаче прогнозирования обучающаявыборка представляет собой набор измеренийX = {x[i]}ni=1 , представляющих собой векторвещественнозначных величин x[i] = (x1 [i], .
. . , xd [i]),сделанных в определенные моменты времени• Требуется постросить алгоритм (предиктор), которыйвернул бы точечную оценку {x̂[i]}n+qi=n+1 , доверительныйинтервал {(x− [i], x+ [i])}n+qилиапостериорноеi=n+1распределение p(x[n + 1], . . . , x[n + q]|x[1], . .
. , x[n])прогноза на заданную глубину q• В отличие от задачи восстановления регрессии, здесьосуществляется прогноз по времени, а не по признакамПрогнозированиеЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияЗадачаклассификацииЗадачавосстановлениярегрессииЗадачакластеризации(обучения безучителя)ЗадачаидентификацииЗадача прогнозированияЗадачаизвлечениязнанийОсновныепроблемымашинногообученияНапоминаниепрошлоенастоящеебудущееПримеры задач прогнозированияЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияЗадачаклассификацииЗадачавосстановлениярегрессииЗадачакластеризации(обучения безучителя)ЗадачаидентификацииЗадача прогнозированияЗадачаизвлечениязнанийОсновныепроблемымашинногообученияНапоминание• Биржевое дело: прогнозирование биржевых индексов икотировок• Системы управления: прогноз показателей работыреактора по данным телеметрии• Экономика: прогноз цен на недвижимость• Демография: прогноз изменения численностиразличных социальных групп в конкретном ареале• Гидрометеорология: прогноз геомагнитной активностиПлан лекцииЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияЗадачаклассификацииЗадачавосстановлениярегрессииЗадачакластеризации(обучения безучителя)ЗадачаидентификацииЗадача прогнозированияЗадачаизвлечениязнанийОсновныепроблемымашинногообученияНапоминание1 Некоторые задачи машинного обученияЗадачаЗадачаЗадачаЗадачаЗадачаЗадачаклассификациивосстановления регрессиикластеризации (обучения без учителя)идентификациипрогнозированияизвлечения знаний2 Основные проблемы машинного обученияМалый объем обучающей выборкиНекорректность входных данныхПереобучение3 НапоминаниеПолезные сведения из линейной алгебры и теории оптимизОсновные понятия мат.
статистикиИзвлечение знанийЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияЗадачаклассификацииЗадачавосстановлениярегрессииЗадачакластеризации(обучения безучителя)ЗадачаидентификацииЗадача прогнозированияЗадачаизвлечениязнанийОсновныепроблемымашинногообученияНапоминание• Исторически возникла при исследованиивзаимозависимостей между косвенными показателямиодного и того же явления• В классической задаче извлечения знаний обучающаявыборка представляет собой набор отдельных объектовX = {xi }ni=1 , характеризующихся векторомвещественнозначных признаков xi = (xi,1 , .
. . , xi,d )• Требуется постросить алгоритм, генерирующий наборобъективных закономерностей между признаками,имеющих место в генеральной совокупности• Закономерности обычно имеют форму предикатов«ЕСЛИ ... ТО ...» и могут выражаться как в цифровыхтерминах ((0.45 ≤ x4 ≤ 32.1)&(−6.98 ≤ x7 ≤ −6.59) ⇒(3.21 ≤ x2 ≤ 3.345)), так и в текстовых («ЕСЛИДавление – низкое И (Реакция – слабая ИЛИ Реакция– отсутствует) ТО Пульс – нитевидный»)Извлечение знанийЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияЗадачаклассификацииЗадачавосстановлениярегрессииЗадачакластеризации(обучения безучителя)ЗадачаидентификацииЗадача прогнозированияЗадачаизвлечениязнанийОсновныепроблемымашинногообученияНапоминаниеПримеры задач извлечения знанийЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияЗадачаклассификацииЗадачавосстановлениярегрессииЗадачакластеризации(обучения безучителя)ЗадачаидентификацииЗадача прогнозированияЗадачаизвлечениязнанийОсновныепроблемымашинногообученияНапоминание• Медицина: поиск взаимосвязей (синдромов) междуразличными показателями при фиксированной болезни• Социология: определение факторов, влияющих напобеду на выборах• Генная инженерия: выявление связанных участковгенома• Научные исследования: получение новых знаний обисследуемом процессе• Биржевое дело: определение закономерностей междуразличными биржевыми показателямиПлан лекцииЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияОсновныепроблемымашинногообученияМалый объемобучающейвыборкиНекорректностьвходных данныхПереобучение1 Некоторые задачи машинного обученияЗадачаЗадачаЗадачаЗадачаЗадачаЗадачаклассификациивосстановления регрессиикластеризации (обучения без учителя)идентификациипрогнозированияизвлечения знаний2 Основные проблемы машинного обученияМалый объем обучающей выборкиНекорректность входных данныхПереобучениеНапоминание3 НапоминаниеПолезные сведения из линейной алгебры и теории оптимизОсновные понятия мат.
статистикиОбъем выборки IЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияОсновныепроблемымашинногообученияМалый объемобучающейвыборкиНекорректностьвходных данныхПереобучениеНапоминание• Основным объектом работы любого метода машинногообучения служит обучающая выборка• Большой объем выборки позволяет• Получить более надежные результаты• Использовать более сложные модели алгоритмов• Оценить точность обучения• НО: Время обучения быстро растет• При малых выборках• Можно использовать только простые моделиалгоритмов• Скорость обучения максимальна – можно использоватьметоды, требующие много времени на обучение• Высока вероятность переобучения при ошибке ввыборе моделиОбъем выборки IIЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияОсновныепроблемымашинногообученияМалый объемобучающейвыборкиНекорректностьвходных данныхПереобучениеНапоминание• Одна и та же выборка может являться большой дляпростых моделей алгоритмов и малой для сложныхмоделей.• С ростом числа признаков увеличивается количествообъектов, необходимое для корректного анализаданных• Часто рассматривается т.н.
эффективная размерностьвыборки nd• При объемах данных порядка десятков и сотен тысячвстает проблема уменьшения выборки с сохранением еерепрезентативности (active learning)План лекцииЛекция 1.РазличныезадачимашинногообученияЖуравлев,ВетровНекоторыезадачимашинногообученияОсновныепроблемымашинногообученияМалый объемобучающейвыборкиНекорректностьвходных данныхПереобучение1 Некоторые задачи машинного обученияЗадачаЗадачаЗадачаЗадачаЗадачаЗадачаклассификациивосстановления регрессиикластеризации (обучения без учителя)идентификациипрогнозированияизвлечения знаний2 Основные проблемы машинного обученияМалый объем обучающей выборкиНекорректность входных данныхПереобучениеНапоминание3 НапоминаниеПолезные сведения из линейной алгебры и теории оптимизОсновные понятия мат.