Лекция (5) (1185745)

Файл №1185745 Лекция (5) (Лекция (5))Лекция (5) (1185745)2020-08-252020-08-25СтудИзба

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

Лекция 5:задача прогнозирования,проклятие размерности,переобучениеДемонстрационный пример: что такоепрогнозирование?Показаны зависимости продаж от каналов рекламы: ТВ, радиои газет– синяя прямая линейной регрессии отдельно длякаждого параметра.Можно ли спрогнозировать продажи на основе этого всего всовокупности?Возможно мы можем сделать лучший прогноз, используямодельSales ≈ f(TV, Radio, Newspaper)Демонстрационный пример:обозначенияЗдесь Sales – это отклик или целевая переменная, которую мыхотим спрогнозировать. Обычно обозначаем отклик как Y.TV - это признак или вход; обозначим его как.

ПризнакRadio как, и так далее.Тогда весь входной вектор можно обозначить какМожно описать всю модель какгде ϵ отражает ошибки измерения и другие отклонения.Задача «обучения с учителем»Множество «размеченных» примеров (прецедентов):обучающая выборка или тренировочный набор:Z  {( xi , yi )}in1  X  YX: «сигнал», «объект», «ситуация»Y: «отклик», «прогнозируемая величина»Неформальная постановка задачи:fZ : X  YДва этапа: обучение и прогнозированиеОбучениеМетод машинногообученияТренировочныйнаборNAMEMikeMaryBillJimDaveAnneRANKAssistant ProfAssistant ProfProfessorAssociate ProfAssistant ProfAssociate ProfYEARS372763TENUREDnoyesyesyesnonoМодельпрогнозированияIF rank = ‘professor’OR years > 6THEN tenured = ‘yes’Оценка и прогнозированиеМодельпрогнозированияТестовыеданные«Новые» данные(Jeff, Professor, 4)NAMETomMerlisaGeorgeJosephRANKAssistant ProfAssociate ProfProfessorAssistant ProfYEARS2757TENUREDnonoyesyesTenured?Типы задач прогнозированияОпределяются типом допустимых значений «отклика» yi и тойоценкой качества, которая используется для выбора моделиБинарная классификация (разделение):Регрессия:yi - дискретная величина (метка класса), на Y нет порядка, f – дискретнаяфункцияМного-темная (multi-label) классификация:yi - вещественное число, f – вещественная функцияКлассификация:yi - бинарная, f – бинарная функцияyi – множество неупорядоченных дискретных величин (меток классов), f– бинарная вектор-функция (i-й разряд – «да»/«нет» для i-го класса)Ранжирование:yi – множество упорядоченных дискретных величин (меток классов), f –вещественная вектор-функция (i-й разряд – ранг для i-го класса)Применение методовпрогнозирования в задачах ИАДПрогнозирование ради прогнозирования:Автоматическая классификация и прогнозирование (обучились иприменяем модель для решения прикладной задачи) Выявление и описание основных зависимостей, т.е.

как значенияхарактеристик примера влияют на отклик (важны нтерпретируемостьи визуализируемость модели)Предобработка данных:«Условная» дискретизация (разбиение значений свойств примеровна интервалы с учетом отклика) Обработка пропущенных значений (импутация)Поиск исключений и артефактов:Что не соответствует прогнозу, то аномалия Поиск и построение моделей «редких» (или малых) классовОбласти применения:Везде, где необходим прогноз или классификацияЧто означает, что f(X) дает «хороший»прогноз?Имея функцию f можно найти Y для новой точки X = x.Мы можем оценить, какая компонентаважна в объяснении YВ зависимости от сложности функции f, мы можем понять как каждыйкомпонент вектора X влияет на Y .Существует ли идеальная f(X)? Какое «хорошее» значение f(X) длявыбранного X (например, X = 4)? Может быть много значений Y для X.Хорошее значение таково, что f(4) = E(Y|X = 4)E(Y|X = 4) – ожидаемое значение (среднее) из Y для заданного.f(x) = E(Y|X = x) называется функцией регрессии.Функция регрессии f(x)Аналогично определяется для вектора X, например:Является оптимальным предиктором Y относительносреднеквадратичной ошибки прогнозирования: f(x) = E(Y|X = x) этофункция которая минимизируетпо всем функциям g во всех точках X = x.- это несокращаемая ошибка, обычно существуетраспределение возможных значений.Для любой оценкифункции f(x), мы имеем:Другие функции потерьФункция потерь L  Y  Y  R характеризует отличиеправильного ответа от спрогнозированногоПримеры:Классификация и регрессия:L( y , y )  [ y  y ], L( y, y )  y  y  ,L( y , y )   y  y  , L( y, y )   y  y    2Много-темная классификация:HL  yy , ab  (a  b) \ (a  b), a  Y , b  YРанжирование:|{(l , s)  y  y : yl  ys } |RL | y || y |Оценка качества прогноза:Усреднение потерь по множеству примеровКак оценить f?Обычно мы имеем немного точек с одинаковым X.Таким образом мы не можем вычислить E(Y|X = x)!Определимгде N(x) – некоторая окрестность точки x.Усреднение по ближайшим соседям может быть достаточнохорошо для малых p (число признаков) и больших N (числонаблюдений).Методы ближайших соседей могут плохо работать при больших p.Метод K ближайших соседейОбщая схема работы:Каждый пример – точка в пространстве, все примеры хранятсяВводится метрика расстояния с учетом нормирования координатИщется K (от 1 до …) ближайших соседейПрогноз вычисляется как функция от откликов найденныхсоседей по одному из алгоритмов:y*  F* (y )xi N ( x )Метод KNN:Для задачи регрессии отклик считаетсякак среднее по откликам всех соседей: Для классификации выбирается самыйчастый класс:_+__ N(x*)__+._x* ++...y* 1Kiyixi N ( x* )y *  arg max  yi  c cC , xi N ( x* ).Метод «взвешенных» K ближайшихсоседейМетод KWNN:На базе KNN, но помимо распределения «отклика» учитываются ирасстояния до соседей в окрестностиУчет происходит за счет «взвешенного» голосования дляклассификации:w y  c y *  arg max  i i * wi cC , xi N ( x* )  x j N ( x ) И «взвешенного» среднего для регрессииy* wi yixi N ( x* )wixi N ( x )*весовой коэффициент обратно пропорционален квадрату расстоянияили пропорционален корреляции с откликомМетод K ближайших соседей с адаптивнымрасстояниемМетод DANN (в майнере не поддерживаетя):На базе KNN, но используется локальный дискриминантный анализ дляадаптации метрики расстояния с учетом структуры распределениясоседей в окрестности:(l )**T(l )*Параметры алгоритма:d ( x , xi )  ( x  xi )  ( x  xi )KM – число соседей для оценки метрики(нужно побольше) K – число соседей для прогноза(лучше поменьше) ε – «смягчающий» параметр?Метод K ближайших соседей с адаптивнымрасстояниемПроцедура:Инициализация метрики единичной матрицей ∑ = I2.

Поиск K ближайших соседей вокруг x* в метрике ∑.3. Расчет W - взвешенной суммы внутриклассовых ковариационных матриц:1.W cC xk N ( x* ), yk c4. k ( xk  xc )( xk  xc )T… и B - взвешенной суммы межклассовых ковариационных матриц:B    k ( xk  x )( xk  x )T5.Новая метрика:K( l 1)  W 1/ 2 [W 1/ 2 BW 1/ 2   I ]W 1/ 2Повторить шаги 2-5 заданное число раз7. Применить стандартный KNN6.Выбор параметра KВажность K:k = 1: Результат = квадратk = 5: Результат = треугольникk = 7: Снова квадрат?Выбор k:Если k мал, то чувствительность к шуму, и негладкие границы классовЕсли k велико, то окрестность может сильно «задеть» соседний класс,зато гладкие границы При классификации надо использоватьнечетный k, чтобы не было «ничьей» Выбирается кросс-валиадцией или на валидационном наборе Стандартная эвристика k=sqrt(n)Свойства методов KNNОсновные свойства:«Ленивый классификатор» - не надо ничего обучать Качество классификации зависит, в основном, от структуры данных,от параметров в меньшей степени Обязательно нужна хорошая метрика и нормированные атрибутыДостоинства:Простой и легко реализуемыйОдин из самых точных Легко адаптируется под сложные типы «откликов», включаяранжирование, многотемность и т.д. Можно интегрировать экспертные знания, задавая веса у примеров,или параметры у метрикиНедостатки:«черный ящик» - результат не интерпретируемый совсемДостаточно вычислительно трудоемкий, проблема использованияиндексов для сложных структур X «Проклятие размерности»Проклятие размерностиБлижайшие соседи как правило расположены далеко прибольших размерностях.••Нам нужно получить значительную часть из N значений yi ,чтобы снизить дисперсию - например, 10%.10% соседей для случая больших размерностей не может бытьлокализована, так что мы уже можем сделать оценку E(Y|X = x) наоснове локального усреднения.Модельный пример, демонстрирующийпроклятие размерности1–D2–Dr=K/N Ep(r)=r1/p E10(0.01)=0.63 E10(0.1)=0.83–DПараметрические моделиЛинейная модель представляет собой важный примерпараметрической модели:Линейная модель определяется p + 1 параметрамиМы оцениваем параметры на основе подгонки модели наобучающем наборе данных.Хотя такие модели почти никогда не показывают оченьхорошую точность, но служат хорошей и интерпретируемойаппроксимацией неизвестной истинной функции f(X).Линейная регрессияЗадача регрессии:y ( x1,..., x p )  E (Y | X 1  x1,..., X p  x p )Уравнение линейной регрессии:pf ( X )  b0   X j b j  j 1ε = N(0,ϭ2) - шум Y –отклик X=(X1,…, Xp) - регрессоры (предикторы) b – параметры моделиЛинеаризируемые регрессии:Степенная ,Экспоненциальная Гиперболическая, и другиеy  ax1b1 x2b2 ...

x pp  ,yeba  b1 x1 b2 x2 ...bp x p ,y  (a  b1 x1  b2 x2  ...bp x p   ) 1Цель регрессионного анализа:Определение наличия связи между переменными и характера этойсвязи (подбор уравнения) Предсказание значения зависимой переменной с помощьюнезависимой(-ых) Определение вклада отдельных независимых переменных ввариацию зависимойПростая линейная регрессияНеизвестнаязависимостьY –^Yотстаткиb11unitY=b0+b1X^^^XY=b +b01Линиярегрессииunitsb0Предположения:• Независимость наблюдений• Выбранное уравнение регрессии (например, линейное)соответсвует истинной зависимости в данных• Нормальность ошибки (с константной дисперсией по всемнаблюдениям)23Базовая модель (Нулевая гипотеза)Нулевая гипотеза:Регрессионная модель приближает наблюдаемые данные нелучше базовой модели – константы (b1=0)Альтернативная гипотеза:Регрессионная модель лучше приближает наблюдаемые данныечем базовая модель – константа (b10)24Проверка предположений модели спомощью графиков остатковГрафики: как остатки зависят от прогноза, от отклика, отпредикторов25Графики остатковнормаНелинейная зависимостьЗависимость наблюденийГетероскедастичность26Множественная линейнаярегрессияПример линейной модели с двумя переменнымиY=b0+b1X1+b2X2+, гдеY – отклик, X1 и X2 предикторы,  - ошибка, b0, b1, и b2-параметры(неизвестные)Y* **Y** * ****** ****b0* * ****X1*****X2X2Нет зависимостиЕсть зависимость27X1Множественная линейная регрессияВ общем случае ищем зависимость как линейнуюкомбинацию k предикторов X1 - Xk:Y=b0+b1X1+...+bkXk+Y=b0+b1X1+b2X2+Y=b0+b1X1+b2X12+b3X2+b4X22+Линейная модель слинейными эффектамиЛинейная модель с нелинейнымиэффектами28Метод наименьших квадратов ипроблема мультиколлинеарностиОценка ошибки = сумма регрессионных остатков (квадратичная функцияпотерь):Npi 1j 1NRSS ( B)   ( yi  f ( xi ))   ( yi  b0   xijb j ) 22i 1В матричной форме:RSS ( B)  ( y  XB)T ( y  XB)Единственное оптимальное решение (если матрица данных не сингулярная)Недостатки:B  ( X T X )1 X T yСингулярная матрица данных из-за коррелированных факторов Большое число регрессоров – плохая точность и интерпретируемостьОсновные подходы:Поиск и удаление зависимых и незначимых факторов Использование «смещенных» регуляризированных моделей переход к новым независимым факторам, например, с помощью метода главныхкомпонентИллюстрация мультиколлинеарностиYисключимY*X1X1X2X2получимY• Портятся статистики соценкой значимостипеременных• Увеличивается вариативностьоценки параметров и какследствие ошибка• Есть тенденция кнеограниченному росту коэф.*X1X230Множественная линейная регрессияПредположения множественной линейной регрессии:Зависимость условного мат.

Характеристики

Тип файла

PDF-файл

Размер

2,06 Mb

Материал

Лекция (5)

Тип материала

Лекции

Предмет

(МИАД) Методы интеллектуального анализа данных

Высшее учебное заведение

МГУ им. Ломоносова

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов лекций

lekcija-5.rar

Лекция (5).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.