Лекция (5) (1185745)
Текст из файла
Лекция 5:задача прогнозирования,проклятие размерности,переобучениеДемонстрационный пример: что такоепрогнозирование?Показаны зависимости продаж от каналов рекламы: ТВ, радиои газет– синяя прямая линейной регрессии отдельно длякаждого параметра.Можно ли спрогнозировать продажи на основе этого всего всовокупности?Возможно мы можем сделать лучший прогноз, используямодельSales ≈ f(TV, Radio, Newspaper)Демонстрационный пример:обозначенияЗдесь Sales – это отклик или целевая переменная, которую мыхотим спрогнозировать. Обычно обозначаем отклик как Y.TV - это признак или вход; обозначим его как.
ПризнакRadio как, и так далее.Тогда весь входной вектор можно обозначить какМожно описать всю модель какгде ϵ отражает ошибки измерения и другие отклонения.Задача «обучения с учителем»Множество «размеченных» примеров (прецедентов):обучающая выборка или тренировочный набор:Z {( xi , yi )}in1 X YX: «сигнал», «объект», «ситуация»Y: «отклик», «прогнозируемая величина»Неформальная постановка задачи:fZ : X YДва этапа: обучение и прогнозированиеОбучениеМетод машинногообученияТренировочныйнаборNAMEMikeMaryBillJimDaveAnneRANKAssistant ProfAssistant ProfProfessorAssociate ProfAssistant ProfAssociate ProfYEARS372763TENUREDnoyesyesyesnonoМодельпрогнозированияIF rank = ‘professor’OR years > 6THEN tenured = ‘yes’Оценка и прогнозированиеМодельпрогнозированияТестовыеданные«Новые» данные(Jeff, Professor, 4)NAMETomMerlisaGeorgeJosephRANKAssistant ProfAssociate ProfProfessorAssistant ProfYEARS2757TENUREDnonoyesyesTenured?Типы задач прогнозированияОпределяются типом допустимых значений «отклика» yi и тойоценкой качества, которая используется для выбора моделиБинарная классификация (разделение):Регрессия:yi - дискретная величина (метка класса), на Y нет порядка, f – дискретнаяфункцияМного-темная (multi-label) классификация:yi - вещественное число, f – вещественная функцияКлассификация:yi - бинарная, f – бинарная функцияyi – множество неупорядоченных дискретных величин (меток классов), f– бинарная вектор-функция (i-й разряд – «да»/«нет» для i-го класса)Ранжирование:yi – множество упорядоченных дискретных величин (меток классов), f –вещественная вектор-функция (i-й разряд – ранг для i-го класса)Применение методовпрогнозирования в задачах ИАДПрогнозирование ради прогнозирования:Автоматическая классификация и прогнозирование (обучились иприменяем модель для решения прикладной задачи) Выявление и описание основных зависимостей, т.е.
как значенияхарактеристик примера влияют на отклик (важны нтерпретируемостьи визуализируемость модели)Предобработка данных:«Условная» дискретизация (разбиение значений свойств примеровна интервалы с учетом отклика) Обработка пропущенных значений (импутация)Поиск исключений и артефактов:Что не соответствует прогнозу, то аномалия Поиск и построение моделей «редких» (или малых) классовОбласти применения:Везде, где необходим прогноз или классификацияЧто означает, что f(X) дает «хороший»прогноз?Имея функцию f можно найти Y для новой точки X = x.Мы можем оценить, какая компонентаважна в объяснении YВ зависимости от сложности функции f, мы можем понять как каждыйкомпонент вектора X влияет на Y .Существует ли идеальная f(X)? Какое «хорошее» значение f(X) длявыбранного X (например, X = 4)? Может быть много значений Y для X.Хорошее значение таково, что f(4) = E(Y|X = 4)E(Y|X = 4) – ожидаемое значение (среднее) из Y для заданного.f(x) = E(Y|X = x) называется функцией регрессии.Функция регрессии f(x)Аналогично определяется для вектора X, например:Является оптимальным предиктором Y относительносреднеквадратичной ошибки прогнозирования: f(x) = E(Y|X = x) этофункция которая минимизируетпо всем функциям g во всех точках X = x.- это несокращаемая ошибка, обычно существуетраспределение возможных значений.Для любой оценкифункции f(x), мы имеем:Другие функции потерьФункция потерь L Y Y R характеризует отличиеправильного ответа от спрогнозированногоПримеры:Классификация и регрессия:L( y , y ) [ y y ], L( y, y ) y y ,L( y , y ) y y , L( y, y ) y y 2Много-темная классификация:HL yy , ab (a b) \ (a b), a Y , b YРанжирование:|{(l , s) y y : yl ys } |RL | y || y |Оценка качества прогноза:Усреднение потерь по множеству примеровКак оценить f?Обычно мы имеем немного точек с одинаковым X.Таким образом мы не можем вычислить E(Y|X = x)!Определимгде N(x) – некоторая окрестность точки x.Усреднение по ближайшим соседям может быть достаточнохорошо для малых p (число признаков) и больших N (числонаблюдений).Методы ближайших соседей могут плохо работать при больших p.Метод K ближайших соседейОбщая схема работы:Каждый пример – точка в пространстве, все примеры хранятсяВводится метрика расстояния с учетом нормирования координатИщется K (от 1 до …) ближайших соседейПрогноз вычисляется как функция от откликов найденныхсоседей по одному из алгоритмов:y* F* (y )xi N ( x )Метод KNN:Для задачи регрессии отклик считаетсякак среднее по откликам всех соседей: Для классификации выбирается самыйчастый класс:_+__ N(x*)__+._x* ++...y* 1Kiyixi N ( x* )y * arg max yi c cC , xi N ( x* ).Метод «взвешенных» K ближайшихсоседейМетод KWNN:На базе KNN, но помимо распределения «отклика» учитываются ирасстояния до соседей в окрестностиУчет происходит за счет «взвешенного» голосования дляклассификации:w y c y * arg max i i * wi cC , xi N ( x* ) x j N ( x ) И «взвешенного» среднего для регрессииy* wi yixi N ( x* )wixi N ( x )*весовой коэффициент обратно пропорционален квадрату расстоянияили пропорционален корреляции с откликомМетод K ближайших соседей с адаптивнымрасстояниемМетод DANN (в майнере не поддерживаетя):На базе KNN, но используется локальный дискриминантный анализ дляадаптации метрики расстояния с учетом структуры распределениясоседей в окрестности:(l )**T(l )*Параметры алгоритма:d ( x , xi ) ( x xi ) ( x xi )KM – число соседей для оценки метрики(нужно побольше) K – число соседей для прогноза(лучше поменьше) ε – «смягчающий» параметр?Метод K ближайших соседей с адаптивнымрасстояниемПроцедура:Инициализация метрики единичной матрицей ∑ = I2.
Поиск K ближайших соседей вокруг x* в метрике ∑.3. Расчет W - взвешенной суммы внутриклассовых ковариационных матриц:1.W cC xk N ( x* ), yk c4. k ( xk xc )( xk xc )T… и B - взвешенной суммы межклассовых ковариационных матриц:B k ( xk x )( xk x )T5.Новая метрика:K( l 1) W 1/ 2 [W 1/ 2 BW 1/ 2 I ]W 1/ 2Повторить шаги 2-5 заданное число раз7. Применить стандартный KNN6.Выбор параметра KВажность K:k = 1: Результат = квадратk = 5: Результат = треугольникk = 7: Снова квадрат?Выбор k:Если k мал, то чувствительность к шуму, и негладкие границы классовЕсли k велико, то окрестность может сильно «задеть» соседний класс,зато гладкие границы При классификации надо использоватьнечетный k, чтобы не было «ничьей» Выбирается кросс-валиадцией или на валидационном наборе Стандартная эвристика k=sqrt(n)Свойства методов KNNОсновные свойства:«Ленивый классификатор» - не надо ничего обучать Качество классификации зависит, в основном, от структуры данных,от параметров в меньшей степени Обязательно нужна хорошая метрика и нормированные атрибутыДостоинства:Простой и легко реализуемыйОдин из самых точных Легко адаптируется под сложные типы «откликов», включаяранжирование, многотемность и т.д. Можно интегрировать экспертные знания, задавая веса у примеров,или параметры у метрикиНедостатки:«черный ящик» - результат не интерпретируемый совсемДостаточно вычислительно трудоемкий, проблема использованияиндексов для сложных структур X «Проклятие размерности»Проклятие размерностиБлижайшие соседи как правило расположены далеко прибольших размерностях.••Нам нужно получить значительную часть из N значений yi ,чтобы снизить дисперсию - например, 10%.10% соседей для случая больших размерностей не может бытьлокализована, так что мы уже можем сделать оценку E(Y|X = x) наоснове локального усреднения.Модельный пример, демонстрирующийпроклятие размерности1–D2–Dr=K/N Ep(r)=r1/p E10(0.01)=0.63 E10(0.1)=0.83–DПараметрические моделиЛинейная модель представляет собой важный примерпараметрической модели:Линейная модель определяется p + 1 параметрамиМы оцениваем параметры на основе подгонки модели наобучающем наборе данных.Хотя такие модели почти никогда не показывают оченьхорошую точность, но служат хорошей и интерпретируемойаппроксимацией неизвестной истинной функции f(X).Линейная регрессияЗадача регрессии:y ( x1,..., x p ) E (Y | X 1 x1,..., X p x p )Уравнение линейной регрессии:pf ( X ) b0 X j b j j 1ε = N(0,ϭ2) - шум Y –отклик X=(X1,…, Xp) - регрессоры (предикторы) b – параметры моделиЛинеаризируемые регрессии:Степенная ,Экспоненциальная Гиперболическая, и другиеy ax1b1 x2b2 ...
x pp ,yeba b1 x1 b2 x2 ...bp x p ,y (a b1 x1 b2 x2 ...bp x p ) 1Цель регрессионного анализа:Определение наличия связи между переменными и характера этойсвязи (подбор уравнения) Предсказание значения зависимой переменной с помощьюнезависимой(-ых) Определение вклада отдельных независимых переменных ввариацию зависимойПростая линейная регрессияНеизвестнаязависимостьY –^Yотстаткиb11unitY=b0+b1X^^^XY=b +b01Линиярегрессииunitsb0Предположения:• Независимость наблюдений• Выбранное уравнение регрессии (например, линейное)соответсвует истинной зависимости в данных• Нормальность ошибки (с константной дисперсией по всемнаблюдениям)23Базовая модель (Нулевая гипотеза)Нулевая гипотеза:Регрессионная модель приближает наблюдаемые данные нелучше базовой модели – константы (b1=0)Альтернативная гипотеза:Регрессионная модель лучше приближает наблюдаемые данныечем базовая модель – константа (b10)24Проверка предположений модели спомощью графиков остатковГрафики: как остатки зависят от прогноза, от отклика, отпредикторов25Графики остатковнормаНелинейная зависимостьЗависимость наблюденийГетероскедастичность26Множественная линейнаярегрессияПример линейной модели с двумя переменнымиY=b0+b1X1+b2X2+, гдеY – отклик, X1 и X2 предикторы, - ошибка, b0, b1, и b2-параметры(неизвестные)Y* **Y** * ****** ****b0* * ****X1*****X2X2Нет зависимостиЕсть зависимость27X1Множественная линейная регрессияВ общем случае ищем зависимость как линейнуюкомбинацию k предикторов X1 - Xk:Y=b0+b1X1+...+bkXk+Y=b0+b1X1+b2X2+Y=b0+b1X1+b2X12+b3X2+b4X22+Линейная модель слинейными эффектамиЛинейная модель с нелинейнымиэффектами28Метод наименьших квадратов ипроблема мультиколлинеарностиОценка ошибки = сумма регрессионных остатков (квадратичная функцияпотерь):Npi 1j 1NRSS ( B) ( yi f ( xi )) ( yi b0 xijb j ) 22i 1В матричной форме:RSS ( B) ( y XB)T ( y XB)Единственное оптимальное решение (если матрица данных не сингулярная)Недостатки:B ( X T X )1 X T yСингулярная матрица данных из-за коррелированных факторов Большое число регрессоров – плохая точность и интерпретируемостьОсновные подходы:Поиск и удаление зависимых и незначимых факторов Использование «смещенных» регуляризированных моделей переход к новым независимым факторам, например, с помощью метода главныхкомпонентИллюстрация мультиколлинеарностиYисключимY*X1X1X2X2получимY• Портятся статистики соценкой значимостипеременных• Увеличивается вариативностьоценки параметров и какследствие ошибка• Есть тенденция кнеограниченному росту коэф.*X1X230Множественная линейная регрессияПредположения множественной линейной регрессии:Зависимость условного мат.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.