Лекция 12 (2012 Лекции МОТП (Сенько))
Описание файла
Файл "Лекция 12" внутри архива находится в папке "2012 Лекции МОТП (Сенько)". PDF-файл из архива "2012 Лекции МОТП (Сенько)", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
МАТЕМАТИЧЕСКИЕОСНОВЫ ТЕОРИИПРОГНОЗИРОВАНИЯЛекторСенько Олег ВалентиновичЛекция 12Виды задач прогнозированияРанее нами рассматривались разнообразные средства решениязадачи распознавания и задачи прогнозирования непрерывныхпеременных (регрессионного анализа). Однако в различныхприкладных исследованиях и практической деятельностивстречаются задачи, которые не могут быть адекватно решенытолько лишь с помощью данных средств. К числу таких задачследует отнести задачу анализа выживаемости в медицине ибиологии или задачу анализа надёжности в технике.Задачи анализа выживаемости илинадёжностиЦелью таких задач является восстановление вероятности того, чтоожидаемое критическое событие с исследуемым объектомпроизойдёт не ранее произвольного момента времени.
Такимкритическим событием может быть отказ изделия в технике,гибель испытуемого организма в биологии или смерть пациентав медицине.Таким образом целью анализа является вычисление функции(кривой) выживаемостиS (t ) Pr{T t}, где T - времянаступления критического события, Pr -вероятность.Задачи анализа выживаемости илинадёжностиСледует отметить, что в большинстве практических исследованияхважно не только вычислить кривую выживаемости, но и оценитьвлияние на неё переменных, характеризующих исследуемыеобъекты.
Такими переменными могут быть, например, возрастпациента и различные клинические показатели вбиомедицинских исследованиях, или параметры,характеризующие условия изготовления изделия, в задачаханализа надёжности.Задачи анализа выживаемости илинадёжностиЗадача расчёта кривых выживаемости и оценки влияния на нихразличных переменных может быть решена с помощью методовмоделирования по эмпирическим данным.Методы анализа выживаемости по эмпирическим данным тесносвязаны с цензурированностью информации.
Наблюдение встатистике считается цензурированным, если известно неточное значение наблюдаемой величины, а только интервал,которому оно принадлежит. Данный интервал может быть какконечным, так и бесконечным (ограниченным с одной стороны).Задачи анализа выживаемости илинадёжностиВ данных, связанных с анализом выживаемости или надёжностинередко цензурированной оказывается информация онаступлении критического события. Например, в анализируемойвыборке может содержаться информация не только об объектах,для которых критическое событие уже наступило, и момент этогособытия был точно зафиксирован, но также и об объектах, длякоторых критическое событие на момент последнегонаблюдения не произошло.Задачи анализа выживаемости илинадёжностиВыборки данных в задачах анализа выживаемости обычно имеютвид S {s1 (1, t1, x1 ),, sm ( m , tm , xm )} , где ti -время, прошедшее от начального момента (например, моментизготовления изделия) до момента последнего наблюденияза объектом, - индикатор, равный 1 , если в момент ti дляiобъекта siбыло зафиксировано критическое событие, иравный 0 , если в момент ti критическое событие ненаступило, x i - вектор переменных X1,, X n , которыепотенциально могут оказывать влияние на форму кривойвыживаемости, i 1, , m .Задачи анализа выживаемости илинадёжностиРассмотрим методы восстановления кривых выживаемости приигнорировании влияния на их форму переменныхX1,, XnОдним из наиболее популярных методов восстановления кривыхвыживаемости в этих случаях является процедура КапланМайера, учитывающая существование цензурированныхнаблюдений.
При отсутствии таких наблюдений процедураКаплан-Майера эквивалентна вычислению обычныхэмпирических наблюдений.Задачи анализа выживаемости илинадёжностиПредположим, что наблюдения в некоторой выборке S фиксировались в моментыt1 ,, t N . Пустьni - число объектов,для которых критический момент не наступил до моментавремени ti , d i число критических событий в момент ti .Оценка значения кривой выживаемости мо методу Каплан-Майера на полуинтервале (ti , ti 1 ] вычисляется по формуле.inj d jj 1njS (t ) Задачи анализа выживаемости илинадёжности На рисунке представлены примерыоценок кривых вы-живаемости по методуМайераКапландля двухгрупп пациентов сдвумя вариантамигенотипа.Задачи анализа выживаемости илинадёжностиВ настоящее время существует целый ряд методов оценки влиянияпеременных X1,, X n на форму кривой выживаемости.Одной из популярных моделей до сих пор является модельКокса, основанная на концепции мгновенного риска.Мгновенный риск в момент t определяется как пределPr(T (t t ) | T t )f (t ) (t ) limt 0tS (t )Задачи анализа выживаемости илинадёжностиf (t ) - плотность вероятности наступления критического событияdF (t )tв точке : f (t ) , где F (t ) 1 S (t )dtТо естьdS (t ) Откуда ln S (t ) (t ) или (t )dt S (t )S (t ) exp[(t )] , гдеt(t ) (t )dt , t0 - моментt0начального отсчёта, который может быть принят равным 0.Задачи анализа выживаемости илинадёжностиВ случае если форма кривой выживаемости зависит отпеременныхфункциейX1,X1,, X n , мгновенный риск также оказывается, XnВ основе модели Кокса (модели пропорциональных рисков) лежитпредположение о возможности представления мгновенногориска для произвольного объекта s с описанием x ( x* , , x* )**1n*в виде произведения (t | x ) (t )exp( x* x*01 1n n), где 0 (t ) - базовая компонента, зависящая только от времени.Задачи анализа выживаемости илинадёжностиtПусть S0 (t ) exp[0 (t )] , где (t ) (t ) dt .
Откуда0 0t0следует, что S (t ) S (t )exp( 1x1* 0Для поиска параметров ( 1 , n xn* ), n ) используется методмаксимального правдоподобия. Предположим, что длянастройки модели пропорциональных рисков используетсяобучающая выборкаSt {s1 (1 , t1 , x1 ),, sm ( m , tm , xm )}Задачи анализа выживаемости илинадёжностиПредположим, что критическое событие для объекта si произошло в момент времени ti . Вероятность того, что среди всехобъектов, для которых критическое событие до момента ti ненаступало, это событие в момент ti произошло именно с siоценим с помощью отношения (ti | xi )0 (ti ) exp( 1 xi1 n xin ) (ti | x j ) 0 (ti ) exp( 1x j1 n x jn )t j tit j tiexp( 1 xi1 exp( xt j ti1j1 n xin ) n x jn )Задачи анализа выживаемости илинадёжностиФункционал правдоподобия записывается в видеim exp( 1 xi1 n xin ) .L( 1 , , n ) i 1 exp( 1 x j1 n x jn ) t j tiВ модели используются значения ( 1 , , n ) , при которыхдостигает максимумаL( 1 ,, n ) .Задачи анализа выживаемости илинадёжностиНаряду со значением параметров ( , , ) неизвестным1nпараметром модели пропорциональных рисков является формабазовой функции выживаемости S0 (t ) .
Одним из возможныхпоходов является аппроксимация произвольного моментавремени ti , для которого имело место критическое событие,отношения S (ti | 1 , , n , xi ) величинойS (ti 1 | 1 , , n , xi )1exp( 1 xi1 exp( xt j tiгде ti 1 - предыдущий момент.1j1 n xin ) n x jn ),(1)Задачи анализа выживаемости илинадёжностиПредполагается, что параметры ( 1 ,, n ) уже найдены спомощью метода максимального правдоподобия.Очевидно, чтоexp{ 1xi 1 S0 (ti ) S (ti | 1 , , n , xi )S (ti 1 | 1 , , n , xi ) S0 (ti 1 ) S0 (ti )Обозначимчерез iS0 (ti 1 ) n xin }(2)Задачи анализа выживаемости илинадёжностиИз (1) и (2) следует , что i 1 {exp( 1 xi 1 exp( 1 xi1 n xin ) exp( 1 x j1 n x jn ) t j ti n xin )}1Оценка базовой функции выживаемости на полуинтервале (ti , ti 1 ]iвычисляется по формулеS0 (t ) jj 1Временные рядыПод временным рядом понимается множество значений некоторой переменной, измеренных в моменты времени,разделённые одинаковыми интервалами., Z (ti 1 ), Z (ti ), Z (ti 1 ),Временной ряд считается многомерным, если в каждый моментвремени измеряются значения нескольких переменных, Z1 (ti 1 ), Z1 (ti ), Z1 (ti 1 ),, Z k (ti 1 ), Z k (ti ), Z k (ti 1 ),Временные рядыОсновной задачей анализа временных рядов является поискалгоритма, позволяющего предсказывать значения переменнойZ или значения переменных из некоторогоподмножества{Z1 ,, Z k } в ещё не наступившие моментывремени.
Дополнительными задачами анализ временных рядовявляется поиск существующих эмпирических закономерностей,включая поиск циклических изменений переменных.Прогнозирование временного ряда производится с помощьюалгоритма, обученного по доступному в результате наблюденийучастку временного ряда достаточной длины.Временные рядыОдним из способов прогнозирования временных рядов являетсяиспользование одномерной регрессионной функцииf (t ) ,зависящей от времени.
В тех случаях, когда прогностическаяf (t ) является статистически достоверной, аспособностьфункцияf (t ) является линейной, говорят о наличии вовременном ряду тренда.Значения переменной Z в различных точках временного ряда, Z (ti 1 ), Z (ti ), Z (ti 1 ),могут рассматриваться как реализации случайных функций., zi 1, zi , zi 1,Временные рядыПроцесс, отображаемый временным рядом, называетсястационарным, если совместное распределение вероятностидля произвольных r случайных величинzi 1 , zi 2 ,, zi rСовпадает с совместным распределением r случайных величинzi 1l , zi 2l ,, zi r l при произвольном целом l .
Очевидно,что процесс является стационарным, если переменные, zi 1, zi , zi 1,являются независимыми и одинаковораспределёнными.Временные рядыПредположим, что функция f (t ) полностью характеризуетпроцесс. Это означает, что, i 1, i , i 1,Z (ti ) f (ti ) i , где- независимые и одинаковораспределённые ошибки. Тогда случайный процесс,отображаемый временным рядом,,[ Z (ti 1 ) f (ti 1 )],[Z (ti ) f (ti )],[Z (ti 1 ) f (ti 1 )],оказывается стационарным.Временные рядыДругим способом прогнозирования временного ряда впроизвольной точке ti является использование алгоритма A ,вычисляющего оценку переменной Z по наборупредшествующих значенийТо естьZˆ (ti ) A[ Z (ti j1 ),натуральные числа-[ Z (ti j1 ),, Z (ti jn )] , где ( j1 ,, Z (ti jn )], jn ) -Временные рядыПростейшим примером такого рода прогнозирования являетсяметод скользящего среднего, вычисляющего оценку Z в видеZˆ (ti ) n1n Z (tj 1i j)А также метод взвешенного скользящего среднегоZˆ (ti ) nгдеcj 1j 1, c j 0,n1n c Z (tj 1jj 1,i j,n) ,Временные рядыНетрудно видеть, что прогностическая способность методаскользящего связана с относительным постоянствоматематического ожидания случайных величинzi n ,., ziМетод скользящего среднего используется для “сглаживания”временных рядов, фильтрации высокочастотной шумовойсоставляющей.В общем случае для обучения алгоритма A могут бытьиспользованы всевозможные методы регрессионного анализа ираспознавания, если переменная Z категориальная.Временные рядыПри этом обучение может производится по таблице, составленныйиз элементов, принадлежащих известному участку временногоряда.