Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 21
Текст из файла (страница 21)
щ. р' 8,, ' р = ) Ь ( — 1) да (1); (2.46) (2.47) Р=1.1.т. (р' 8,, ' Х8, 'р+(и, '+и, ')8р 28„'28 ')= =Д(з( — 1)з( — 1Д) т ' ба(Дба(1,). (2.48) ~1 — з В !142! доказывается, что функция а, ((), минимизирующая а, может быть найдена при некоторых дополнительных предположениях в явном виде. Переход от предельных рекомендаций !1421 к построению практического алгоритма для конечных выборок является довольно сложной задачей и выполнен в !145!.
Соответствующая программа, названная ЭЛДА — экстремальный лпнейный дискриминантный анализ — хорошо работает начиная с р ) 5. Ее сравнение с юз матрица У диагональна. Введем функцию )т' (и) = р< >*75,; гз.<а, 1'=1.....а 4) прн и > 0 существуют пределы г (и)=1пп г (и), Й(и)=1!ш К (и); П$ И 5) выборки из совокупностей независимы. Матрица 8 вычисляется обычным образом согласно (2.3).
В сделанных предположениях существуют пределы в среднем квадратическом: Ь(г)=!.!.т. р '8р(1„— з8) т= ~(1 — гз(з)и)-тцг (и), (2.43) алгоритмами Фишер и Парзен (см. З 3.2) на ряде реальных коллекций данных с р — п, выполненное с помощью пакета СОРРА-2 !125), показало явное преимущество ЭЛДА перед алгоритмом Фишер и заметный выигрыш по сравнению с универсальным алгоритмом Парзен при использовании в последнем стандартных значений параметра сглаживания, предусмотренных в СОРРА-2. 2.5. Отбор переменных 2.5.
$. Увеличение ООК малоинформативными признаками. Один из очевидных выводов из формул 2 2.3 состоит в том, что включение в прогностическое правило малоинформативных переменных может заметно ухудшить его качество. Рис. 2.4 показывает это наглядно. Каждый признак наряду з ( ) снгндл а н 6 7 3 БЕЕ Одпдыдндмд штм Рнс. 23. Зависимость отношения снгнал/шум от чнсла отобранных параметров: хд — отношение снгнал/шум для я первых переменных с положительным вкладом в разделение несет в себе в силу ограниченности выборки и шумовую (случайную) составляющую.
Если много малоинформатнвных признаков, то отношение сигнал)шум значительно лучше для группы высокоинформативных признаков, чем для всей выборки. Тот же вывод подтверждают и числовые данные. Из анализа данных табл. 2.2 видно, что при известной ковариационной матрице Х обучаемость подстановочного алгоритма заметно лучше, чем в общем случае, когда Х неизвестна. Однако и при известном Х роль отношения р/а !04 существенна. Поэтому при относительно небольшом объеме выборки малоинформативные признаки в прогностическое правило лучше не включать.
Однако заранее информативность признаков обычно не известна и отбор наилучших среди них производится по выборке, но здесь мы сталкиваемся с новым явлением — отбор признаков может заметно ухудшить обучаемость алгоритма. 2.5.2. Влияние выборочных флуктуаций на результаты отбора признаков. Задача формирования наилучшей системы признаков трудна сама по себе как с технической, так и с методологической стороны даже в случае полностью определенных распределений (см.
$!.4). В дискриминантном анализе она усугубляется еще и выборочными флуктуациями. Для представления масштаба возникающей проблемы снова обратимся к модельному примеру. Пусть в модели Фишера с известной единичной ковариационной матрицей Ру = Ф(МР 1р) (1= 1, 2) (2.49) средние случайны: М, =- — Мз и М, Р й( (О, о'! р/4). (2.50) При моделировании сначала получают значения М, и М,, далее моделируются независимые выборки объема и каждая из Р, и Р,, и по ним с помощью изучаемого алгоритма А строится правило классификации.
Поскольку значения М, и М, известны, нетрудно оценить Рр, — асимптотическую ошибку классификации, которая, естественно, за- висит от М, и М,. Подбирая величину о', можно добиться того, что значение ЕР, будет достаточно близко к любому числу 0 з( 0,5. Пусть А — подстановочный алгоритм, действукяций в Йр и порождающий правило вида Ь(Х) = (Х вЂ” (Х1+ Хт!2))' (Ха — Х~) ~ ~с, (2.51) где с подбирается в каждой серии так, чтобы УОК была минимаксной. Пусть далее  — аналогичный подстановочный алгоритм, но с предварительным отбором г признаков из р. Прн этом отбор переменных проводится по величине модуля разности ~х, — х~' ~ так, что переменные с разно- и) (ю) стью, большей некоторого порога, включаются как «информативные», а с меньшей — нет.
В табл. 2.3 показаны три отношения х" =- ЕР"„|ЕР"„, хв = ЕРр г„/ЕР и у =-- (х" — 1) I (х' — 1), полученные методом статистического моделирования. Общий вывод, который можно сделать из табл. 2.3, следующий: в рассматриваемой моде- 105 ли, когда объем обучающей выборки ограничен и числа отобранных признаков в 4 — 8 раз меньше числа исходных переменных, ожидаемая ошибка алгоритма с отбором признаков по обучающей выборке заметно больше ожидаемой ошибки алгоритма без отбора. Правда, в качестве примера взята модель ситуации, весьма трудной для отбора. 2.5.3. Изучение эффекта отбора признаков в асимптотике растущей размерности.
Основное добавление к предположению (2.9) асимптотики растущей размерности при изучении эффекта отбора состоит в там, что г — числа отбираемых признаков — пропорционально р, т. е. что г/р- р)0. (2.52) Естественно также потребовать, чтобы расстояние между классифицируемыми распределениями оставалось ограниченным при росте р и а, т. е. чтобы о~ = 0 (р ') .
(2.53) Поскольку априори известно, что признаки независимы и нормально распределены с единичной дисперсией, переменную > включаем в числа отобранных, когда 1 х<'> — х>'> ) ) Т $/оэ+ 2/а, (2. 54) где Т = Т (р) определяется из условия 1 — Ф (Т) = р,'2. Условие(2.52) выполняется, так как х<о — х>о Е Ж (О, ох+ + 2/п). Пусть Д = Х (т1» т(»)2= ЕУ, >: ) АД> — е(>>~~т.а где для >, не удовлетворяющих условиюсуммнровання, положена >1> = О.
Согласно (2.3) АОК Р~Я, „= Ф ( — 1ппо/2). Найдем математическое ожидание одного, отличного от нуля, слагаемого в (2.55): ЕЩ(Д)Т'оз)= — > ха — ехр~ — — ~йх= 2 Г 1 Г х~ Р )/2я э 2о~ = — (>Ф ( — Т) + = ехр ( — Т'/2)). 2Ф Г Т р (, )/2я (2.56) ц>з яа 2о'р Ф( — Т) + — ехр( — Т'/2) (2.57) )/2я >07 Число отличных от нуля слагаемых асимптотическн равно рр, поэтому для больших р Теперь для значений р, А, Рв, указанных в табл, 2.3, можно найти ссютветствующие предельные значения нв (табл. 2.4). Таблица 24 а-ода а-ол а о.ин 2,78 2,19 1,69 1,30 1,18 2,22 1,75 1,41 1,18 1,13 3,18 2,56 1,96 1,48 1,23 0,5 1 2 5 10 0,10 4,9 2,7 1,79 1,29 1,14 2,9 1,9 1,42 1,16 1,07 0,5 1 5 1О 7,З з',в 2,3 1 4 1,2 0.01 Качественное соответствие данным табл. 2.3 полное. Однако численно изучаемый эффект более сильно выражен в асимптотической теории.
В близкой постановке ошибку классификации при отборе переменных изучал В. И. Сердобольский (! 40). Отличие гоз Обозначим Е, (1 =1, 2) условное математическое ожидание по наблюдению Х при условии, что 1) Х е Р, и 2) обучающая выборка фиксирована Пусть далее в соответствии с предположением (2.53) оо.р-~-р ( со, (2.58) тогда согласно (2.57) для р = 0,125; 0,25; 0,5 (соответствующие значения Травин 1,53; 1,15; 0,874) для получения Рв = = 0,0! р' должно быть соответственно равным 43,1; 29,9; 23,3 и для Рв — 0,10 )44= 13,08; 9,08; 7,08.
Для подсчета асимптотического значения УОК по конечной выборке при отборе и обучении надо найти в изучаемой асимптотике (2.9), (2.52), (2.49), (2.50), (2.58) предел отношения ((5,— 5,1 ав (х))' (2.59) (ав (Х) 5 ав (Х))а Он существует, так как в силу закона больших чисел существуют конечные пределы числителя и знаменателя. ОбознаЧИМ ЕГО 4(о, тОГДа 1пп ЕРв, = Ф [ — 3/2). (2.50) от рассмотренной выше задачи состояло в том, что он рассматривал модель блочно-независимых распределений (см.
п. 1.1.5 и 2.3.2) с одинаковым числом оцениваемых в блоках параметров (аналог матрицы !р в предположении (2.49)) и вместо предположения (2.50) на У; -расстояния Кульбака между 1-ми блоками (! = 1, ..., й) накладывалось в асимптотике (2.9) условие А-1 Х 1- Р(0) ./,. < е/ь где Р (о) известно. Соответственно отбор переменных проводился по условию У; с (т), где с (и) подбиралось так, чтобы выполнялось условие (2.52). Метод структурной минимизации риска ОдНа из основных трудностей традиционных алгоритмов дискриминантного анализа состоит в том, что оии существенно зависят от субъективных предположений (см.
п.2.1.!), которые трудно и не всегда можно проверить по имеющимся данным. Более того, исследователь порой знает, что предположения не верны, а продолжает ими пользоваться, так как они, существенно ограничивая класс возможных решающих правил, успешно работают в данной предметной области. Таким образом, результат применения дискриминантного анализа существенно субъективен, хотя сами алгоритмы полностью формализованы. Поэтому возникло направление исследований, рассчитанное на тех, кто не хотел бы начинать исследование с субъективных предположений.
Цель его — не столько предложить эффективные рабочие формулы, сколько развить общую теорию оценивания и на ее основании доказать, что в принципе при и- ао можно найти решение и без априорных предположений. В основе нового подхода лежит известное понятие функции потерь. Для простоты изложения ограничимся случаем двух классов, для которого функция потерь !)(а)=) (у — У(Х, сс))'пР(Х, у), (2.62) где (У (Х, я)) — некоторый класс функций, принимающих значения 1 = 1, 2 и зависящих от абстрактного параметра а; Р (Х, у) — неизвестная функция распределения (Х, у).
При вычислениях () (и) заменяют на ее выборочную оценку Я,„ь(а) = ~' (у~ — 1(Хо а)))!п. (2.63) з= ~ 109 Обозначим класс функций (Г (Х, а)) через 3, обычно его выбирают заметно шире, чем класс функций, используемый в статистическом дискриминантном анализе. Это позволяет, с одной стороны, отказаться от априорных предположений, а с другой — служит источником трудностей, о которых речь ниже. В классе Я ищут минимум по а 9,„„(а). Пусть он достигается при а.=а,.
Далее строится оценка, показывающая, насколько могут отличаться Я (сс,) и Я„„(а,). Эта оценка зависит от доверительной вероятности а н имеет вид Р((~(а„) — Я,„„(а)((й( —, — — )~ 1 — в, (2.64) ~ в к где 11 (и, и) — известная непрерывная функция своих аргументов Я (0,0) = 0; а — объем выборки; Ь вЂ” новое фундаментальное понятие, называемое емкостью класса 3 (44, с.