ММО и поиск достоверных закономерностей в данных. Учебное пособие. Сенько (1185323), страница 4
Текст из файла (страница 4)
Поэтому метод Лассо не только строит оптимальнуюрегрессионную модель, но и производит отбор переменных. Метод может бытьиспользован для отбора переменных в условиях, когда размерность данных превышаетразмер выборки. Отметим, что общее число отобранных переменных не может превышатьразмера обучающей выборки m . Эксперименты показали, что эффективность отборапеременных методом Лассо снижается, при высокой взаимной корреляции некоторых изних.Данными недостатками не обладает другой метод построения регрессионной модели,основанный на регуляризации по Тихонову, который называется эластичная сеть.
Методэластичная сеть основан на минимизации функционалаQr ( St , 0 , , n ) m1mj 1n 1ni 1i 0[ y sj i x sji]2 [ | i | (1 ) 12 i2 ] , где [0,1] .Метод эластичная сеть включает в себя метод гребневая регрессия и Лассо как частныеслучаи.Методы регрессионного анализа подробно рассматриваются в большом числепубликации. Например можно привести учебное пособие [4]. Методы регрессионногоанализа, основанные на регуляризации по Тихонову рассматриваются в курсе лекций [3]и книге [16]3. Методы распознавания3.1 Методы оценки эффективности алгоритмов распознаванияКаждый алгоритм распознавания классов K1 ,используемой модели, KLможет быть представленраспознающего оператора Rобъекта sкак последовательное выполнениеи решающего правила, K L соответственно.
Решающее правилопо вектору оценок[ 1 ( s),C : A R C . Операторs вещественные оценки 1 ( s),оценок вычисляет для распознаваемого объектаза классы K1 ,независимо от задачи илиC, L ( s)производит отнесение, L ( s)]к одному изклассов. Распространённым решающим правилом является простая процедура, относящаяобъект в тот класс, оценка за который максимальна. В случае распознавания двух классовK1иK2 1 ( s) 2 ( s) 0распознаваемый объекти классу K 2sбудет отнесён к классу K1 , еслив противном случае.Назовём приведённое выше правило правиломC (0) . Однако точность распознаванияправила C (0) может оказаться слишком низкой для того, чтобы обеспечить требуемуювеличину потерь, связанных с неправильной классификацией объектов, на самом делепринадлежащих классу K1 .
Для достижения необходимой величины потерь может бытьиспользовано пороговое решающее правило C ( ) : распознаваемый объектотнесён к классу K1 , еслиОбозначим черезобъекта spci ( , s) 1 ( s) 2 ( s) sбудети классу K 2 в противном случае.вероятность правильной классификации правилом, на самом деле принадлежащего K i ,i {1,2} .При 0pc1 ( , s) pc1 (0, s)pc1 ( , s), но pc 2 ( , s ) pc 2 (0, s ) . Уменьшаяи уменьшаем pc 2 ( , s ) . Напротив, увеличивая , мы уменьшаем pc1 ( , s)pc1 ( , s)pc 2 ( , s) .
Зависимость междуи увеличиваем , мы увеличиваемможет быть приближённо восстановлена по обучающей выборкеописания объектов {s1 ,Пустьиpc 2 ( , s), включающейSt, sm } 1 ( s1 ) 1 ( sm ) - матрица оценок за классы объектов {s1 ,(s)(s)2m 2 1, sm } . Поданной матрице оценок легко получить множество величин{ ( si ) 1 ( si ) 2 ( si ) | i 1, , m}, , где i 1, , m .Предположим, что величины ( si ) принимают r различных значений 1 ,Данным величинам можно сопоставить решающие правила C (1 ),каждого из правилa) долюK1, r ,, C ( r ) .ДляC ( i ) вычислим две величины:среди объектов обучающей выборки, удовлетворяющих условию ( s ) i , которую обозначим c1 (i ) ;b) долюK2среди объектов обучающей выборки, удовлетворяющих условию ( s* ) i , которую обозначим c 2 (i ) .В результате мы получим r пар чисел{[ c1 (1 ), c 2 (1 )], ,[ c1 ( r ), c 2 ( r )]} .Каждая пара чисел может рассматриватьсясистеме координат.
Таким образом,как точка на плоскости в декартовойнабору пороговых элементов1 ,, rсоответствует набор точек на плоскости.Соединив соседние по номерусоединяющуюточки отрезками прямых, получим ломаную линию,точки (1,0) и (0,1), которая изображена на рисунке 3.1. Данная линияграфически отображает аппроксимацию по обучающеймеждуpc1 ( , s)иpc 2 ( , s)выборке взаимозависимостипри всевозможных значенияхСоответствующий пример представлен на рисунке 2.
Взаимозависимость между. c1 и c2чтонаиболее полно оценивает эффективность распознающего оператора R. Отметим, c1постепенно убывает по мере роста c2 ..Рис 3.1. Ломаная (I) соединяет точки на двумерной плоскости в декартовой системекоординат, которые являются соседними в ряду (1.1) . c1Однако сохранение высокого значенияпри высоких значениях c2соответствует существованию решающего правила, при котором точность распознаванияобоих классов высока.Наиболееэффективному распознающемуоператору,обеспечивающему полное распознавание классов соответствует совпадение линии I спрямой, связывающей точки (0,1) и (1,1).Отсутствию распознающей способностисоответствует совпадение с прямой II, связывающей точки (0, 1)и (1,0).
В целомэффективность распознающего оператора может характеризоваться формой линии I. Чемближе линия I к прямой, связывающей точки (0,1) и (1,1), тем лучше распознающийоператор и соответствующий ему метод распознавания. Наоборот, приближенностьлинии I к прямой, связывающей точки (0,1) и (1,1), соответствует низкой эффективностисоответствующего метода распознавания.На рисунке 3 сравниваются линии, характеризующие эффективность распознающихоператоров, принадлежащих к трём методам распознавания, при решении задачдиагностикидвух видов аутизма по психометрическим показателям. Изучаласьэффективность-линейного дискриминанта Фишера (ЛДФ) с соответствующей линией обозначенной- метода опорных векторов (МОВ) c линией, обозначенной;;-метода статистически взвешенные синдромов (СВС) c линией, обозначенной.Рис.
3.2 Сравнение трёх метод распознавания с помощьюМетоды распознавания используются при решении многих задач идентификацииобъектов, представляющих важность для пользователя. Эффективность идентификациидля таких задач удобно описывать в терминах:«Чувствительность» - доля правильно распознанных объектов целевого класса«Ложная тревога» - доля объектов ошибочно отнесённых в целевой класс.Пример кривой, связывающей параметрыпредставлен на рисунке 4.«Чувствительность»и «Ложная тревога»Рис. 3.3 Вид ROC кривой в координатах чувствительность (ось Y) и ложная тревога (осьX)Анализ, основанный на построении и анализе линий, связывающих параметры«Чувствительность» и «Ложная тревога» принято называть анализом Receiver OperatingCharacteristic или ROC-анализом.Отметим, что по мере увеличения числа пороговых точек , что обычно происходит привозрастании объёма выборки, ломаная линия I постепенно приближается к некоторойкривой.
Поэтому линию Линии, связывающих параметры«Чувствительность»и«Ложная тревога» принято называть ROC-кривыми. В качестве меры близости к прямой,связывающей точки (0,0) и (1,1), соответствующей абсолютно точному распознаванию,используется площадь под ROC – кривой.Задачакразделу«Методыоценкиэффективностиалгоритмовраспознавания»Банк использует 2 метода распознавания для повышения прибыли при кредитовании.Используемая технология основана на распознавании в заёмщиков, для которых рискотказа от выплат по кредиту является высоким.
Предполагается, что доход банка содного добросовестного заёмщика составляет d 10000 условных единиц (у.е.). Потерибанка при отказе от выплат по кредиту составляет L 45000 у.е. Доля заёмщиков,отказывающихся от выплат по кредиту составляет prej 0.05. В таблице приведенызначения чувствительности и ложной тревоги при некотором наборе пороговых значенийдля методов распознавания A и B.Таблица 1Метод AМетод BЧувстительность Ложная тревогаЧувстительностьЛожная тревога0.030.0010.030.0010.080.0020.160.0020.130.010.280.020.190.030.440.060.270.070.570.080.340.090.610.090.470.110.670.110.610.140.690.140.740.170.720.170.910.210.780.20.970.240.830.2310.280.880.270.920.320.980.3510.37Вопросы. Позволяют ли приведённые в таблице 1 данные сделать вывод о потенциальнойвозможности увеличении дохода банка при использовании метода A или метода B?Какой из двух методов позволяет получить более высокий доход?Решение.
Средний доход банка на одну поданную заявку на кредит в D случае, когдаметоды распознавания не используются очевидно может быть найден по формулеD d * (1 prej ) prej * L 10000 * 0.95 45000 * 0.05 7250 ,При использовании метода распознавания с чувствительностью Sen и уровнем ложнойтревоги Fa . Величина потерь, произошедших непосредственно из-за отказов от выплатпо кредиту, которая без применения методов распознавания была равна prej * L ,становится равной prej * L * (1 Sen) .
Величина дохода, полученная на добросовестныхзаёмщиков, которая без применения методов распознавания была равна d * (1 prej ) , вслучае применения метода распознавания оказывается равной d * (1 prej ) * (1 Fa) .Таким образом величина дохода в случае использование метода распознаваниярассчитывается по формулеD d * (1 prej ) * (1 Fa) prej * L * (1 Sen)3.2 Байесовские методыРанее было показано, что максимальную точность распознавания классовобеспечивает байесовскоеописываемый вектором, KLрешающее правило, относящее распознаваемый объект,переменных (признаков) X 1 ,которого условная вероятностьБайесовские методыK1 ,, Xnк классу K ib, дляP( K ib | x) максимальна.обучения основаны на аппроксимации условных вероятностейклассов в точках признакового пространства с использованием формулы Байеса.
ФормулаБайеса позволяет рассчитать условные вероятности классов в точке признаковогопространства:P ( K i | x) pi (x)P( Ki ) p ( x) P ( K )j 1где,Liipi (x) - плотность распределения вероятности для класса K i ; P ( K i ) -вероятность класса K iбезотносительно к признаковым описаниям (априорнаявероятность).При этом в качестве оценок априорных вероятностеймогут быть взята доляP( Ki )объектов класса K i в обучающей выборке, которая далее будет обозначатьсяПлотности вероятностейi .восстанавливаются исходя изp1 (x), , pL (x)предположения об их принадлежности фиксированному типу распределения.
Чаще всегоиспользуетсямногомерноенормальноераспределения.Плотностьданногораспределения в общем виде представляется выражениемp ( x) 1(2 )n/2||1/ 2exp[ 12 (x μ)1 (x μ)t ]где μ - математическое ожидание вектора признаков X 1 ,Σ - матрица ковариаций признаков X 1 ,, Xn ;, Xn| Σ | - детерминант матрицы Σ .Для построения распознающего алгоритма достаточно оценить вектора атематическихожиданий μ1 ,и матрицы ковариаций Σ1 ,,μLсоответственно. Оценка μ i, ΣLдля классов K1 ,, KLвычисляется как среднее значение векторов признаков пообъектам обучающей выборки из класса K i :μˆ i m1iгдеmi - число объектов класса K is j St Kixj ,в обучающей выборке.Оценка элемента матрицы ковариаций для класса K iˆ kki m1ikiгдеэлементовпроизведениеs j St Ki( x jk ki )( x jk ki ), k , k {1, , n} ,- k-я компонента вектора kki P ( K i | x)обозначимвычисляется по формулеμi .