Главная » Просмотр файлов » ММО и поиск достоверных закономерностей в данных. Учебное пособие. Сенько

ММО и поиск достоверных закономерностей в данных. Учебное пособие. Сенько (1185323), страница 4

Файл №1185323 ММО и поиск достоверных закономерностей в данных. Учебное пособие. Сенько (2015 Учебное пособие ММО (Сенько)) 4 страницаММО и поиск достоверных закономерностей в данных. Учебное пособие. Сенько (1185323) страница 42020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 4)

Поэтому метод Лассо не только строит оптимальнуюрегрессионную модель, но и производит отбор переменных. Метод может бытьиспользован для отбора переменных в условиях, когда размерность данных превышаетразмер выборки. Отметим, что общее число отобранных переменных не может превышатьразмера обучающей выборки m . Эксперименты показали, что эффективность отборапеременных методом Лассо снижается, при высокой взаимной корреляции некоторых изних.Данными недостатками не обладает другой метод построения регрессионной модели,основанный на регуляризации по Тихонову, который называется эластичная сеть.

Методэластичная сеть основан на минимизации функционалаQr ( St ,  0 , ,  n ) m1mj 1n 1ni 1i 0[ y sj   i x sji]2   [ | i |  (1   ) 12  i2 ] , где   [0,1] .Метод эластичная сеть включает в себя метод гребневая регрессия и Лассо как частныеслучаи.Методы регрессионного анализа подробно рассматриваются в большом числепубликации. Например можно привести учебное пособие [4]. Методы регрессионногоанализа, основанные на регуляризации по Тихонову рассматриваются в курсе лекций [3]и книге [16]3. Методы распознавания3.1 Методы оценки эффективности алгоритмов распознаванияКаждый алгоритм распознавания классов K1 ,используемой модели, KLможет быть представленраспознающего оператора Rобъекта sкак последовательное выполнениеи решающего правила, K L соответственно.

Решающее правилопо вектору оценок[ 1 ( s),C : A  R  C . Операторs вещественные оценки  1 ( s),оценок вычисляет для распознаваемого объектаза классы K1 ,независимо от задачи илиC,  L ( s)производит отнесение,  L ( s)]к одному изклассов. Распространённым решающим правилом является простая процедура, относящаяобъект в тот класс, оценка за который максимальна. В случае распознавания двух классовK1иK2 1 ( s)   2 ( s)  0распознаваемый объекти классу K 2sбудет отнесён к классу K1 , еслив противном случае.Назовём приведённое выше правило правиломC (0) . Однако точность распознаванияправила C (0) может оказаться слишком низкой для того, чтобы обеспечить требуемуювеличину потерь, связанных с неправильной классификацией объектов, на самом делепринадлежащих классу K1 .

Для достижения необходимой величины потерь может бытьиспользовано пороговое решающее правило C ( ) : распознаваемый объектотнесён к классу K1 , еслиОбозначим черезобъекта spci ( , s) 1 ( s)   2 ( s)  sбудети классу K 2 в противном случае.вероятность правильной классификации правилом, на самом деле принадлежащего K i ,i {1,2} .При 0pc1 ( , s)  pc1 (0, s)pc1 ( , s), но pc 2 ( , s )  pc 2 (0, s ) . Уменьшаяи уменьшаем pc 2 ( , s ) . Напротив, увеличивая , мы уменьшаем pc1 ( , s)pc1 ( , s)pc 2 ( , s) .

Зависимость междуи увеличиваем , мы увеличиваемможет быть приближённо восстановлена по обучающей выборкеописания объектов {s1 ,Пустьиpc 2 ( , s), включающейSt, sm }  1 ( s1 )  1 ( sm )  - матрица оценок за классы объектов {s1 ,(s)(s)2m  2 1, sm } . Поданной матрице оценок легко получить множество величин{ ( si )   1 ( si )   2 ( si ) | i  1, , m}, , где i  1, , m .Предположим, что величины ( si ) принимают r различных значений 1 ,Данным величинам можно сопоставить решающие правила C (1 ),каждого из правилa) долюK1, r ,, C ( r ) .ДляC ( i ) вычислим две величины:среди объектов обучающей выборки, удовлетворяющих условию ( s )  i , которую обозначим  c1 (i ) ;b) долюK2среди объектов обучающей выборки, удовлетворяющих условию ( s* )  i , которую обозначим  c 2 (i ) .В результате мы получим r пар чисел{[ c1 (1 ), c 2 (1 )], ,[ c1 ( r ), c 2 ( r )]} .Каждая пара чисел может рассматриватьсясистеме координат.

Таким образом,как точка на плоскости в декартовойнабору пороговых элементов1 ,, rсоответствует набор точек на плоскости.Соединив соседние по номерусоединяющуюточки отрезками прямых, получим ломаную линию,точки (1,0) и (0,1), которая изображена на рисунке 3.1. Данная линияграфически отображает аппроксимацию по обучающеймеждуpc1 ( , s)иpc 2 ( , s)выборке взаимозависимостипри всевозможных значенияхСоответствующий пример представлен на рисунке 2.

Взаимозависимость между. c1 и c2чтонаиболее полно оценивает эффективность распознающего оператора R. Отметим, c1постепенно убывает по мере роста c2 ..Рис 3.1. Ломаная (I) соединяет точки на двумерной плоскости в декартовой системекоординат, которые являются соседними в ряду (1.1) . c1Однако сохранение высокого значенияпри высоких значениях c2соответствует существованию решающего правила, при котором точность распознаванияобоих классов высока.Наиболееэффективному распознающемуоператору,обеспечивающему полное распознавание классов соответствует совпадение линии I спрямой, связывающей точки (0,1) и (1,1).Отсутствию распознающей способностисоответствует совпадение с прямой II, связывающей точки (0, 1)и (1,0).

В целомэффективность распознающего оператора может характеризоваться формой линии I. Чемближе линия I к прямой, связывающей точки (0,1) и (1,1), тем лучше распознающийоператор и соответствующий ему метод распознавания. Наоборот, приближенностьлинии I к прямой, связывающей точки (0,1) и (1,1), соответствует низкой эффективностисоответствующего метода распознавания.На рисунке 3 сравниваются линии, характеризующие эффективность распознающихоператоров, принадлежащих к трём методам распознавания, при решении задачдиагностикидвух видов аутизма по психометрическим показателям. Изучаласьэффективность-линейного дискриминанта Фишера (ЛДФ) с соответствующей линией обозначенной- метода опорных векторов (МОВ) c линией, обозначенной;;-метода статистически взвешенные синдромов (СВС) c линией, обозначенной.Рис.

3.2 Сравнение трёх метод распознавания с помощьюМетоды распознавания используются при решении многих задач идентификацииобъектов, представляющих важность для пользователя. Эффективность идентификациидля таких задач удобно описывать в терминах:«Чувствительность» - доля правильно распознанных объектов целевого класса«Ложная тревога» - доля объектов ошибочно отнесённых в целевой класс.Пример кривой, связывающей параметрыпредставлен на рисунке 4.«Чувствительность»и «Ложная тревога»Рис. 3.3 Вид ROC кривой в координатах чувствительность (ось Y) и ложная тревога (осьX)Анализ, основанный на построении и анализе линий, связывающих параметры«Чувствительность» и «Ложная тревога» принято называть анализом Receiver OperatingCharacteristic или ROC-анализом.Отметим, что по мере увеличения числа пороговых точек , что обычно происходит привозрастании объёма выборки, ломаная линия I постепенно приближается к некоторойкривой.

Поэтому линию Линии, связывающих параметры«Чувствительность»и«Ложная тревога» принято называть ROC-кривыми. В качестве меры близости к прямой,связывающей точки (0,0) и (1,1), соответствующей абсолютно точному распознаванию,используется площадь под ROC – кривой.Задачакразделу«Методыоценкиэффективностиалгоритмовраспознавания»Банк использует 2 метода распознавания для повышения прибыли при кредитовании.Используемая технология основана на распознавании в заёмщиков, для которых рискотказа от выплат по кредиту является высоким.

Предполагается, что доход банка содного добросовестного заёмщика составляет d  10000 условных единиц (у.е.). Потерибанка при отказе от выплат по кредиту составляет L  45000 у.е. Доля заёмщиков,отказывающихся от выплат по кредиту составляет prej  0.05. В таблице приведенызначения чувствительности и ложной тревоги при некотором наборе пороговых значенийдля методов распознавания A и B.Таблица 1Метод AМетод BЧувстительность Ложная тревогаЧувстительностьЛожная тревога0.030.0010.030.0010.080.0020.160.0020.130.010.280.020.190.030.440.060.270.070.570.080.340.090.610.090.470.110.670.110.610.140.690.140.740.170.720.170.910.210.780.20.970.240.830.2310.280.880.270.920.320.980.3510.37Вопросы. Позволяют ли приведённые в таблице 1 данные сделать вывод о потенциальнойвозможности увеличении дохода банка при использовании метода A или метода B?Какой из двух методов позволяет получить более высокий доход?Решение.

Средний доход банка на одну поданную заявку на кредит в D случае, когдаметоды распознавания не используются очевидно может быть найден по формулеD  d * (1  prej )  prej * L  10000 * 0.95  45000 * 0.05  7250 ,При использовании метода распознавания с чувствительностью Sen и уровнем ложнойтревоги Fa . Величина потерь, произошедших непосредственно из-за отказов от выплатпо кредиту, которая без применения методов распознавания была равна prej * L ,становится равной prej * L * (1  Sen) .

Величина дохода, полученная на добросовестныхзаёмщиков, которая без применения методов распознавания была равна d * (1  prej ) , вслучае применения метода распознавания оказывается равной d * (1  prej ) * (1  Fa) .Таким образом величина дохода в случае использование метода распознаваниярассчитывается по формулеD  d * (1  prej ) * (1  Fa)  prej * L * (1  Sen)3.2 Байесовские методыРанее было показано, что максимальную точность распознавания классовобеспечивает байесовскоеописываемый вектором, KLрешающее правило, относящее распознаваемый объект,переменных (признаков) X 1 ,которого условная вероятностьБайесовские методыK1 ,, Xnк классу K ib, дляP( K ib | x) максимальна.обучения основаны на аппроксимации условных вероятностейклассов в точках признакового пространства с использованием формулы Байеса.

ФормулаБайеса позволяет рассчитать условные вероятности классов в точке признаковогопространства:P ( K i | x) pi (x)P( Ki ) p ( x) P ( K )j 1где,Liipi (x) - плотность распределения вероятности для класса K i ; P ( K i ) -вероятность класса K iбезотносительно к признаковым описаниям (априорнаявероятность).При этом в качестве оценок априорных вероятностеймогут быть взята доляP( Ki )объектов класса K i в обучающей выборке, которая далее будет обозначатьсяПлотности вероятностейi .восстанавливаются исходя изp1 (x), , pL (x)предположения об их принадлежности фиксированному типу распределения.

Чаще всегоиспользуетсямногомерноенормальноераспределения.Плотностьданногораспределения в общем виде представляется выражениемp ( x) 1(2 )n/2||1/ 2exp[ 12 (x  μ)1 (x  μ)t ]где μ - математическое ожидание вектора признаков X 1 ,Σ - матрица ковариаций признаков X 1 ,, Xn ;, Xn| Σ | - детерминант матрицы Σ .Для построения распознающего алгоритма достаточно оценить вектора атематическихожиданий μ1 ,и матрицы ковариаций Σ1 ,,μLсоответственно. Оценка μ i, ΣLдля классов K1 ,, KLвычисляется как среднее значение векторов признаков пообъектам обучающей выборки из класса K i :μˆ i  m1iгдеmi - число объектов класса K is j St  Kixj ,в обучающей выборке.Оценка элемента матрицы ковариаций для класса K iˆ kki   m1ikiгдеэлементовпроизведениеs j St  Ki( x jk  ki )( x jk   ki  ), k , k  {1, , n} ,- k-я компонента вектора kki P ( K i | x)обозначимвычисляется по формулеμi .

Характеристики

Тип файла
PDF-файл
Размер
2,78 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6390
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее