ROC-анализ. Цифровые методы диагностики и прогнозирования систем (2015 Лекции (Сенько)), страница 4
Описание файла
Файл "ROC-анализ. Цифровые методы диагностики и прогнозирования систем" внутри архива находится в папке "2015 Лекции (Сенько)". Документ из архива "2015 Лекции (Сенько)", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Онлайн просмотр документа "ROC-анализ. Цифровые методы диагностики и прогнозирования систем"
Текст 4 страницы из документа "ROC-анализ. Цифровые методы диагностики и прогнозирования систем"
Предположим, что величины принимают r различных значений , Данным величинам можно сопоставить решающие правила . Для каждого из правил вычислим две величины:
-
долю среди объектов обучающей выборки, удовлетворяющих условию , которую обозначим ;
-
долю среди объектов обучающей выборки, удовлетворяющих условию , которую обозначим .
В результате мы получим r пар чисел
.
Каждая пара чисел может рассматриваться как точка на плоскости в декартовой системе координат. Таким образом, набору пороговых элементов соответствует набор точек на плоскости.
Соединив соседние по номеру точки отрезками прямых, получим ломаную линию, соединяющую точки (1,0) и (0,1), которая изображена на рисунке 3.1. Данная линия графически отображает аппроксимацию по обучающей выборке взаимозависимости между и при всевозможных значениях . Соответствующий пример представлен на рисунке 2. Взаимозависимость между и наиболее полно оценивает эффективность распознающего оператора R. Отметим, что постепенно убывает по мере роста .
.
Рис 3.1. Ломаная (I) соединяет точки на двумерной плоскости в декартовой системе координат, которые являются соседними в ряду (1.1) .
Однако сохранение высокого значения при высоких значениях соответствует существованию решающего правила, при котором точность распознавания обоих классов высока. Наиболее эффективному распознающему оператору, обеспечивающему полное распознавание классов соответствует совпадение линии I с прямой, связывающей точки (0,1) и (1,1). Отсутствию распознающей способности соответствует совпадение с прямой II, связывающей точки (0, 1) и (1,0). В целом эффективность распознающего оператора может характеризоваться формой линии I. Чем ближе линия I к прямой, связывающей точки (0,1) и (1,1), тем лучше распознающий оператор и соответствующий ему метод распознавания. Наоборот, приближенность линии I к прямой, связывающей точки (0,1) и (1,1), соответствует низкой эффективности соответствующего метода распознавания.
На рисунке 3 сравниваются линии, характеризующие эффективность распознающих операторов, принадлежащих к трём методам распознавания, при решении задач диагностики двух видов аутизма по психометрическим показателям. Изучалась эффективность
-линейного дискриминанта Фишера (ЛДФ) с соответствующей линией обозначенной ;
- метода опорных векторов (МОВ) c линией, обозначенной ;
-метода статистически взвешенные синдромов (СВС) c линией, обозначенной .
Рис. 3.2 Сравнение трёх метод распознавания с помощью
Методы распознавания используются при решении многих задач идентификации объектов, представляющих важность для пользователя. Эффективность идентификации для таких задач удобно описывать в терминах:
«Чувствительность» - доля правильно распознанных объектов целевого класса
«Ложная тревога» - доля объектов ошибочно отнесённых в целевой класс.
Пример кривой, связывающей параметры «Чувствительность» и «Ложная тревога» представлен на рисунке 4.
Рис. 3.3 Вид ROC кривой в координатах чувствительность (ось Y) и ложная тревога (ось X )
Анализ, основанный на построении и анализе линий, связывающих параметры «Чувствительность» и «Ложная тревога» принято называть анализом Receiver Operating Characteristic или ROC-анализом.
Отметим, что по мере увеличения числа пороговых точек , что обычно происходит при возрастании объёма выборки, ломаная линия I постепенно приближается к некоторой кривой. Поэтому линию Линии, связывающих параметры «Чувствительность» и «Ложная тревога» принято называть ROC-кривыми. В качестве меры близости к прямой, связывающей точки (0,0) и (1,1), соответствующей абсолютно точному распознаванию, используется площадь под ROC – кривой.
Задача к разделу «Методы оценки эффективности алгоритмов распознавания»
Банк использует 2 метода распознавания для повышения прибыли при кредитовании. Используемая технология основана на распознавании в заёмщиков, для которых риск отказа от выплат по кредиту является высоким. Предполагается, что доход банка с одного добросовестного заёмщика составляет 10000 условных единиц (у.е.). Потери банка при отказе от выплат по кредиту составляет 45000 у.е. Доля заёмщиков, отказывающихся от выплат по кредиту составляет 0.05. В таблице приведены значения чувствительности и ложной тревоги при некотором наборе пороговых значений для методов распознавания A и B.
Таблица 1
Метод A | Метод B | |||
Чувстительность | Ложная тревога | Чувстительность | Ложная тревога | |
0.03 | 0.001 | 0.03 | 0.001 | |
0.08 | 0.002 | 0.16 | 0.002 | |
0.13 | 0.01 | 0.28 | 0.02 | |
0.19 | 0.03 | 0.44 | 0.06 | |
0.27 | 0.07 | 0.57 | 0.08 | |
0.34 | 0.09 | 0.61 | 0.09 | |
0.47 | 0.11 | 0.67 | 0.11 | |
0.61 | 0.14 | 0.69 | 0.14 | |
0.74 | 0.17 | 0.72 | 0.17 | |
0.91 | 0.21 | 0.78 | 0.2 | |
0.97 | 0.24 | 0.83 | 0.23 | |
1 | 0.28 | 0.88 | 0.27 | |
0.92 | 0.32 | |||
0.98 | 0.35 | |||
1 | 0.37 |
Вопросы. Позволяют ли приведённые в таблице 1 данные сделать вывод о потенциальной возможности увеличении дохода банка при использовании метода A или метода B? Какой из двух методов позволяет получить более высокий доход?
Решение. Средний доход банка на одну поданную заявку на кредит в случае, когда методы распознавания не используются очевидно может быть найден по формуле
,
При использовании метода распознавания с чувствительностью и уровнем ложной тревоги . Величина потерь, произошедших непосредственно из-за отказов от выплат по кредиту, которая без применения методов распознавания была равна , становится равной . Величина дохода, полученная на добросовестных заёмщиков, которая без применения методов распознавания была равна , в случае применения метода распознавания оказывается равной . Таким образом величина дохода в случае использование метода распознавания рассчитывается по формуле
3.2 Байесовские методы
Ранее было показано, что максимальную точность распознавания классов обеспечивает байесовское решающее правило, относящее распознаваемый объект, описываемый вектором переменных (признаков) к классу , для которого условная вероятность максимальна.
Байесовские методы обучения основаны на аппроксимации условных вероятностей классов в точках признакового пространства с использованием формулы Байеса. Формула Байеса позволяет рассчитать условные вероятности классов в точке признакового пространства:
,
где - плотность распределения вероятности для класса ; - вероятность класса безотносительно к признаковым описаниям (априорная вероятность).
При этом в качестве оценок априорных вероятностей могут быть взята доля объектов класса в обучающей выборке, которая далее будет обозначаться . Плотности вероятностей восстанавливаются исходя из предположения об их принадлежности фиксированному типу распределения. Чаще всего используется многомерное нормальное распределения. Плотность данного распределения в общем виде представляется выражением
где - математическое ожидание вектора признаков
- матрица ковариаций признаков ; - детерминант матрицы .
Для построения распознающего алгоритма достаточно оценить вектора атематических ожиданий и матрицы ковариаций для классов
соответственно. Оценка вычисляется как среднее значение векторов признаков по объектам обучающей выборки из класса :
,
где - число объектов класса в обучающей выборке.