2015. Задачи на совокупность значений показателей качества классификации (1185247)
Текст из файла
Задачи на совокупность значений показателей качества классификации
А. И. Майсурадзе
Основные определения и обозначения
Рассмотрим матрицу ошибок (confusion matrix, часто употребляют более общий термин contingency table) для задачи классификации с двумя классами (binary classification task), где один из классов назван положительным (positive, P), а другой – отрицательным (negative, N). Матрица ошибок получается как результат применения классификатора к размеченной выборке. В её ячейках стоят целые неотрицательные числа – частоты ответов. Получается 4 рода ответов. При статистической проверке гипотез отрицательный класс соответствует нулевой гипотезе (нет тревоги), а положительный – альтернативе (бьём тревогу).
Таблица 1. Матрица ошибок для задачи классификации с двумя классами.
Predicted class Actual class | Результат распознавания P (выбрана альтернатива) | Результат распознавания N (выбрана нулевая гипотеза) |
Истинный класс P (верна альтернатива) | TP – количество истинноположительных ответов (лечим больного) | FN – количество ложноотрицательных ответов, ошибки II рода, пропуск цели (упустили больного) |
Истинный класс N (верна нулевая гипотеза) | FP – количество ложноположительных ответов, ошибки I рода, ложная тревога (лечим здорового) | TN – количество истинноотрицательных ответов (отпустили здорового) |
Если не оговаривается иного, то предполагается, что матрица ошибок построена по конечной выборке, содержащей объекты обоих классов, т. е. и
. Назовём это стандартным случаем.
Частоты (frequencies), стоящие в ячейках матрицы ошибок, являются исходными значениями для различных показателей качества классификации. Поскольку хочется, чтобы значения показателей качества были сопоставимы для выборок разного размера, принято от частот переходить к долям (rates, ratios).
Показатель качества классификации «общая точность» (accuracy, ACC) характеризует матрицу ошибок в целом и определяется формулой . Случай деления на ноль при положительном числителе невозможен. Неопределённость 0/0 возникает тогда и только тогда, когда выборка пустая, соответственно, эту неопределённость не раскрывают. При непустой выборке и в стандартном случае неопределённость 0/0 невозможна. Случаи
или
невозможны. Любое рациональное значение из [0,1] возможно даже в стандартном случае.
Случай означает классификатор, который правильно ответил на всех объектах выборки. Случай
означает классификатор, который ошибается на всех объектах выборки. В случае бинарной классификации инверсия такого классификатора с
даст классификатор с
. Статистически худший бинарный классификатор – подкидывание монеты.
Показатель качества классификации «полнота» (recall, sensitivity, true positive rate, TPR) характеризует распознавание положительного класса и определяется формулой . Случай деления на ноль при положительном числителе невозможен. Неопределённость 0/0 возникает тогда и только тогда, когда выборка не содержит положительных объектов, соответственно, эту неопределённость не раскрывают. В стандартном случае неопределённость 0/0 невозможна. Случаи
или
невозможны. Любое рациональное значение из [0,1] возможно даже в стандартном случае.
Показатель качества классификации «точность» (precision, positive predictive value, PPV) характеризует распознавание положительного класса и определяется формулой . Случай деления на ноль при положительном числителе невозможен. Неопределённость 0/0 возникает тогда и только тогда, когда выборка пуста или классификатор отвергает (объявляет отрицательными) все объекты выборки. Неопределённость 0/0 возможна даже в стандартном случае. Если допустим классификатор, отвергающий все объекты, то неопределённость 0/0 возможна всегда. Случаи
или
невозможны. Любое рациональное значение из [0,1] возможно даже в стандартном случае.
Если матрица ошибок построена по конечной выборке, то значения всех этих показателей являются рациональными числами.
Общий подход к задачам
Не любые сочетания значений ,
и
возможны. Соответственно, возникают задачи на их допустимое сочетание.
Традиционно предполагается, что тестирование классификатора проходило на конечной выборке, возникла матрица ошибок, которая содержит целые неотрицательные числа. Основной подход к решению таких задач состоит в том, что проверяется существование подходящих неотрицательных целых частот TP, TN, FP, FN. Возникает система из 4 неравенств неотрицательности и некоторых равенств по исходным данным. Логически полное решение должно упомянуть все 4 неравенства. Дополнительного внимания заслуживают крайние ситуации с нулевыми частотами.
Задача на возможные значения точности
Рассматривается задача классификации на два класса: положительный и отрицательный. В ходе тестирования классификатора получены следующие результаты. Полнота равна , общая точность равна
. Какие значения может принимать точность
?
Поскольку задано определённое значение , то
, выборка содержит положительные объекты.
Сразу отметим, что при , или
, или
, или
исходные данные следует считать неверными. Ответ:
.
Если , то
и
. Следовательно,
.
Если и
, то ответ:
.
Если и
, то ответ:
. Даже в стандартном случае.
Если и
, то ответ:
. В стандартном случае только
.
Если , то
,
,
. Следовательно,
.
Если и
, то ответ:
.
Случай и
есть выше.
Ниже и
.
Если , то
,
,
. Следовательно,
.
Если и
, то ответ:
.
Если и
, то ответ:
.
Ниже и
. Тогда
,
. Выразим остальные частоты как доли положительного TP.
, надо обеспечить неотрицательность;
, всегда неотрицательно;
, надо обеспечить неотрицательность.
. Интересно отметить, что с ростом TN точность
падает.
Неотрицательность FP соответствует условию . Случай
есть выше. Сейчас множитель при
положителен. Получили систему
Если , то
, иначе
.
Если , то ответ:
, рациональное. Примечание: нужно большое TN, можно любое FP.
Если , то ответ:
, рациональное. Примечание: можно любое TN, нужно большое FP.
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.