2015 Методичка по ММО (сделана частично_ не все темы) (1185321), страница 7
Текст из файла (страница 7)
Метод линейной машины.
2 стадии: вычисление оценок для класса, + принятие решения.
Тривиальное решающее правило: объект будет отнесён к классу Ki если оценка за него максимальная.
Из правила вытекает система уравнений между оценками всех классов, Система в общем случае может быть решена через релаксационный алгоритм.
//================================================================================================
Метод опорных векторов.
Допустим классы разделимы. Начинается всё с того, что строятся 2 параллельные гиперповерхности для разделения всего на 2 множества, (между гиперплоскостями элементов быть не должно)
Строим величину расстояния между плоскостями, которую нужно максимизировать при выполнении условий, что одни точки по одну сторону от гиперплоскости, а другие по другую, используем Лагранжа для нахождения максимума.
Если классы не разделимы, то добавляется параметр, который приводит к странной модификации расстояний (но это не эквивалентно переходу к другому пространству), после чего всё должно стать разделимым. (Параметр придумывается как-то заранее)
Либо можно ввести преобразование, для перехода в другое пространство, где всё станет разделимым. Самое распространённое преобразование – Гауссиана (для выбора параметров Гауссианы обычно проводят скользящий контроль или оценки для контрольной выборки, чтобы достичь максимальной обобщающей спосбности. Процесс называется «Подбор ядра »).
Метод опорных векторов плох, если использовать только расстояния без весов, т.к. все признаки обезличены.
//================================================================================================
-
Нейронные сети, решающие деревья
Перцептрон Розенблатта – это нейрон с разными входами, активационной функцией, вычисляющей результирующее значение, которое может разветвляться в другие нейроны.
Пример активационной функции: 1 в случае, если сумма входов >0, -1 в случае, если сумма входов <0.
Процесс обучения: при правильной классификации выдаваемое значение не трогаем, при неправильной, выдаваемое значение корректируем на некоторую дельта. Вопрос правильной классификации может например проверяться на основе умножения значения перцептрона на значение свойства выборки.
Рекурсивно обучаем есть, пока не:
-
достигается полное разделение объектов из классов.
-
Повторение итерации не приводит к улучшению разделения классов
-
Просто превышен лимит итераций.
Многослойный перцептрон состоит из слоя реагирующих нейронов, слоя внутренних нейронов и слоя рецепторов-нейронов. Активационная функция может быть такой же как раньше, но только сумма входов сравнивается с “b”.
У многослойной сети есть 2 недостатка: её тяжелее обучать, и она неустойчива.
//================================================================================================
Решающие деревья - дерево иерархической системы вопросов.
Необходимо снижать индексы неоднородности:
Индекс Джини / энтропийный индекс / индекс ошибочной классификации.
Сначала придумывается список порогов (вопросов для узлов дерева)
На каждом шаге выбирается вопрос для узла так, чтобы индекс неоднородности его потомков был минимален.
Остановиться при построении дерева можно либо когда
-
В каждом листе не более K классов
-
Выборка в листе уже не репрезентативна
Дерево не следует достраивать до конца, чтобы не случилось переобучение.
Репрезентативность можно определять с помощью статического теста (хи-2, Якобсона)
-
Делаем контрольную выборку и строим дерево до тех пор, пока для построения и контрольная выборка не разойдутся во мнениях.
-
Прекратить построение, если индекс неоднородности почти не уменьшается.
«Эффект горизонта» - когда нельзя построить дерево делая выбор по очереди сначала по x потом по y, или наоборот, нужно именно сразу. Чтобы с этим совладать надо строить «глубокое» дерево, а потом его подрезать.
Окончательные решения в деревьях обычно всегда плохие.
//================================================================================================
-
? ?
Поиск коллективных решений / голосование / взвешенное голосование.
Ансамбль – множество алгоритмов, используемых для коллективного решения.
Т.е. есть группа прогнозирующих алгоритмов, на основании решения которых принимается окончательное решение. При этом алгоритмы могут учитываться по-разному.
Есть доказательство, что ошибка взвешенного решения не больше суммы взвешенных ошибок.
//================================================================================================
Принцип частичной прецедентности. При распознании диагностике важны некоторые комбинации (именно конкретные наборы, а не целые классы)
Тест – это набор признаков, позволяющих разделить классы. (т.е. любые 2 объекта из любых 2-х классов отличаются хотя бы по одному признаку из теста)
Тупиковый тест – тест, из которого нельзя удалить ни один из признаков.
Выбор класса при классификации происходит на основании голосования по тесту (учёт совпавших признаков, причём могут учитываться какие-то веса)
Поиск теста – это задача о покрытии, NP-трудная.
Алгоритм типа Кора – когда ищется не только набор признаков, но набор признаков со своим описанием.
Представительный набор – набор описания (зафиксированные признаки), которого присутствуют только в одном классе.
Из существования теста следует существование набора, но не наоборот.
Голосование по закономерности – если в классе есть представительный набор, то проверяется, сколько совпадений между классифицируемым объектом и представительным набором.
Для перехода к непрерывным признакам от дискретных, достаточно для непрерывных просто ввести некоторые границы, задав интервалы.
//================================================================================================
-
? ?
Алгоритмы вычисления оценок.
-
Выделяется множество подмножеств, которое называется «система опорных векторов ».
-
Функция близости сравнивает 2 объекта по некоторому опорному множеству. (например =1 если все признаки совпали, или =0 если нет (а может учитываться какой-то порог, …))
Логическая закономерность – это некоторый параллелепипед в пространстве, который содержит в себе объекты только одного класса. Задача – найти логические закономерности.
По логической закономерности можно выбрать класс, которому принадлежит классифицируемый объект. Если объект попал в несколько закономерностей, то выбираем ту, чья доля пересечения больше. Закономерности при этом можно взвешивать (например, ставить вес, пропорционально количеству входящих объектов).
Может возникать проблема неустойчивости.
Статистически взвешенные синдромы – суть в построении оптимального разбиения так, чтобы наилучшим образом разделить объекты. (за счёт перебора всевозможных границ, чтобы выполнялся некоторый функционал (см. слайды/лекции))
Метод комитетов – пусть есть некоторый набор линейных функций (классификаторов). Объект следует отнести к тому классу, к которому его отнесёт большинство классификаторов.
Теоретически доказано существование комитета для непротиворечивых данных.
//================================================================================================
-
Способы генерации ансамблей из одной выборки
Метод Бэггинга – bootstrap aggregating – случайным образом генерируем новую выборку на основе начальной удалением случайных элементов и добавлением дублей других случайных элементов. Так получаем новые выборки и по ним строим новые классификаторы для ансамбля.
Метод Бустинга – случайное изменение весов некоторых объектов в выборке, тем самым получение новых классификаторов для ансамбля.
Эти методы снижают ошибку распознавания.
Монотонный логический классификатор. На входе: обучающая выборка, список классов, ансамбль классификаторов. Для конкретного классифицируемого объекта выбирается число k (как параметр алгоритма), после этого находятся какие-то любые классификаторы из ансамбля в количестве k штук, которые классифицируют этот объект, как объект конкретного класса. Если после этого есть ещё хотя бы один классификатор, который тоже классифицирует этот объект к тому же классу, то считаем, что классификация удалась.
(фиг знает, чем это отличается то того, чтобы взять сразу k+1 классификатор, мы так Сенько и не поняли)
Алгебраическая коррекция – вспомним, что классификация это ROC, т.е. R * C, где R – это оператор, ставящий каждому прецеденту некоторую характеристику – вероятность отнесения к каждому из классов. А С – это оператор, решающий по характеристикам к какому классу, будем принадлежать.
Журавлёв предложил ввести операции:
-
Почленное умножение матриц
-
Посленное сложение матриц
-
Почленное умножение на число
Тогда S (матрица, где столбец – прецендент из обучающей выборки) * R = Г для каждого классификатора нашего ансамбля можно рассматривать как набор. Для которого существует замыкание из множества всех матриц Г, которые получаются из 1-3 пункта. Тогда существует в этом наборе Гcorr - корректная матрица (матрица, для которой корректно работает стандартное решающее правило).
В итоге надо в замыкании найти корректную матрицу.
//================================================================================================
-
Оценка вероятности выживания.
Survival метод оптимизации.
Цель – выяснить, что некоторое критическое событие случится не раньше некоторого времени (т.е. определить вероятность того, что случится событие P(T > t), где T – критическое событие – эта вероятность называется вероятность выживания)
На ходе есть выборка:
{(индикатор типа информации, момент времени последнего получения информации, начальные показатели объекта), (), …}
(например: (жив, 14:00, съел таблетки типа А) )
Метод Каплан-Майера.
nj – те, кто в начале нового интервала был жив.
dj – количество критических событий на интервале.
S(t) = П i j=1((nj – dj) / nj), где j = 1,i – это разбиение интервала времени на кусочки.
Существует много методов сравнения оценок S(t), самая популярная – модель Кокса.
Модель Кокса.
Мгновенный риск – (вероятность гибели на интервале от T до T+∆t, при условии, что до этого критическое событие не наступало). Потом применяется факторизация Кокса с введением кучи параметров b1, b2, … bn, которые ищутся при помощи метода максимального правдоподобия (метод был признан мутным и рассмотрен не был)
Оценка качества проводится на основе сравнения реальной функции распределения критических событий и производной вероятности выживания (производная S(t))
//================================================================================================
-
Кластерный анализ.
Задача разбить выборки на группы. (подразумевается, что есть метрика)
Метод внутригрупповых средних.
Пусть сначала разбивка произвольная и задано некоторое предполагаемое число кластеров.
Берём центр каждого кластера и относим объекты к тому кластеру, к чьему центру они ближе.
И так повторяем пока не получится, на очередном шаге никаких изменений не требуется.
Иерархическая кластеризация.
На первом шаге – все объекты кластеры. На каждом следующем шаге объединяются 2 ближайших кластера в один кластер.
Повторяем пока не выполнится какое-нибудь условие, например,
-
Собралось нужное число кластеров
-
Эксперту понравилась кластеризация
-
При дальнейшей кластеризации, кластеры будут терять компактность
Метод Фарэля.
Берём шар радиуса r и в точке x, вычисляем среднее геометрическое для всех попавших объектов в шар, двигаем туда новый центр шара и повторяем.
-
Дополнение
-
Модели данных
Задачи математической статистики:
-
Оценка параметров
-
Проверка гипотиз
-
Анализ зависимостей
-
Дисперсионный анализ (установить наличие зависимостей)
-
Корреляционный анализ (установить и определить илу зависимости)
-
Регрессионный анализ (установить конкретный вид зависимости)
-
Дискриминантный анализ (по сути классификация)
Данные могут быть гомогенными (однотипными) и гетерогенными (разнотипными).
Модели данных:
-
DM - Data Matrix - Признаковое описание - матрица значений атрибутов каждого объекта - (объекты гомогенные).
Примеры задач:
-
Классификация = объекты с признаками -> обучение -> информационная модель -> распознавание -> объекты с предсказанными признаками
-
Восстаноление регрессий
-
MD - Multi Dimensional - матрица кросс-сочетания - это n-мерный куб, получаемый за счёт декартова произведения векторов с некоторыми атрибутами (вектор - это множество значений конкретного признака прикладной области) (объекты - гомогенные)
В каждой ячейке этой матрицы находятся те объекты, которые обладают соответствующими признаками.
Показатель – это функция от множества объектов из ячейки, т.е. в матрице кросс-сочетания в ячейках подсчитываются показатели, после чего сами объекты выкидываются..