2015 Методичка по ММО (сделана частично_ не все темы), страница 6
Описание файла
Документ из архива "2015 Методичка по ММО (сделана частично_ не все темы)", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Онлайн просмотр документа "2015 Методичка по ММО (сделана частично_ не все темы)"
Текст 6 страницы из документа "2015 Методичка по ММО (сделана частично_ не все темы)"
(фиктивный признак - это когда z = ∑wiui, а в качестве u0 берётся всегда 1)
Примеры активационных функций (в целом, они удобны для подсчёта распространения ошибки):
-
пороговая функция (функция = 0, если z >= const, иначе = 1)
-
сигмоидная функция 1 / (1 + e-az)
-
гиперболический тангенс
-
тождественная функция Ф(z) = z
Персептрон Роззенблатта (1957) - нейросетевая модель с одним единственным нейроном
Используется для задачи распознавания с 2-мя классами, активационная функция Ф=1, если z>=0, Ф= -1, если z<0
Особенность персептрона - простая и эффективная процедура обучения (вычисления wi)
Настройка параметра происходит по обучающей выборке. (предварительно признаковое описание преобразуется в векторные сигналы, а затем вектора описаний из класса K2 умножаются на -1, а из K1 не меняются)
Процедура обучения персептрона:
-
Случайно выбирается нулевое приближение вектора весовых коэффициентов
-
Преобразованные описания обучающей выборки последовательно передаются на вход персептрона
-
Если писание x(k), поданное на k-м шаге классифицируется неправильно, то происходит коррекция w(k+1) = w(k) + x(k), если классификация верна, то ничего не меняется.
-
Повторяем до тех пор, пока:
-
достигается полное разделение объектов из классов K1 и K2
-
повторение подряд заданного числа операций не приводит к улучшению разделения
-
оказывается, исчерпанный заранее заданный лимит итераций
-
Теорема Новикова:
В случае, если описания объектов обучающей выборки линейно разделимы в пространстве признаковых описаний, то процедура обучения персептрона построит линейную гиперплоскость, разделяющую объекты двух классов за конечное число шагов.
Отсутствие линейной разделимости двух классов приводит к бесконечному зацикливанию процедуры обучения персептрона.
Многослойный персептрон - нейросетевые методы распознавания, задаваемые комбинациями связанных между собой нейронов.
Обладает существенно более высокой аппроксимирующей способностью
Обычно сеть формируется в виде слоёв: слои внутренних нейронов осуществляют преобразование сигналов. Слой реагирующих нейронов производит окончательную классификацию объектов на основании сигналов, поступающих от нейронов, принадлежащих внутренним слоям.
Обычно соблюдаются следующие правила формирования структуры:
-
Допускаются связи между только между нейронами, находящимися в соседних слоях.
-
Связи между нейронами внутри одного слоя отсутствуют.
-
Активационные функции для всех внутренних нейронов идентичны
Для решения задачи распознавания с L классами используется конфигурация с L реагирующими нейронами.
Сигналы, вычисляемые на выходе реагирующих нейронов, интерпретируются как оценки за классы.
Один реагирующий нейрон позволяет аппроксимировать области, являющиеся полупространствами, ограниченными гиперплоскостями.
Нейронная сеть с одним внутренним слоем позволяет аппроксимировать произвольную выпуклую область в многомерном признаковом пространстве (открытую или закрытую). Было доказано также, что Многослойный персептрон с двумя внутренними слоями позволяет аппроксимировать произвольные области многомерного признакового пространства.
Способ обучения нейронных алгоритмов - Метод обратного распространения ошибки.
Потери классификации объекта будем считать, как сумму квадрата разности между выходом реагирующего нейрона и тем, что он должен был выдать (т.е. 0, когда объект не принадлежит классу, и 1, иначе)
Качество аппроксимации на обучающей выборке - это сумма потерь для каждого объекта выборки. (веса фиксированы). Цель - подобрать такие веса, чтобы улучшить качество аппроксимации.
Основа обучения - метод градиентного спуска.
Метод градиентного спуска - оптимизирует произвольный фукнционал F(θ), θ(k) = θ(k-1) + n * grad(F(θ(k-1)))
n - параметр, задающий размер каждого шага
Алгоритм обучения:
-
Выбираем количество слоёв и количество нейронов в слоях. Присваиваем весам случайные значения. Дальше подаём последовательно объекты обучающей выборки (их векторные описания) и производим коррекцию весовых коэффициентов, как в пунктах ниже:
-
Предполагаем, что все активационные функции - сигмоиды = 1 / (1 + e-z)
-
Проводим коррекцию весовых коэффициентов i-го реагирующего нейрона с нейронами предшествующего слоя
Если взять производную качества аппроксимации по весам одного рассматриваемого реагирующего нейрона, то там по пути получаются удобные математические трансформации.
<Сенько, лекция 6, слайд 18> и градиентная коррекция будет выглядеть:
w(k) = w(k-1) + n * u * (-2 * (α - g(x))*(1 - g(x))*g(x)), где g - сигнал на выходе реагирующего нейрона, α - нужное значение на выходе реагирующего нейрона, u - значение на выходе того нейрона, вес для которого мы пересчитываем (т.е. входное значение соответсвующее w)
-
Теперь аналогично рассматривая на один слой выше, тоже продифференцировав и немного сделав мат выкладок <Сенько, лекция 6, слайд 20> получим следующую формулу:
-
После этого были математические выкладки для общего случая, когда мы берём некоторый слой нейронов, проводились они аналогично:
-
Таким образом, задаётся общая схема метода обратного распространения ошибки
-
Обучение заканчивается при выполнении одного из заранее заданных условий:
-
Величина функционала ошибки оказывается меньше выбранного порогового значения
-
Изменения функционала ошибки на протяжении нескольких последних итераций оказывается меньшим некоторого порогового значения
-
общее время обучения превышает допустимый предел
-
-
Глава X. Не обработано, но есть полезные записки с лекций
-
Прочее
Покомпонентная ошибка = шум + variance + bias
Шум – отклонение от условного мат ожидания.
Varienсe – на сколько варьируется прогноз в каждой точке
Bias – отклонение в каждой точке наилучшего прогноза от среднего по выборке.
Регуляризация увеличивает устойчивость, т.е. уменьшает variance
Коллективное решение снижает и variance и bias
Теорема. Пусть есть конечная модель алгоритмов (нужно выбрать оптимальный параметр) мощности N, пусть среди алгоритмов есть корректный. Пусть мы находим алгоритм методом минимизации эмпирического риска. Тогда С вероятностью (1 – η) можно утверждать, что вероятность ошибочной классификации с помощью полученного алгоритма составляет величину меньшую ε, если длинна обучающей последовательности m не меньше чем m >= ceil( (ln N – ln η) / -ln(1-ε) )
Из этой формулы следует проблема переобучения (overfit) – когда точность падает с увеличением выборки.
-
Средний риск, Байесовское решающее правило
Часто часть из q1, ..., qn (функционалы качества) идут в "target performance metrics" (целевой функционал качества), а часть qi идут в множество "constraints" (ограничения).
-
Метод сравнения с эталоном, метод минимизации эмпирического риска, верхний предел точности
Выборка – набор объектов, для которых всё известно.
Генеральная совокупность – всё множество значений, на которых мы обучаемся.
Корректный алгоритм – никогда не ошибается на генеральной совокупности.
Метод сравнения с эталоном – для каждого класса есть представляющий его элемент, тогда для классифицируемого объекта нужно посчитать расстояние до каждого и выбрать класс, до представителя которого расстояние меньше.
Обобщающая способность – это точность на генеральной совокупности.
Проблема обобщающей способности – проблема того, чтобы объект оптимизированный на выборке работал на всём множестве возможных объектов.
Способы оценить обобщающую способность:
-
Разбить обучающую выборку на 2 части, после чего на первой части обучиться, а на второй части проверить себя (потом можно попытаться сделать наоборот)
-
Скользящий контроль – выбрасываем объект из выборки, на остальных обучаемся, потом на этом объекте проверяемся, и так по очереди с каждым объектом.
-
Задача линейной регрессии (почему бы не перенести её в 3.6?)
Задача линейной регрессии – пусть есть обучающая выборка. При обучении, нужно чтобы хотя бы на обучающей выборке алгоритм работал хорошо.
Q(x, j, A(θ)) = Q(St, b0, b1) = 1/m * sum(1<j<m, (yj – b0 – xjb1)2), где b1 = (cov (Y,X | St) / D(X | St)), b0 = Y – b1X
??? это случайно не метод наименьших квадратов?
Свойства ковариации: если ковариация >0, то Y растёт вместе с X, если <0, то Y убывает, когда X растёт, а если =0, то величины X и Y не связаны.
Коэффициент корреляции Пирсона = cov (X, Y) / (D(X)*D(Y))^(1/2)
Если = +- 1, то это значит, что величины связаны линейно, = 0 означает отсутствие линейной связности.
Размытое облако вокруг прямой – это примерно +-0.5
Метод максимального правдоподобия.
Функция максимального правдоподобия – произведение плотности вероятности.
Берётся функция макс правдоподобия, после чего логарифмируется и ищется максимум.
Матрица плана – матрица где строка отражает элемент выборки. При малом определителе матрицы, получается неустойчивость, чтобы от неё избавиться, можно либо убить какой-нибудь столбец или строку, либо применить метод регуляризации.
Метод регуляризации. (суть в том, чтобы вместо исходного функционала взять похожий).
Эластичная сеть. (один из лучших способов изменения функционала) (быстрое обучение)
Свойства оптимальных регрессий:
-
см. книжку/конспекты
//================================================================================================
-
? ?
Байесовский классификатор.
Относит объект в тот класс, для которого условная вероятность P(класс i | x) максимальна. (при решении как правило нужно считать по формуле Байеса)
Наивный Байесовский классификатор. Это байесовский классификатор с предположением, что все переменные независимы. (благодаря этому условная вероятность распадается на произведение условных вероятностей отдельно по каждому из признаков) (точность около 0,67, т.е. так себе)(перенесено в раздел 3.4, думаю, можно удалять отсюда)
Линейный дискриминант Фишера. Суть в том, чтобы найти такое направление, в котором проекция на него классов отличается больше всего. Алгоритм для 2-х классов, если классов больше одного, то надо по очереди K1 vs K2, K3, … KL, потом K2 vs K3, K4, …
Логистическая регрессия.
Логистическая функция = 1/(1 + ez)
Линейная комбинация признаков z = b0 + b1x1 + … + bnxn
Цель в подборе bi так, чтобы для класса K1 z стремилось к 1, а для класса K2 z стремилась к 2. И
P(K | x) = логистической функции с линейной комбинацией признаков.
Для подбора используется метод максимального правдоподобия (см. слайды)
k ближайших соседей. P(Ki | x) оценка ведётся по ближайшей окрестности точки x.
Берём k наиболее похожих, и берём их доли и берём тот класс, который больше представлен.
Критерий Неймана-Пирсона.
//================================================================================================
ROC – анализ.
Суть в том, что структура любого алгоритм распознавания = R (распознающий оператор) * C (решающее правило)
R вычисляет «вероятность» (это любое число) для каждого класса, что объект лежит в этом классе.