2015 Методичка по ММО (сделана частично_ не все темы) (1185321), страница 6

Файл №1185321 2015 Методичка по ММО (сделана частично_ не все темы) (2015 Методичка по ММО (сделана частично_ не все темы)) 6 страница2015 Методичка по ММО (сделана частично_ не все темы) (1185321) страница 62020-08-252020-08-25СтудИзба

2015 Методичка по ММО (сделана частично_ не все темы)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 6)

(фиктивный признак - это когда z = ∑w_iu_i, а в качестве u₀ берётся всегда 1)

Примеры активационных функций (в целом, они удобны для подсчёта распространения ошибки):

пороговая функция (функция = 0, если z >= const, иначе = 1)
сигмоидная функция 1 / (1 + e^-az)
гиперболический тангенс
тождественная функция Ф(z) = z

Персептрон Роззенблатта (1957) - нейросетевая модель с одним единственным нейроном

Используется для задачи распознавания с 2-мя классами, активационная функция Ф=1, если z>=0, Ф= -1, если z<0

Особенность персептрона - простая и эффективная процедура обучения (вычисления w_i)

Настройка параметра происходит по обучающей выборке. (предварительно признаковое описание преобразуется в векторные сигналы, а затем вектора описаний из класса K₂ умножаются на -1, а из K₁ не меняются)

Процедура обучения персептрона:

Случайно выбирается нулевое приближение вектора весовых коэффициентов
Преобразованные описания обучающей выборки последовательно передаются на вход персептрона
Если писание x^(k), поданное на k-м шаге классифицируется неправильно, то происходит коррекция w^(k+1) = w^(k) + x^(k), если классификация верна, то ничего не меняется.
Повторяем до тех пор, пока:
1. достигается полное разделение объектов из классов K1 и K2
2. повторение подряд заданного числа операций не приводит к улучшению разделения
3. оказывается, исчерпанный заранее заданный лимит итераций

Теорема Новикова:

В случае, если описания объектов обучающей выборки линейно разделимы в пространстве признаковых описаний, то процедура обучения персептрона построит линейную гиперплоскость, разделяющую объекты двух классов за конечное число шагов.

Отсутствие линейной разделимости двух классов приводит к бесконечному зацикливанию процедуры обучения персептрона.

Многослойный персептрон - нейросетевые методы распознавания, задаваемые комбинациями связанных между собой нейронов.

Обладает существенно более высокой аппроксимирующей способностью

Обычно сеть формируется в виде слоёв: слои внутренних нейронов осуществляют преобразование сигналов. Слой реагирующих нейронов производит окончательную классификацию объектов на основании сигналов, поступающих от нейронов, принадлежащих внутренним слоям.

Обычно соблюдаются следующие правила формирования структуры:

Допускаются связи между только между нейронами, находящимися в соседних слоях.
Связи между нейронами внутри одного слоя отсутствуют.
Активационные функции для всех внутренних нейронов идентичны

Для решения задачи распознавания с L классами используется конфигурация с L реагирующими нейронами.

Сигналы, вычисляемые на выходе реагирующих нейронов, интерпретируются как оценки за классы.

Один реагирующий нейрон позволяет аппроксимировать области, являющиеся полупространствами, ограниченными гиперплоскостями.

Нейронная сеть с одним внутренним слоем позволяет аппроксимировать произвольную выпуклую область в многомерном признаковом пространстве (открытую или закрытую). Было доказано также, что Многослойный персептрон с двумя внутренними слоями позволяет аппроксимировать произвольные области многомерного признакового пространства.

Способ обучения нейронных алгоритмов - Метод обратного распространения ошибки.

Потери классификации объекта будем считать, как сумму квадрата разности между выходом реагирующего нейрона и тем, что он должен был выдать (т.е. 0, когда объект не принадлежит классу, и 1, иначе)

Качество аппроксимации на обучающей выборке - это сумма потерь для каждого объекта выборки. (веса фиксированы). Цель - подобрать такие веса, чтобы улучшить качество аппроксимации.

Основа обучения - метод градиентного спуска.

Метод градиентного спуска - оптимизирует произвольный фукнционал F(θ), θ^(k) = θ^(k-1) + n * grad(F(θ^(k-1)))

n - параметр, задающий размер каждого шага

Алгоритм обучения:

Выбираем количество слоёв и количество нейронов в слоях. Присваиваем весам случайные значения. Дальше подаём последовательно объекты обучающей выборки (их векторные описания) и производим коррекцию весовых коэффициентов, как в пунктах ниже:
Предполагаем, что все активационные функции - сигмоиды = 1 / (1 + e^-z)
Проводим коррекцию весовых коэффициентов i-го реагирующего нейрона с нейронами предшествующего слоя

Если взять производную качества аппроксимации по весам одного рассматриваемого реагирующего нейрона, то там по пути получаются удобные математические трансформации.

<Сенько, лекция 6, слайд 18> и градиентная коррекция будет выглядеть:

w^(k) = w^(k-1) + n * u * (-2 * (α - g(x))*(1 - g(x))*g(x)), где g - сигнал на выходе реагирующего нейрона, α - нужное значение на выходе реагирующего нейрона, u - значение на выходе того нейрона, вес для которого мы пересчитываем (т.е. входное значение соответсвующее w)

Теперь аналогично рассматривая на один слой выше, тоже продифференцировав и немного сделав мат выкладок <Сенько, лекция 6, слайд 20> получим следующую формулу:

После этого были математические выкладки для общего случая, когда мы берём некоторый слой нейронов, проводились они аналогично:

Таким образом, задаётся общая схема метода обратного распространения ошибки
Обучение заканчивается при выполнении одного из заранее заданных условий:
1. Величина функционала ошибки оказывается меньше выбранного порогового значения
2. Изменения функционала ошибки на протяжении нескольких последних итераций оказывается меньшим некоторого порогового значения
3. общее время обучения превышает допустимый предел

Глава X. Не обработано, но есть полезные записки с лекций

Прочее

Покомпонентная ошибка = шум + variance + bias

Шум – отклонение от условного мат ожидания.

Varienсe – на сколько варьируется прогноз в каждой точке

Bias – отклонение в каждой точке наилучшего прогноза от среднего по выборке.

Регуляризация увеличивает устойчивость, т.е. уменьшает variance

Коллективное решение снижает и variance и bias

Теорема. Пусть есть конечная модель алгоритмов (нужно выбрать оптимальный параметр) мощности N, пусть среди алгоритмов есть корректный. Пусть мы находим алгоритм методом минимизации эмпирического риска. Тогда С вероятностью (1 – η) можно утверждать, что вероятность ошибочной классификации с помощью полученного алгоритма составляет величину меньшую ε, если длинна обучающей последовательности m не меньше чем m >= ceil( (ln N – ln η) / -ln(1-ε) )

Из этой формулы следует проблема переобучения (overfit) – когда точность падает с увеличением выборки.

Средний риск, Байесовское решающее правило

Часто часть из q₁, ..., q_n (функционалы качества) идут в "target performance metrics" (целевой функционал качества), а часть q_i идут в множество "constraints" (ограничения).

Метод сравнения с эталоном, метод минимизации эмпирического риска, верхний предел точности

Выборка – набор объектов, для которых всё известно.

Генеральная совокупность – всё множество значений, на которых мы обучаемся.

Корректный алгоритм – никогда не ошибается на генеральной совокупности.

Метод сравнения с эталоном – для каждого класса есть представляющий его элемент, тогда для классифицируемого объекта нужно посчитать расстояние до каждого и выбрать класс, до представителя которого расстояние меньше.

Обобщающая способность – это точность на генеральной совокупности.

Проблема обобщающей способности – проблема того, чтобы объект оптимизированный на выборке работал на всём множестве возможных объектов.

Способы оценить обобщающую способность:

Разбить обучающую выборку на 2 части, после чего на первой части обучиться, а на второй части проверить себя (потом можно попытаться сделать наоборот)
Скользящий контроль – выбрасываем объект из выборки, на остальных обучаемся, потом на этом объекте проверяемся, и так по очереди с каждым объектом.

Задача линейной регрессии (почему бы не перенести её в 3.6?)

Задача линейной регрессии – пусть есть обучающая выборка. При обучении, нужно чтобы хотя бы на обучающей выборке алгоритм работал хорошо.

Q(x, j, A(θ)) = Q(S_t, b₀, b₁) = 1/m * sum(1<j<m, (y_j – b₀ – x_jb₁)²), где b₁ = (cov (Y,X | S_t) / D(X | S_t)), b₀ = Y – b₁X

??? это случайно не метод наименьших квадратов?

Свойства ковариации: если ковариация >0, то Y растёт вместе с X, если <0, то Y убывает, когда X растёт, а если =0, то величины X и Y не связаны.

Коэффициент корреляции Пирсона = cov (X, Y) / (D(X)*D(Y))^(1/2)

Если = +- 1, то это значит, что величины связаны линейно, = 0 означает отсутствие линейной связности.

Размытое облако вокруг прямой – это примерно +-0.5

Метод максимального правдоподобия.

Функция максимального правдоподобия – произведение плотности вероятности.

Берётся функция макс правдоподобия, после чего логарифмируется и ищется максимум.

Матрица плана – матрица где строка отражает элемент выборки. При малом определителе матрицы, получается неустойчивость, чтобы от неё избавиться, можно либо убить какой-нибудь столбец или строку, либо применить метод регуляризации.

Метод регуляризации. (суть в том, чтобы вместо исходного функционала взять похожий).

Эластичная сеть. (один из лучших способов изменения функционала) (быстрое обучение)

Свойства оптимальных регрессий:

см. книжку/конспекты

//================================================================================================

Байесовский классификатор.

Относит объект в тот класс, для которого условная вероятность P(класс i | x) максимальна. (при решении как правило нужно считать по формуле Байеса)

Наивный Байесовский классификатор. Это байесовский классификатор с предположением, что все переменные независимы. (благодаря этому условная вероятность распадается на произведение условных вероятностей отдельно по каждому из признаков) (точность около 0,67, т.е. так себе)(перенесено в раздел 3.4, думаю, можно удалять отсюда)

Линейный дискриминант Фишера. Суть в том, чтобы найти такое направление, в котором проекция на него классов отличается больше всего. Алгоритм для 2-х классов, если классов больше одного, то надо по очереди K1 vs K2, K3, … KL, потом K2 vs K3, K4, …

Логистическая регрессия.

Логистическая функция = 1/(1 + e^z)

Линейная комбинация признаков z = b₀ + b₁x₁ + … + b_nx_n

Цель в подборе bi так, чтобы для класса K1 z стремилось к 1, а для класса K2 z стремилась к 2. И

P(K | x) = логистической функции с линейной комбинацией признаков.

Для подбора используется метод максимального правдоподобия (см. слайды)

k ближайших соседей. P(K_i | x) оценка ведётся по ближайшей окрестности точки x.

Берём k наиболее похожих, и берём их доли и берём тот класс, который больше представлен.

Критерий Неймана-Пирсона.

//================================================================================================

ROC – анализ.

Суть в том, что структура любого алгоритм распознавания = R (распознающий оператор) * C (решающее правило)

R вычисляет «вероятность» (это любое число) для каждого класса, что объект лежит в этом классе.

Характеристики

Тип файла

Документ

Размер

267,93 Kb

Материал

2015 Методичка по ММО (сделана частично_ не все темы)

Тип материала

Книга

Предмет

(ММО) Методы машинного обучения

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

2015-metodichka-po-mmo-sdelana-chastichno_-ne-vse-temy.rar

2015 Методичка по ММО (сделана частично_ не все темы).docx

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.

2015 Методичка по ММО (сделана частично_ не все темы) (1185321), страница 6

Текст из файла (страница 6)

Глава X. Не обработано, но есть полезные записки с лекций

Прочее

Средний риск, Байесовское решающее правило

Метод сравнения с эталоном, метод минимизации эмпирического риска, верхний предел точности

Задача линейной регрессии (почему бы не перенести её в 3.6?)

? ?

Характеристики

Список файлов книги