Лекция 2. Линейная машина_ теория Вапника-Червоненкиса (2014 Лекции (Сенько))
Описание файла
Файл "Лекция 2. Линейная машина_ теория Вапника-Червоненкиса" внутри архива находится в папке "2014 Лекции (Сенько)". PDF-файл из архива "2014 Лекции (Сенько)", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Лекция 2Задачи прогнозирования,Линейная машина, Теоретические методы оценкиобобщающей способности,Лектор – Сенько Олег ВалентиновичКурс «Математические основы теории прогнозирования»4-й курс, III потокСенько Олег Валентинович ()МОТП, лекция 21 / 28Содержание лекции1Пример модели распознавания - Линейная машина2Теоретические методы оценки обобщающей способностиСенько Олег Валентинович ()МОТП, лекция 22 / 28Пример модели распознавания - Линейная машинаf = {A : Xe → Ye }, внутри которогоМножество алгоритмов Wпроизводится поиск оптимального алгоритма прогнозирования, вместесо способом решения оптимизационной задачи будем называтьметодом прогнозирования или методом распознавания, еслипрогнозируемая величина принадлежит конечному множеству. Вкачестве примера рассмотрим известный метод решения задачираспознавания – Линейная машинаСенько Олег Валентинович ()МОТП, лекция 23 / 28Пример модели распознавания - Линейная машинаМетод «Линейная машина» предназначен для решения задачираспознавания с классами K1 , .
. . , KL . Алгоритм распознавания имеетследующий вид. В процессе обучения классам K1 , . . . , KL ставятся всоответствие линейные функции от переменных X1 , . . . , Xn :f1 (X1 , . . . , Xn ) = w01 + w11 X1 + . . . + wn1 Xn..................fL (X1 , . . . , Xn ) =Сенько Олег Валентинович ()w0L+w1L X1МОТП, лекция 2+ . . . + wnL Xn .4 / 28Прогнозирования по прецендентамТаким образомраспознаваниязадаётся матрицей алгоритмw10 . . . w1nпараметров . . . .
. . . . . wL. . . wLn0Пусть требуется распознать объект s∗ , описание которого задаётсявектором x∗ . Вычисляются значения функций f1 , . . . , fL в точке x∗ .Объект s∗ будет отнесён классу Ki , если выполняется наборнеравенствfi (x∗ ) > fj (x∗ ),где j ∈ {1, . . . , L}\{i}.Сенько Олег Валентинович ()МОТП, лекция 25 / 28Линейная машинаМаксимальная точность на выборке S̃t соответствует выполнениюмаксимального числа блоков неравенств:fJ(1) (x1 ) > fi (x1 ), i ∈ {1, . . . , L}\{J(1)}(1)....................................fJ(m) (xm ) > fi (xm ), i ∈ {1, .
. . , L}\{J(m)}.Каждый из блоков соответствует одному из объектов выборки S̃t ивключает L − 1 неравенств. Таким образом суммарное числонеравенств во всех блоках составляет m(L − 1). Каждое из неравенствиз системы (1) соответствует сравнению оценки вектора xr за классKJ(r) с оценкой за класс Ki 6= KJ(r) .Сенько Олег Валентинович ()МОТП, лекция 26 / 28Линейная машина. ОбучениеРассмотрим неравенство t системы, соответствующее блоку с номеромr, в котором производится сравнение оценки за класс KJ(r) с оценкойза класс Ki .
Очевидно, что t и i связаны равенствами:t = (r − 1)(L − 1) + j, j < J(r)t = (r − 1)(L − 1) + j − 1, j > J(r)Неравенство c номером t можно переписать в видеL XnXi=1 h=1zhit whi >LXw0i z0it ,i=1При этом zhit = xh r и z0it = 1 при i = J(r),zhit = −xh r и z0it = −1 при i = j. zhit = 0 и z0it = 0 при i 6= j и i 6= J(r).Сенько Олег Валентинович ()МОТП, лекция 27 / 28Линейная машина. ОбучениеТо есть мы получаем систему неравенств:L XnXi=1 h=1zhit whi>LXw0i z0it , t = 1, . . . , m(L − 1)(2)i=1При этом коэффициенты из множества {zhit | i = 1, . .
. , L, h = 1, . . . , n}однозначно выражаются через t. Для поиска максимальнойсовместной подсистемы блоков неравенств системы (2) используетсярелаксационный алгоритм На начальном этапекаждое из уравненийqPL Pnit 2системы (2) нормируется на величину Dt =i=0h=0 (zh )Сенько Олег Валентинович ()МОТП, лекция 28 / 28Линейная машина. ОбучениеВ результате от системы неравенств (2) мы переходим к системеL XnXi=1 h=1ẑhit whi >LXẑh0t , t = 1, . . .
, m(L − 1)(3)i=1где ẑhit = zhit /Dt ,h = 0, . . . , n, i = 1, . . . , L Релаксационный алгоритмсостоит в вычислении релаксационной последовательности матрицискомых коэффициентов {whj | j = 1, . . . , n; h = 1, . . . , n}:gk , . . .g0 , Wg1 , . . .
, WWСенько Олег Валентинович ()МОТП, лекция 29 / 28Линейная машина. Обучениеf k,При этом на итерации k производится коррекция матрицы Wполученных на предыдущей итерацииf k+1 = Wf k + µk × ∆ k ,Wгде скалярая величина µk и матрица ∆k вычисляются поневыполненным неравенствам из системы (3). Пусть Ie((k) - множествонеравенств,P которые остались невыполненными на итерации k-1. Тогда(k)∆ = t∈Ie((k) dt , где dt - матрица размерности (n + 1)L , в позиции(h, j) которой стоит коэффициент перед whj в уравнении с номером tиз системы (3).Сенько Олег Валентинович ()МОТП, лекция 210 / 28Линейная машина. ОбучениеКоэффициент µk пропорционален суммарной величине нарушениянеравенств из набора Ie((k) , нормированной на сумму квадратовкоэффициентов матрицы ∆(k)Pµk =Сенько Олег Валентинович ()t∈IekPPL Pnitit i{ Li=1 ẑ0 −i=1h=1 ẑh wh }PL Pn2i=1h=1 (∆ij )МОТП, лекция 2(4)11 / 28Линейная машина.
ОбучениеПроцесс поиска решений. Задаётся произвольная начальная точка. Вначале каждой итерации подсчитывается число полностьювыполненных блоков неравенств. Если оно максимально относительноgkвсех предыдущих итераций, то текущее приближение Wзапоминается как лучшее на данный момент решение. Процесспродолжается до выполнения одного из критериев остановки:Отсутствие невыполненных блоков неравенств;Число итераций превысило некоторую заранее заданнуювеличину;В течение нескольких итераций число полностью выполненныхблоков неравенств не изменяется.Сенько Олег Валентинович ()МОТП, лекция 212 / 28Линейная машина.
ПримерИмеется задача распознавания с 3-я классами и 2-я признаками.Предполагается, что с использованием метода ЛМ для каждого классанайдены линейные разделяющие функции:f1 (X1 , X2 ) = 4 + 2X1 − X2 ;f2 (X1 , X2 ) = −2 + X1 − 3X2 ;f3 (X1 , X2 ) = 1 + X1 − 2X2 .Область, где одновременно выполняются неравенстваf1 (X1 , X2 ) > f2 (X1 , X2 );f1 (X1 , X2 ) > f3 (X1 , X2 );cоответствует классу 1.Сенько Олег Валентинович ()МОТП, лекция 213 / 28Линейная машина. ПримерПоследняя система эквивалентна неравенствам6 + X1 + 2X2 > 0 (I),3 + X1 + X2 > 0 (II).Данные неравенства задают граничные прямые на плоскости, которыеобозначены римскими цифрами (I) и (II) соответственно.
Область наплоскости, соответствующая классу 1, обозначена краснымиквадратиками. Предположим, что точка на плоскости не принадлежитклассу 1. Тогда она принадлежит классу 2, если выполняетсянеравенство:f1 (X1 , X2 ) > f3 (X1 , X2 ),которое эквивалентно неравенству X2 < −3. Область на плоскости,соответствующая классу 2, обозначена зелёными треугольниками.Область, соответствующая классу 3 обозначена синими кружками.Сенько Олег Валентинович ()МОТП, лекция 214 / 28Линейная машина.Рис 1. Пример распознавания с помощью метода - Линейная машинаСенько Олег Валентинович ()МОТП, лекция 215 / 28Теоретические подходы к исследованию обобщающейспособностиОбобщающая способность ( ОС) алгоритма прогнозирования можетбыть эффективно оценена по выборке данных с помощью методов:оценивание ОС на новой контрольной выборкеКросс-проверкаСкользящий контрольОднако большой интерес представляют теоретические методы оценкиобобщающей способности, которые позволили бы ответить навопросы: Будет ли обладать достаточной обобщающей способностьюалгоритм прогнозирования, найденный внутри некоторой моделиM̃ = {A : X̃ → Ỹ } ? Какие требования необходимо предъявить к M̃ ,чтобы обеспечить эффективное обучение?Ответы на данные вопросы даёт теория Вапника-ЧервоненкисаСенько Олег Валентинович ()МОТП, лекция 216 / 28Теоретические подходы к исследованию обобщающейспособностиДалее будет рассмативается задача распознавания.
Предположим, чтоf найден оптимальныйпо обучающей выборке Set внутри модели Mалгоритм Aopt с минимальной долей ошибок на Set - νerr (Aopt ). Достижение высокой обучающей способности соответствует низкойдоле ошибок на всей генеральной совокупности или, иными словами,низкой вероятности ошибок для алгоритма Aopt . .
ТеорияВапника-Червоненкиса устанавливает условия, которым должнаf для гарантированной сходимости частоты ошибкиудовлетворять Mоптимального обученного алгоритма к вероятности этой ошибки привозрастании объёма обучающей выборкиСенько Олег Валентинович ()МОТП, лекция 217 / 28Теория Вапника-ЧервоненкисаПусть k - число ошибочных классификаций, сделанных на обучающейвыборке Set длины m некоторым агоритмом A.