Диссертация (1141573), страница 13
Текст из файла (страница 13)
Тогда согласно (2.29)-(2.31) fatF ( ) 4048 , идля достижения достоверности прогнозирования данной ИНС с доверительнымпределом 0, 2 и надежностью 0,95 ее необходимо обучить на выборке,имеющей порядок и достаточную длину, соответственноN 36000 , N 3 105 .Примечательно,чтопорядоксложности(2.32)обучающегомножества,полученный в (2.32) сопоставим с нижней границей выборки, найденный спомощью размерности Вапника-Червоненкиса (2.28).
Именно эти значенияминимального размера обучающего множества необходимо обеспечить приподготовке к обучению ИНС. Верхняя граница выборки (2.28) и размердостаточной сложности обучающего множества (2.32) не являются обязательнымиусловиями для успешного обучения ИНС.2.6.3. Обучение ИНСЦель обучения модели - это обеспечение приемлемого уровня достоверностиполучаемых с ее помощью результатов. Помимо теоретического пути определениястатистической достоверности обобщающей способности ИНС, описанного впредыдущем разделе, существует другой способ проверки качества обучениямодели, получивший широкое практическое применение в машинном обучении.Данный подход заключается в проверке ИНС, обученной на выборке Ltrain , наконтрольной выборке Ltest , полученной из другого вероятностного распределения74нежели обучающая выборка.
Критерием точности результатов моделиP( x, y)служит среднеквадратическая ошибка MSEtest выходов ИНС на контрольнойвыборкеMSEtest гдеxn1NtestNtest1n ( f ( xn ) fˆ ( xn , w))2 NtestNtest2n,(2.33)n- значение предикторов n-го примера контрольной выборки;Ntest - количествообучающих примеров в контрольной выборке.Известно, что математическое ожидание квадратической ошибкиM ( 2 )обученной модели на контрольной выборке можно представить в виде [82]M ( 2 ) D( fˆ ( x, w)) Bias 2 ( fˆ ( x, w)) D( ) ,гдеD ( fˆ ( x, w))-дисперсиявосстановленной(2.34)fˆ ( x, w) ,функциикотораяхарактеризует отклонение выходов модели при обучении на выборке из другоговероятностного распределения нежели выборка (2.6);Bias ( fˆ ( x, w))- смещение восстановленной функциихарактеризует отклонениеfˆ ( x, w)fˆ ( x, w) ,котороеот f ( x) в виду невозможности идеальнойаппроксимации реального процесса с помощью математического закона;D( )- дисперсия остатков или неустранимая ошибка.Смещение отражает степень гибкости модели - возможности наиболее точноописывать большую часть прецедентов выборки.
Дисперсия характеризует степеньрепрезентативности и достаточности обучающей выборки. Основной задачеймашинного обучения является оптимальное решение проблемы смещения идисперсии обучаемой модели - определение компромисса между ними.В открытом информационном пространстве отсутствуют данные по ОТФстроительного процесса по созданию кровельных конструкций и соответствующимим значениям качества полученной продукции и затраченного времени на еепроизводство, которые могли бы послужить в качестве обучающей выборки. В тоже время самостоятельное извлечение выборки одним исследователем, имеющейпорядоксложностисопоставимыйс(2.28)или(2.32),займеточеньпродолжительное время (5-10 лет), которое выходит за рамки данного75диссертационногоисследования.Поэтомупоископтимальногорешениякомпромисса между смещением и дисперсией (2.34) - важная задача обучениямодели исследования.
Для ее решения применим технологию статистическийбутстрэп [77].Данный подход заключается в расширении объема обучающего множества засчет создания бутстрэп -выборок LВ . Формирование бутстрэп -выборки происходитпутем последовательного проведения двух операций: случайный отбор прецедентаnиз выборки Ltrain и добавление его в выборку LВ . При этом добавлениепроисходит с повторением, то есть если происходит повторный выбор прецедента17в результате операции случайного отбора на третьем шаге формированиявыборки, данный прецедент вновь добавляется в LВ , которая примет видLВ {17,5,17}.Размер каждой бутстрэп-выборки LВ зададим равной размеруисходной выборки Ltrain , что обосновано практической реализацией данногоподхода [68].
Количество бутстрэп-выборок, участвующих в обучении модели,зависит от сходимости ИНС к константе c из формулы (2.33) и определяетсянепосредственно в процессе обучения модели. Но минимальное их количестводолжно удовлетворять нижней границе обучающей выборки, теоретическиустановленной в (2.28), (2.32).Таким образом на основании данного подхода мы можем получать выборкупроизвольной длины N. Но обучение ИНС с помощью алгоритма, основанного наградиентном спуске, на бутстрэп-выборке LB , размер которой сопоставим с нижнейграницей (2.28), может привести к возникновению эффекта переобучения, так какона получена из одного вероятностного распределения выборки , длина которой впятьдесят раз меньше.
Поэтому для повышения качества обучения ИНС применимтехнологию бэггинг (bagging или bootstrap aggregating) [68]. Данный подходсостоит в обучении модели отдельно на нескольких бутстрэп-выборках идальнейшего усреднения полученных результатов. В соответствии с данной76методикой обучение ИНС разбивается на обучение n моделей на разных бутстрэпвыборках LBn , соответственно.Бэггинг уменьшает дисперсию модели и увеличивает ее способность кобобщению, что позволяет эффективно решить проблему смещения и дисперсии[69], обозначенную в (2.34).Процесс подачи примеров из обучающей выборки в алгоритм обратногораспространения ошибки может происходить в двух режимах - последовательноми пакетном. При пакетном режиме в обучаемую модель подают группупрецедентов, находят усредненные по данной группе значения частныхпроизводных функции потерь и на их основании выполняют корректировку весов.При последовательном режиме обучения корректировка весов происходит послекаждого прецедента, поданного в обучаемую модель.
Данный режим болееэффективен при небольшом количестве данных, также он обеспечиваетстохастический поиск экстремума функции потерь, что не задерживает модель вточках локального минимума [84]. Поэтому примем последовательный режимобучения ИНС в диссертационной работе.Для увеличения скорости обучения ИНС успешно используется добавлениев алгоритм обратного распространения момента инерции от предыдущего примераобучающей выборки [101]. Так, величина корректировки веса w jp на примере n 1из обучающей выборки (4) примет следующий видwnjP1 P y j wnjP ,где(2.35)- параметр момента инерции, характеризующий его меру влияния наобучающую итерацию n 1.2.6.4. Проверка сходимости ИНСОбучение ИНС продолжается до достижения состояния равновесия, когдаошибка моделисовершает приблизительно повторяющиеся колебанияотносительно некоторой константы с на значительном интервале обучающихпримеров (в течение эпохи обучения).
При таком состоянии значение MSEперестает понижаться, и обучение заканчивают. Процесс достижения данного77состояния равновесия называется сходимостью алгоритма обучения. СходимостьИНС может контролироваться на обучающей выборке с определением значенияMSEtrainили на контрольной выборке с определением MSEtest согласно (2.33).Обучение ИНС с контролем сходимости только по первому варианту будетспособствовать чрезмерному расширению обучающего множества, что приведет кизвлечению из выборки различных шумов и, как следствие, переобучению модели[86]. В этом случае с понижением MSEtrain будет происходить повышение MSEtest , азначит, ухудшение качества обобщения ИНС. Поэтому для исключения явленияпереобучения необходимо после каждой эпохи обучения проверять модель наконтрольной выборке Ltest .
Эпохой обучения в диссертационной работе принят 1цикл обучения модели по алгоритму обратного распространения ошибки на однойбутстрэп-выборке LВ .Извлечение обучающей выборки из объекта исследования самый трудоемкийэтап исследования, описанный в разделе 2.7. В связи с этим при отсутствии готовыхданных об исследуемой проблеме для экономии времени и других ресурсовконтрольную выборку Ltest получают из выборки L путем исключения из нее частипрецедентов, остальная часть является обучающей выборкой Ltrain .Для проверки сходимости ИНС в диссертационной работе использован методk-кратной перекрестной проверки [105, 106].
Выборку L случайным образомразбивают на k одинаковых групп. Для формирования бутстрэп-выборки LВk , покоторой производят обучение модели используют выборку L Lk , а группа Lkвыступает в роли контрольной выборкиLtest _ kдля расчетаMSEtest _ k. Затем зановопроизводят обучение ИНС, но в этот раз исключая из L группу k 1 в качествеконтрольной выборкиLtest _ k 1 ,а обучение производят на бутстрэп-выборке LВk 1 ,полученной на основании L Lk 1 . Данную операцию повторяют k раз, затемнаходят среднюю MSEcross по формулеMSEcross 1 k MSEtest _ k ,k k 1(2.36)78которая является окончательной оценкой точности прогнозирования модели наконтрольной выборке.Метод k-кратной перекрестной проверки позволяет вычислить ошибкупрогнозирования модели, обученной на имеющейся выборке L, наиболее близкосоответствующей истинной ошибке [107, 109] за счет оптимального решенияпроблемы смещения и дисперсии.
Метод заключается в определении среднейошибки k различных моделей, обученных и проверенных на разных выборках.Качество обучения одной модели, на основании которой будет строиться системаподдержки принятия ОТР, оценивается близостью полученной ошибки модели наконтрольной выборке MSEtest к ошибке MSEcross , вычисленной с помощью k-кратнойперекрестной проверки.Реализация алгоритма обучения методом обратного распространенияошибкииперекрестнаяпроверкасходимостиИНСтребуютбольшойвычислительной мощности, которую может обеспечить только ЭВМ. Поэтомутретья экспериментальная часть диссертационного исследования - это проведениекомпьютерного эксперимента над созданной моделью с помощью извлеченныхданных на стадии наблюдения за реальной системой. Для интерпретации работымодели, алгоритмов обратного распространения ошибки и k-кратной перекрестнойпроверки автором была разработана программа для ЭВМ [38] на языкепрограммирования Python.2.6.5.
Оценка математического ожидания ошибки ИНС. Доверительныйинтервал результатов прогнозирования моделиКак отмечено выше обучение продолжается до достижения MSEtest некоторойконстанты с. Если установлена сходимость ИНС, то ошибка сети начнет совершатьколебания различной амплитуды вокруг значения с, и дальнейшее обучение наимеющейся выборке лишено смысла. В этом случае ошибка ИНСпредставляетсобой случайную величину, распределение которой согласно центральнойпредельной теореме теории вероятностей близко к нормальному закону791( M ( ))2f ( ) exp(),2 2 2где(2.37)- среднее квадратическое или стандартное отклонение ошибки , для оценкикоторого используется исправленное среднеквадратическое отклонениеs1NtestNtest (1n 1n )2 ,(2.38)где Ntest - длина контрольной выборки; n - значение ошибки n-го примера контрольной выборки; - среднее арифметическое значение ошибки ИНС на контрольной выборке,определяемое по формуле 1NtestNtesrn.(2.39)nИзвестно, что для оценки истинного значения случайной величиныиспользуется ее математическое ожидание, точечной оценкой которого длянормального распределения служит выражение (2.39).