Хайкин С. - Нейронные сети (778923), страница 22
Текст из файла (страница 22)
Корректировка параметров выполняется пошагово с целью имитации (епш1а1юп) нейронной сетью поведения учителя. Эта эмуляция в нежпором статистическом смысле должна быть оптимальной. Таким образом, в процессе обучения знания учителя передаются в сеть в максимально полном обьеме. После окончания обучения учителя можно отключить и позволить нейронной сети работать со средой самостоятельно. Описанная форма обучения с учителем является ничем иным, как обучением на основе коррекции ошибок, описанным в разделе 2.2.
Это замкнутая система с обратной связью, которая не включает в себя окружающую среду. Производительность такой системы можно оценивать в терминах среднеквадратической ошибки или суммы квадратов ошибок на обучающей выборке, представленной в виде функции от свободных параметров системы. Для такой функции можно построить многомерную поверхность ошибки (епог зпг(асе) в координатах свободных параметров. При этом реальная поверхность ошибки усредняется (ачегайед) по всем возможным примерам, представленным в виде пар "вход-выход". Любое конкретное действие системы с учителем представляется одной точкой на поверхности ошибок. Для повышения производительности системы во времени значение ошибки должно смещаться в сторону 108 Глава 2. Процессы обучения Векюр, опнсыяяюшнй состояние Желаемый откянк Рис.
2.6. Блочная диаграмма обучения с учителем Сигнал ошибки минимума на поверхности ошибок. Этот минимум может быть как локальным, так и глобальным. Это можно сделать, если система обладает полезной информацией о градиенте поверхности ошибок, соответствующем текущему поведению системы. Градиент поверхности ошибок в любой точке — это вектор, определяющий направление наискорейшего спуска по этой поверхности.
В случае обучения с учителем на примерах вычисляется моментальная оценка ()пзтап$апеоцз ез!ппа!е) вектора градиента, в которой входной вектор считается функцией времени. При использовании результатов такой оценки перемещение точки по поверхности ошибок обычно имеет вид "случайного блуждания".
Тем не менее при использовании соответствующего алгоритма минимизации функции стоимости, адекватном наборе обучающих примеров в форме "вход-выход" и достаточном времени для обучения системы обучения с учителем способны решать такие задачи, как классификация образов и аппроксимация функций. 2.9. Обучение без учителя Описанный выше процесс обучения происходит под управлением учителя. Альтернативная парадигма обучения без учителя (!еапппй тт)т)гоц! а теас)гег) самим названием подчеркивает отсутствие руководителя, контролирующего процесс настройки весовых коэффициентов.
При использовании такого подхода не существует маркированных примеров, по которым проводится обучение сети. В этой альтернативной парадигме можно выделить два метода. 2.9. Обучение без учителя 109 ие кое ие Рис. 2.7. Блочная диаграмма обучения с подкреплением Обучение с подкреплением, или нейродинамическое программирование В обучении с подкреплениелгз (ге!пгогсешеп! ]еапппй) формирование отображения входных сигналов в выходные выполняется в процессе взаимодействия с внешней средой с целью минимизации скалярного индекса производительности.
На рис. 2.7 показана блочная диаграмма одной из форм системы обучения с подкреплением, включающей блок "критики*', который преобразовывает первичный сигнал подкрепления (рпгпату ге[п[огсешеп! з[япа]), полученный из внешней среды, в сигнал более высокого качества, называемый эвристическим сигналом подкрепления (]зеппз![с ге!пгогсешепс з[апа]). Оба этих сигнала являются скалярными [100].
Такая система предполагает обучение с опгложенныч подкреплением (4]е]ауег[ гезп[огсешеп!). Это значит, что система получает из внешней среды последовательность сигналов возбуждения (т.е. векторов состояния), которые приводят к генерации эвристического сигнала подкрепления. Целью обучения является минимизация функции стоимости перехода, определенной как математическое ожидание кумулятивной стоимости действий, предпринятых в течение нескольких шагов, а не просто текущей стоимости. Может оказаться, что некоторые предпринятые ранее в данной последо- з Термин "обучение с подкреплением" был введен Минским в его ранних работах, посвященных искусственному интеллекту [742], и, независимо от непх в работе по теории управления [! 109].
Тем не менее основная идея "подкрепления" берет свае начало в экспериментальньщ работах, посвященных обучению животных с точки зрения психологии [415]. В этом контексте следует вспомнить классический закал гмняиня Нам ог еиес!) [! 0521, который сводится к следующему. "Среди нескОльких различных аткяиков на одну и ту же ситуацию при прочих равных условиях те реакции, которые сопровождались поощрением животною, будут более тесно связаны с этой ситуацией и, следовательно, при ее повторении будут воспроизведены с наибольшей вероятностью. Реакции, которые связаны с дискомфортом, утрачивают свою связь с данной ситуапией и вряд ли будут возобновлены в ответ на ту же ситуацию.
Чем выше уровень удовлетворения или дискомфорта, тем значительнее будет усиление или ослабление связи". Несмотря иа то что этот закон нельзя назвать полной моделью биологического попедения, его простата и общий смысл сделали его важным правилом обучения в классическом подходе к обучению с подкреплением. 110 Глава 2. Процессы обучения вательности действия были определяющими в формировании общего поведения всей системы.
Функция обучаемой маизины (1еагп]пй шасЫпе), составляющая второй компонент системы, определяет этн действия и формирует на их основе сигнал обратной связи, направляемый во внешнюю среду. Практическая реализация обучения с отложенным подкреплением осложнена по двум причинам. ° Не существует учителя, формирующего желаемый отклик на каждом шаге процесса обучения. ° Наличие задержки прн формировании первичного сигнала подкрепления требует решения временной задачи присваивания коэффициентов доверия (1ешрога! сгегй1 азяйшпепг). Это значит, что обучаемая машина должна быть способна присваивать коэффициенты доверия и недоверия действиям, выполненным на всех шагах, приводящих к конечному результату, в то время как первичный сигнал подкрепления формируется только на основе конечного результата.
Несмотря на эти сложности, системы обучения с отложенным подкреплением являются очень привлекательными. Они составляют базис систем, взаимодействующих с внешней средой, развивая таким образом способность самостоятельного решения возникающих задач на основе лишь собственных результатов взаимодействия со средой. Обучение с подкреплением тесно связано с динамическим программированием (дупаппс ргойгашш1п8) — методологией, созданной Беллманом в 1957 году в контексте теории оптимального управления [118]. Динамическое программирование реализует математический формализм последовательного принятия решений.
Перемещая обучение с подкреплением в предметную область динамического программирования, можно взять на вооружение все результаты последнего. Это было продемонстрировано в 1126]. Введение в проблему динамического программирования и описание его взаимосвязи с обучением с подкреплением будет представлено в главе 12. Обучение без учителя Обучение без учителя (ппзпрегч(зед) (или обучение на основе самоорганизации (зейт огйашкед)) осуществляется без вмешательства внешнего учителя, или корректора, контролирующего процесс обучения (рис.
2.8). Существует лишь независимая от задачи мера качества (шзк-(пдерепдепг шеазпге) представления, которому должна научиться нейронная сеть, и свободные параметры сети оптимизируются по отношению к этой мере. После обучения сети на статистические закономерности входного сигнала она способна формировать внутреннее представление кодируемых признаков входных данных и, таким образом, автоматически создавать новые классы 1112]. 2.10. Задачи обучения 111 Вектор, описывающий састояппе Рис. 2.8.
Блочная диаграмма обучения без учителя Для обучения без учителя можно воспользоваться правилом конкурентного обучения. Например, можно использовать нейронную сеть, состоящую из двух слоев— входного и выходного. Входной слой получает доступные данные. Выходной слой состоит из нейронов, конкурирующих друг с другом за право отклика на признаки, содержащиеся во входных данных. В простейшем случае нейронная сеть действует по принципу "победитель получает все". Как было показано в разделе 2.5, при такой стратегии нейрон с наибольшим суммарным входным сигналом "побеждает" в соревновании и переходит в активное состояние. При этом все остальные нейроны отключаются.
Различные алгоритмы обучения без учителя описываются в главах 8 и 11. 2.10. Задачи обучения В предыдущих разделах описывались различные алгоритмы и парадигмы обучения. В данном разделе рассматривается ряд задач обучения. Выбор конкретного алгоритма обучения зависит от задач, решению которых следует обучить нейронную сеть. В этом контексте можно выделить шесть основных задач, для решения которых в том или ином виде применяются нейронные сети. Ассоциативная память Ассоциативная намять (аааосгайче шешогу) представляет собой распределенную память, которая обучается на основе ассоциаций, подобно мозгу живых существ.