Боровиков В.П. - Нейронные сети (778916), страница 52
Текст из файла (страница 52)
Важно, что на графике можно легко заметить эффект переобучения. Поначалу и ошибка обучения, и контрольная ошибка убывают. С началом переобучения ошибка обучения продолжает убывать, а ошибка контроля начинает расти. Рост проверочной ошибки сигнализирует о начале переобучения и свидетельствует о том, что алгоритм обучения начинает быть деструктивным (и одновременно о том, что более подходящей может оказаться сеть меньшего размера). Если наблюдается переобучение, то процедуру обучения можно прервать, нажав кнопку Стол — Жор в окне обучения или клавишу Еес.
Можно также задать автоматическую остановку программы БТАГ1БТ1СА Нейронные сети с помощью условий остановки. Условия остановки задаются в одноименном окне, доступ к которому осуществляется через меню Обучение-Окопчиние анализа. Кроме максимального числа эпох, отводимого на обучение (которое задается на вкладке Быстрый), здесь можно потребовать, чтобы обучение прекращалось при достижении определенного уровня ошибки или когда ошибка перестает уменьшаться на определенную величину. Целевое значение и минимальное уменьшение могут задаваться раздельно для ошибки обучения и контрольной ошибки. Самое лучшее средство борьбы с переобучением — задать нулевой уровень минимального улучшения (т.е.
не допускать ни малейшего ухудшения). Однако, поскольку при обучении присутствует шум, обычно не рекомендуется прекращать обучение только потому, что на одной очередной эпохе ошиб- 284 Гоава 9. Кракгков руковоооогво ка ухудшилась. Поэтому в системе введен специальный параметр улучшения Окно, в котором задается число эпох, на протяжении которых должно наблюдаться ухудшение, и только после этого обучение будет остановлено. В большинстве случаев для этого параметра вполне подходит значение 5. Сохранение пучиген сети Независимо от того, применяется ли ранняя остановка, в результате переобучения вы можете получить сеть, которая уже успела ухудшить свои свойства. В таком случае вы можете восстановить наилучшую конфигурацию сети из всех, полученных в процессе обучения, с помощью команды Лучшая сеть (меню Обучение-Дополнительно) (рис.
9.9). гие. 9.9 Если функция Лучшал сеть включена, вро грамма о гАТБТ1СА Нейронные сепги автоматически сохраняет наилучшую из сетей, полученных в ходе обучения (по показателю контрольной ошибки). При этом учитываются все прогоны обучения. Таким образом, программа о ТАГБгТ1СА Нейронные сети автоматически хранит наилучший результат всех ваших экспериментов.
Можно также установить штраф за элемент (Уп1г Репа1гу) с тем, чтобы при сравнении штрафовать сети с большим числом элементов (нанлучшая сеть обычно представляет собой компромисс между качеством проверки и размером сети). Обратное распросгпраненце Перед применением алгоритма обратного распространения необходимо задать значения ряда управляющих параметров.
Наиболее важными управляющими параметрами являются скорость обучения, инерция и перемешнвание наблюдений в процессе обучения (заметим здесь, что преимущество метода сопряженных градиентов заключается не только в скорости, но и малом числе управляющих параметров) (рис. 9.10). 285 Нейронные сева. ЗТАТ!ЗТ!СА Неига! Не!еоже Рис. 9.10 Параметр П Скорость обучения задает величину шага при изменении весов: при недостаточной скорости алгоритм медленно сходится, а при слишком большой он неустойчив и склонен к осцилляциям.
К сожалению, величина наилучшей скорости зависит от конкретной задачи; для быстрого и грубого обучения подойдут значения от 0,1 до О,б; для достижения точной сходимости требуются гораздо меньшие значения (напримср, 0,01 или даже 0,001, если эпох много тысяч). Иногда полезно уменьшать скорость в процессе обучения.
В программе БТАТ15Т1СА Нейронные сети можно задать начальное и конечное значения скорости, в этом случае по мере обучения производится интерполяция между ними. Начальная скорость задается в левом лоле, конечная — в правом (рис. 9.11). Рис. 9.11 Коэффициент инерции (Момент) помогает алгоритму не застревать в низинах и локальных минимумах. Этот коэффициент может иметь значения в интервале от нуля до единицы.
Некоторые авторы рекомендуют н его менять в процессе обучения. К сожалению, здесь тоже «правильное» значение зависит от задачи и его можно найти только опытным путем. 286 Гоава 9, краткое руководство При использовании метода обратного распространения обы пю рекомендуется от эпохи к эпохе менять порядок наблюдений, поскольку это снижает вероятность того, что алгоритм застрянет в локальном минимуме, а также уменьшает эффект переобучения. Чтобы воспользоваться этой возможностью, установите режим Перемешивать наблюдения. Оценка качества работы сета После того, как сеть обучена, стоит проверить, насколько хорошо она работает. Среднеквадратичная ошибка, которая выдастся в окне График ошибки обучения, представляет лишь грубую меру производительности.
Более полезные характеристики выдаются в окнах Статистики классификации и Статисяшки регрессии (доступ к обоим происходит через окно Результатов анализа). Окно Сгнатистики классификации действует в случае номинальных выходных переменных. Здесь выдаются сведения о том, сколько наблюдений каждого класса из файла данных (каждый из которых соответствует номинальному значению) было классифицировано правильно, сколько неправильно и сколько не классифицировано, а также приводятся подробности об ошибках классификации.
Обучив сеть, нужно просто открыть окно Описательные сгпатиспгили (рис. 9.12). Ряс. 9.12 Статистики могут быть получены раздельно для обучающего, контрольного и тестового множеств. В верхней части таблицы приводятся суммарные статистики (общее число наблюдений в каждом классе, число классифицированных правильно, неправильно и неклассифицированных), а в нижней части — кросс-результаты классификации (сколько наблюдений из данного столбца было отнесено к данной строке) (рис. 9.13).
Если в этой таблице много ответов Неизвестно, но мало или совсем нет ответов Неправильно, то, вероятно, следует ослабить пороги принятия и 287 Неороннме села. ЗТАТ!ЗТ!СА Неига! Мекеоже Рис. 9.13 Ряс. 9.14 отвержения (меню Правка-Пре!постпроцессирование — Его)-Рге!Розг Ргосеят'щ) (рис. 9. 14). Окно Сп атисвики регрессии используется в случае числовых выходных переменных. В нем суммируется точность регрессионных оценок. Наиболее важной статистикой является отношение стандартных отклонений (Хо. гайо), приведенное внизу таблицы. Она представляет собой отношение стандартного отклонения ошибки прогноза к стандартному отклонению исходных данных.
Если бы у нас вообще не было входных данных, то лучшее, что мы могли бы взять в качестве прогноза для выходной переменной— это ее среднее значение по имеющейся выборке, а ошибка такого прогноза была бы равна стандартному отклонению выборки. Если нейронная сеть работает результативно, мы вправе ожидать, что ее средняя ошибка на имеющихся наблюдениях будет близка к нулю, а стандартное отклонение этой ошибки будет меньше стандартного отклонения выборочных значений (иначе сеть давала бы результат не лучше, чем простое угадывание). Таким образом, отношение стандартных отклонений значительно меньшее единицы, говорит об эффективности сети.
Величина, равная единице минус отношение стандартных отклонений, равна доле объясненной дисперсии модели. Сеп1п Кохонена Алгоритм обучения сетей Кохонена в некоторых отношениях похож на алгоритмы обучения многослойных псрсептронов: он является итерационным и осуществляется по эпохам, при этом на график может быть выведена среднеквадратичная ошибка обучения (хотя на самом деле она является средним квадратом совсем другой меры ошибки, чем в многослойных перс ептронах). Однако у апгоригма Кохонена есть ряд особенностей, Наиболее существенная из них состоит в том, что обучение здесь неуправляемое, т.е.
в данных может вообще не содержаться никаких выходных значений, а если такие есть, то они игнорируются. Работа алгоритма определяется двумя параметрами: Скорость обучения и Окрестность. Обучение происходит так: очередное наблюдение подается 288 Гпава 9. К ратко в рукововотво на вход сети, обрабатывается ею, выбирается выигравший (наиболее активный) радиальный элемент (т.е.
элемент второго слоя сети), и затем он и его ближайшие соседи корректируются так, чтобы лучше воспроизводить обучающее наблюдение. Скорость обучения управляет степенью адаптации, а окрестность определяет количество корректируемых элементов. Обычно работа алгоритма Кохонена разбивается на два этапа — упорядочивание и тонкая настройка, — на каждом из которых скорость обучения и размер окрестности постепенно меняются от своих начальных значений к конечным.
В программс БТАГ1БТ1СА Нейронные сети можно задавать начальные и конечные значения как для скорости обучения, так и для размера окрестности. Размер окрестности определяет квадрат с центром в выигравшем элементе; нулевой «размер» соответствует одному выигравшему элементу; «размер 1» — квадрату ЗхЗ с центром в выигравшем элементе; «размер 2»вЂ” квадрату 5х 5 и т.д. Если выигравший элемент расположен близко к краю, то окрестность обрезается (а не перекидывается на противоположную). Несмотря на то, что по самому своему смыслу такой параметр является целым числом, можно задать его в вещественном виде, чтобы точнее управлять им, когда алгоритм начинает уменьшать размер окрестности. В этом случае программа БТАТ1о Т1СА Нейронные сети сначала корректирует это число, а затем округляет его до ближайшего целого.
После завершения работы алгоритма обучения Кохонена нужно пометить радиальные элементы значками соответствующих им классов (ем. раздел «Топологическая карта»). ДРУГИЕ ТИПЫ СЕТЕЙ Обучение сетей других типов происходит довольно просто; в каждом случае имеется лишь несколько устанавливаемых параметров обучения, и все они описаны ниже. Радыапьные базисные функьшп (РБФ) Обучение состоит из трех этапов: размещение центров радиальных элементов, выбор их отклонений и оптимизация линейного выходного слоя.
Для первых двух этапов есть несколько вариантов работы алгоритма, выбор которых осуществляется в окне Радиальная базисная функция (доступ через мсню Обучение); наиболее популярным сочетанием является метод К-средних для первого этапа и К-ближайших соседей для второго. Линейный выходной слой оптимизируется с помощью классического алгоритма псевдо- обратных матриц (сингулярного разложения). Программа БТАТ1оТ1СА Нейронные сети позволяет также строить гибридные РБФ-сети за счет вы- 289 Нваронныв сапа. ВТАТ!ЗТ!СА йвага! ИвГивгав бора иных функций активации для выходного слоя (например, логистических), и в этом случае для обучения этого слоя можно использовать какой-либо из алгоритмов обучения многослойных персептронов, например, метод сопряженных градиентов.
Пинейные сегпи Здесь под видом двухслойной сети реализована обычная линейная модель, которая оптимизируется с помощью алгоритма псевдообратных матриц в окне Радиальггая базисная функция. Лннейнуго сеть можно применять также для анализа главных компонент, чтобы попытаться уменьшить число переменных перед обработкой данных сетью другого типа. Вероятностные и обобщенно-регрессионные нейронные сети Рйй!6ййй Вероятностныс (РХХ) н обобщенно-регрессионные нейронные сети (ОКНА) основываются на статистических методах ядерных оценок плотности вероятности и предназначены соответственно для задач классификации и регрессии. Для них характерны простые и быстрые алгоритмы обучения, но получающиеся в результате нейросетевые модели оказываются большими и работают сравнительно медленно.















