Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 272
Текст из файла (страница 272)
Метод "оптимального повреждения мозга", предназначенный для удаления бесполезных связей, изложен в [903), а в [!409] показано, как удалять ненужные элементы. Алгоритм заполнения мозаики, предназначенный для наращивания размеров структур, предложен в [1037]. В [904] приведен обзор целого ряда алгоритмов распознавания рукописных цифр. С тех пор были опубликованы сведения о достигнутых успехах в области уменьшения частоты ошибок в [98] с помощью алгоритма согласования с формой и в [374] — с помощью алгоритма для виртуальных поддерживающих векторов. Проблемы сложности обучения нейронных сетей рассматривались исследователями, занимающимися теорией вычислительного обучения. Первые вычислительные результаты были получены Джаддом [753], который показал, что общая задача поиска множества весов, совместимых с множеством примеров, является [ь!Р-полной, даже при очень ограничительных предположениях. Некоторые из первых результатов, касающихся выборочной сложности, были получены Баумом и Хаусслером [82), которые показали, что количество примеров, требуемых для эффективного обучения, растет примерно пропорционально йб.одй~, где !у — количество весов".
С тех пор была разработана гораздо более совершенная теория [34], в том числе получен важный результат, показывающий, что репрезентативная способность сети зависит не только от количества весов, но и от их величины. Наиболее широко применяемой разновидностью нейронных сетей из тех, которые не рассматривались в данной книге, является сеть си с радиальной базисной функцией, или сокращенно КВР (Каб(а! Ваз]з Рипсбоп). В радиальной базисной функции объединяется взвешенная коллекция ядерных функций (разумеется, обычно гауссовых распределений) для осуществления функциональной аппроксимации. Обучение сетей КВЕ может проводиться в два этапа: вначале с помощью подхода на основе неконтролируемой кластеризации происходит определение в процессе обучения параметров гауссовых распределений (математических ожиданий 'ь Этот результат примерно соответствует "правилу дяди Берии".
Это правило получило название в честь Берии Видроу, который рекоменловал использовать примерно в десять раз больше примеров по сравнению с весами. 1004 Часть|5. Обучение и дисперсий), как описано в разделе 20.3. На втором этапе определяются относительные веса гауссовых распределений. Они составляют систему линейных уравнений, которые, как известно, можно решить непосредственно.
Поэтому два этапа обучения КВЕ предоставляют важное преимушество: первый этап является неконтролируемым, и поэтому для него не требуются размеченные обучающие данных, а второй этап, хотя и контролируемый, характеризуется высокой эффективностью. Подробные сведения приведены в [133]. В этой главе упоминались, но подробно не рассматривались рекурреитные сети.
По-видимому, наиболее изученным классом рекуррентных сетей являются 'В. сети Хопфилда [674]. В них используются двунаправленные связи с симметричными весами (т.е. элементы с !Ез,=!е,,), все элементы являются одновременно входными и выходными, функция активации, о, представляет собой знаковую функцию, а уровни активации могут принимать только значения +1. Сеть Хопфилда функционирует как 'ъ.
ассоциативная память: после обучения сети на множестве примеров новый стимул вызывает установление в сети образа активации, соответствующего тому примеру в обучаюгцем множестве, который наиболее близко напоминает этот новый стимул. Например, если обучающее множество состоит из набора фотографий и новым стимулом является небольшой фрагмент одной из фотографий, то уровни активации сети воспроизводят фотографию, из которой был взят этот фрагмент.
Следует отметить, что оригинальные фотографии не хранятся отдельно в сети; каждый вес представляет собой результат частичного кодирования всех фотографий. Одним из наиболее интересных теоретических результатов является то, что сети Хопфилда могут надежно хранить вплоть до 0,138 дг обучающих примеров, где лг— количество элементов в сети.
В 'ж. машинах Больциана (657], (658] также используются симметричные веса, но предусматриваются скрытые элементы. Кроме того, в них применяется стохастическая функция активации, такая что вероятность появления на выходе 1 определяется некоторой функцией от общего взвешенного входа. Поэтому машины Больцмана подвержены переходам между состояниями, которые напоминают поиск с эмуляцией отжига (см. главу 4), применительно к конфигурации, которая наилучшим образом аппроксимирует обучающее множество. Как оказалось, машины Больцмана очень тесно связаны с частным случаем байесовских сетей, оценка параметров которых осуществляется с помощью алгоритма стохастического моделирования (см. раздел 14,5).
Первое приложение идей, лежащих в основе ядерных машин, было разработано Айзерманом и др. [11], но полная разработка теории этих машин под названием машин поддерживающих векторов была выполнена Владимиром Вапником и его коллегами (156], (!537]. Строгие введения в эту тематику приведены в [309] и (1364]; описание, более удобное для чтения, приведено в статье для журнала А7 Махал(ле, написанной Кристианини и Шелкопфом (308]. В материалах этой главы собраны вместе работы из области статистики, распознавания образов и нейронных сетей, поэтому излагаемые в ней сведения были освещены в литературе много раз многими способами.
К хорошим учебникам по байесовской статистике относятся [!01], [377] и [534]. В (629] приведено превосходное введение в методы статистического обучения. Классическим учебником по классификации образов в течение многих лет была книга [421], которая недавно была переиздана в обновленном виде [422]. Ведущими учебниками по нейронным сетям яв- !005 Глава 20.
Статистические методы обучения лаются [133! и (1290!. Область вычислительной неврологии рассматривается в (339). Наиболее важной конференцией по нейронным сетям и относящимся к ним темалю является ежегодная конференция М!РЕ (денга! 1пГоппайоп Ргосезгйпд СопГегепсе), труды которой публикуются в виде серии Аг(иапсез и №ига! !п~огтаноп Ргосетп» Еузгетж Статьи по обучению байесовских сетей появляются также в трудах конференций Упсегга(пгу (п А?и Маей(пе ЕеагпГп», а также нескольких конференций по статистике. К числу журналов, посвященных нейронным сетям, относятся №ига) Сотригагюп,?Уеига!?Уепгог)сг и!ЕЕЕ Тгапзаегюпз оп №ига( №пиог)гз. УПРАЖНЕНИЯ 20.1. Данные, которые использовались для графика, приведенною на рис.
20.1, можно рассматривать как сформированные с помощью гипотезы Л,. Для каждой из остальных четырех гипотез сформируйте набор данных с длиной 100 и вычертите соответствующие графики для ° (Л,) с),, ..., а,) и . (ьь„=21те) с(,, ..., 4.). Прокомментируйте полученные вами результаты. 20.2. Повторите упр. 20.1, но на этот раз нанесите на графики значения Р(Г! „=11те) Лихг) и Р(Ц„„=11те) Ляь) . 20.3. Предположим, что для Анны полезности вишневого и лимонного леденцов равны с„и Гм а для Боба эти полезности равны с, и Г, (но после того как Анна развертывает какую-то конфету, Боб эту конфету не покупает).
Предполагается, что если Боб любит лимонные леденцы гораздо больше чем Анна, то бьщо бы разумным решением со стороны Анны продать Бобу свой пакет с конфетами после того, как она приобретет достаточную уверенность в наличии вэтом пакете большого количества лимонных леденцов. С другой стороны, если Анна в процессе анализа содержимого пакета разворачивает слишком много конфет, стоимость пакета уменьшается, поскольку Боб не платит за развернутые конфеты. Обсудите задачу определения оптимальной точки, в которой Анна должна продавать свой пакет.
Определите ожидаемую полезность этой оптимальной процедуры с учетом распределения априорных вероятностей, описанного в разделе 20.1. 20.4. Два статистика попали на прием к врачу, который сообщил им одинаковый прогноз: с вероятностью 40% расстройство их здоровья вызвано смертельным заболеванием л, а с вероятностью б0% оно вызвано тяжелым заболеванием и. К счастью, есть лекарства и от заболевания А, и от заболевания н, которые являются недорогими, эффективными на 100% и не вызывающими побочных эффектов. Этим статистикам предоставлена возможность выбрать для себя один из вариантов дальнейших действий — принимать одно из этих лекарств, оба эти лекарства или ни одного из этих лекарств.
Как поступит первый статистик, который является убежденным сторонником байесовского полхода? А как поступит второй статистик, который всегда использует гипотезу с максимальным правдоподобием? Врач провел определенные исследования и обнаружил, что заболевание в фактически протекает в двух вариантах (правостороннее заболевание В и ле- 1006 Часть |Л. Обучение 20.10. Рассмотрим применение алгоритма ЕМ для определения в процессе обучения 20.5.