Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 273
Текст из файла (страница 273)
20.6. 20.7. 20.8. 20.9. востороннее заболевание д), которые являются равновероятными и одинаково хорошо излечиваются с помощью лекарства против заболевания и. Теперь количество гипотез стало равным трем; как поступят эти два статистика? Объясните, как применить метод усиления, описанный в главе 18, для наивного байесовского обучения. Проверьте производительность результирующего алгоритма на задаче обучения с рестораном. Рассмотрим и точек данных (х,,)З], где координаты 18 вырабатываются на основании координат х, в соответствии с моделью линейного гауссова распределения, приведенной в уравнении 20.5. Найдите значения 0„0, и и, которые максимизируют условное логарифмическое правдоподобие этих данных.
Рассмотрим модель зашумленного ИЛИ для лихорадки, описанную в разделе 14.3. Объясните, как применить обучение с учетом максимального правдоподобия для согласования параметров такой модели с множеством полных данных. (Подсказка. Используйте цепное правило для частичных производных.) В данном упражнении исследуются свойства бета-распределения, которое определено в уравнении 20.6. а) Выполнив интегрирование по отрезку (О, 1], покажите, что константа нормализации для распределения Ьеса ( а, Ь] задается выражением а=Г(а+Ь] ?Г(а) Г(Ь], где Г(х) — ек гамма-функция, определяемая выражением Г(хь1] =хГ(х], а Г(1] =1 (для целого числа х выражение Г(х~1) =х.'). б) Покажите, что математическое ожидание равно ау (а+Ь]. в) Найдите моду (моды) — наиболее вероятное значение (значення) О.
г) Опишите вид распределения Ьеса(е, е] для очень малого значения е. Что происходит при обновлении такого распределения? Рассмотрим произвольную байесовскую сеть, полный набор данных для этой сети и правдоподобие этого набора данных согласно этой сети. Дайте простое доказательство того, что правдоподобие данных не может уменьшиться после добавления новой связи к сети и повторного вычисления значений параметров максимального правдоподобия. параметров сети, приведенной на рис.
20.!О, а, если даны истинные параметры в уравнении 20.7. а) Объясните, почему алгоритм ЕМ не будет действовать, если в модели имеются только два атрибута, а не три. б) Покажите расчеты для первой итерации алгоритма ЕМ, начиная с уравнения 20.8. в) Что происходит, если применение алгоритма начинается с присваивания всем параметрам одинакового значения р? (Подсказка. Рекомендуется вначале провести эмпирическое исследование этого вопроса и только после этого выводить общий результат.) г) Запишите выражение для логарифмического правдоподобия табличных данных о конфетах, приведенных в табл. 20.1, с учетом параметров, рас- Глава 20.
Статистические методы обучения 1007 Таблица 20дс Примеры дла уар. 20.15 1 О О О О О О 1 ! О 1 О О ! 1 О О О О 1 0 ! 1 ! 1 О 1 ! О О О ! ! О 1 1 О ! О О О О О О 1 ! 1 1 ! ! 1 ! О О О ! ! О 1 1 1 О 1 О О ! О О 1 О О О ! 1 О ! О О О 1 О ! 1а ! 1 О ! 1 О 1 О О О 16 1 1 1 ! 1 1 а) Примените правило обучения персептрона к этим данным и покажите окончательные веса. б) Примените правило обучения дерева решений и покажите результирующее дерево решений. в) Прокомментируйте полученные вами результаты. 20.16. Начиная с уравнения 20.13, покажите, что дь/дя~з=я~тха,. считайте частичные производные по отношению к каждому параметру и исследуйте характер фиксированной точки, достигнутой при выполнении упр.
20.10, в. 20.11. Постройте вручную нейронную сеть, которая вычисляет функцию )(Оп от двух входов. Обязательно укажите, какого рода элементы вы используйте. 20.12.Сконструируйте машину поддерживающих векторов, которая вычисляет функцию з(0н. При этом для входов и выходов удобнее использовать значения 1 и -1 вместо 1 и О. Поэтому некоторые примеры могут выглядеть как ( [-1, 1), 1) или ( [-1, -1], -1). Обычно принято отображать входное значение х на пространство, состоящее из пяти размерностей: двух первоначальных размерностей, х, и х„и трех комбинаций размерностей, х„', х,' и х,х,.
Но для этого упражнения мы будем рассматривать только две размерности, х, и х,х,. Нарисуйте в этом пространстве четыре входных точки и разделитель с максимальной шириной края. Каковым является этот край? А теперь снова преобразуйте разделительную линию и нарисуйте ее в первоначальном евклидовом пространстве входов. 20.13. Простой персептрон не способен представить функцию Х0п (или, вообще говоря, функцию четности от его входов).
Опишите, что происходит с весами в четырехвходовом персептроне со ступенчатой функцией, начиная со всех весов, установленных равными 0.1, по мере поступления примеров функции четности. 20.14. Напомним, что, как было сказано в главе 18, существует 2' различных булевых функций от и входов. Какая часть функций из этого общего количества может быть представлена с помощью порогового персептрона? 20.15. (й Рассмотрим приведенное в табл. 20.3 множество примеров, каждый из которых имеет шесть входов и один целевой выход. 1008 Часть х'1. Обучение 20.17.
Предположим, что имеется нейронная сеть с линейными функциями активации, Это означает, что выход каждого элемента определяется некоторой константой с, умноженной на взвешенную сумму его входов. а) Предположим, что эта сеть имеет один скрытый слой. Для данного присваивания весам Вг запишите уравнения для значений элементов в выходном слое как функции от и и значений элементов входного слоя х без какого-либо явного упоминания в этих выходных ланных о скрьпом слое.
Покажите, что существует сеть без скрытых элементов, которая вычисляет ту же функцию. б) Повторите вычисления, описанные в упр. 20.! 7, а, но на этот раз применительно к сети с любым количеством скрытых слоев. Какой можно сделать вывод в отношении линейных функций активации? 20.18. й~ Реализуйте какую-то структуру данных для многослойных нейронных сетей с прямым распространением и не забудьте предусмотреть способ представления информации, необходимой как для прямого вычисления, так и для обратного распространения.
Используя эту структуру данных, напишите функцию гчецга1-несыогк-оцсрцс, которая принимает на входе определения некоторого примера и сети, после чего вычисляет соответствующие выходные значения. 20.19. Предположим, что обучающее множество содержит только единственный пример, повторенный 100 раз. В 80 из 100 случаев единственным выходным значением является 1, а в остальных 20 случаях таковым является О. Что предсказывает сеть с обратным распространением для данного примера, при условии, что по нему проведено обучение и достигнут глобальный оптимум? (Подсказка. Чтобы найти глобальный оптимум, необходимо дифференцировать функцию ошибки и приравнять полученное выражение к нулю.) 20.20.
Сеть, приведенная на рис. 20.23, имеет четыре скрытых узла. Это количество узлов было выбрано фактически произвольно. Проведите систематические эксперименты, чтобы измерить кривые обучения для сетей с различным количеством скрытых узлов. Каковым является оптимальное количество? Было бы возможно использовать метод перекрестной проверки, чтобы найти наилучшую сеть еще до получения этих данных? 20.21. Рассмотрим задачу разделения зу точек данных на положительные и отрицательные примеры с использованием линейного разделителя. Очевидно, что эту задачу всегда можно выполнить для количества точек ЛГ=2 на линии с размерностью сг =1, независимо от того, как размечены эти точки или где они находятся (если только эти две точки не находятся в одном и том же месте). а) Покажите, что эту задачу всегда можно выполнить для количества точек вг=З на плоскости с размерностью д=2, если только эти точки не являются коллинеарными.
б) Покажите, что эту задачу не всегда можно решить для количества точек вг=л на плоскости с размерностью ег=2. Глава 20. Статистические методы обучения 1009 в) г) д) Покажите, что эту задачу не всегда можно решить для количества точек дг=4 в пространстве с размерностью о=З, если только эти точки не явля- ются копланарными. Покажите, что эту задачу не всегда можно решить для количества точек вг= 5 в пространстве с размерностью б=З. Амбициозный студент решил доказать, что произвольно расположенные дгточек (но не вг+1 точка) являются линейно разделимыми в пространст- ве с размерностью ВГ-1. Покажите, что из этого доказательства будет сле- довать, что УС-размерность (см.
главу Г8) линейных полупространств в пространствах с размерностью вг-1 равна вг. В этой главе рассматривается вопрос о том, как агент может учиться на своих успехах и неудачах, учитывая полученные вознаграждения и наказания. 21.1. ВВЕДЕНИЕ В главах 18 и 20 рассматривались методы обучения, позволяющие определять функции и вероятностные модели на основе примеров, а в этой главе будет описано, каким образом агенты могут определить в процессе обучения, что делать, особенно если нет учителя, сообщающего агенту, какое действие следует предпринять в тех или иных обстоятельствах. Например, как известно, агент может обучиться игре в шахматы с помощью контролируемого обучения, в котором ему предъявляются примеры игровых ситуаций наряду с наилучшими ходами для этих ситуаций.
Но если нет дружелюбного учителя, предоставляющего готовые примеры, то что может сделать агент? Опробуя случайно выбранные ходы, агент может в конечном итоге составить прогностическую модель своей среды, т.е. предсказать, как будет выглядеть доска после того, как он сделает данный конкретный ход, и даже как, скорее всего, ответит противник в такой ситуации.
Но при этом возникает следующая проблема: ов без какой-либо обратной связи, говорящей о том, какой ход является хорошим и какой плохим, агент не будет иметь оснований для принятия решения о том, какой ход следует сделать. Агент должен знать, что его выигрыш — это благоприятный исход, а проигрыш — неблагоприятный. Обратная связь такого рода называется вознаграждением, или подкреплением. В играх, подобных шахматам, подкрепление дается только в конце игры. Вдругих вариантах среды вознаграждения могут поступать более часто. В настольном теннисе как вознаграждение может рассматриваться каждое выигранное очко, а при обучении новобранцев способам перемеьцения ползком достижением становится каждое движение вперед.
В инфраструктуре для агентов, рассматриваемой в данной главе, вознаграждение считается частью результатов восприятия, но агент должен быть "настроен" на распознавание этой части как вознаграждения, а не про- Глава 21. Обучение с подкреплением 101! сто как еще одного вила сенсорных входных данных. Например, складывается впечатление, что животные настроены на распознавание боли и голода как отрицательных вознаграждений, а удовольствия и приема пищи — как положительных вознаграждений.