Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 257
Текст из файла (страница 257)
В разделе 20.4 рассматриваются методы обучения, предусматривающие сохранение и извлечение из памяти конкретных экземпляров примеров. В разделе 20.5 описано обучение нейронных сетей, а в разделе 20.6 даны вводные сведения о ядерных машинах. Часть материала этой главы имеет богатое математическое содержание (и для ее освоения требуются элементарные знания в области многомерного исчисления), хотя основные приведенные здесь научные результаты можно понять, не углубляясь в детали. При изучении этого материала читателю может потребоваться еще раз просмотреть главы 13 и 14 и ознакомиться с математическими сведениями, приведенными в приложении А. 946 Часть Н1. Обучение 20.1.
СТАТИСТИЧЕСКОЕ ОБУЧЕНИЕ Основными понятиями в данной главе, как и в главе 18, являются данные и гипотезы. Но в этой главе данные рассматриваются как свидетельства, т.е. конкретизации некоторых или всех случайных переменных, описывающих проблемную область, а гипотезы представляют собой вероятностные теории того, как функционирует проблемная область, включаюшие логические теории в качестве частного случая. Рассмотрим очень простой пример. Наши любимые леденцы "Сюрприз" выпускаются в двух разновидностях: вишневые (сладкие) и лимонные (кислые). У изготовителя леденцов особое чувство юмора, поэтому он заворачивает каждую конфету в одинаковую непрозрачную бумагу, независимо от разновидности.
Леденцы продаются в очень больших пакетах (также внешне не различимых), о которых известно, что они относятся к пяти следующим типам; Лц ! 00% вишневых леденцов Лг. '75% вишневых Ч 25 % лимонных леденцов лн 50% вишневых ч 50 % лимонных леденцов Л4. 25% вишневых ч- 75 % лимонныхледенцов Ли 100% лимонных леденцов Получив новый пакет леденцов, любитель конфет пытается угадать, к какому типу он относится, и обозначает тип пакета случайной переменной и (сокрашение от Лурогйегйз — гипотеза), которая имеет возможные значения от Л, до Л,.
Безусловно, значение переменной и невозможно определить с помощью непосредственного наблюдения. По мере развертывания н осмотра конфет регистрируются данные о них, 77„27м ..., 27„, где каждый элемент данных, 27„представляет собой случайную переменную с возможными значениями сЛеллу (вишневый леденец) и 2зте (лимонный леденец). Основная задача, стоящая перед агентом, состоит в том, что он должен предсказать, к какой разновидности относится следующая конфета'.
Несмотря на кажущуюся простоту, постановка этой задачи позволяет ознакомиться с многими важными темами. В действительности агент должен вывести логическим путем теорию о мире, в котором он сушествует, хотя и очень простую. В Ъ. байесовском обучении исходя из полученных данных просто вычисляется вероятность каждой гипотезы и на этой основе делаются предсказания. Это означает, что предсказания составляются с использованием всех гипотез, взвешенных по их вероятностям, а не с применением только одной "наилучшей" гипотезы.
Таким образом, обучение сводится к вероятностному выводу. Допустим, что переменная зз представляет все данные, с наблюдаемым значением ег; в таком случае вероятность каждой гипотезы может быть определена с помошью правила Байеса: Р(ЛН01 = а Р(ааль) Р(лг1 (20.21 Теперь предположим, что необходимо сделать предсказание в отношении неизвестного количества Х.
В таком случае применяется следуюшее уравнение: ' Читатели, искушенные в статистике, узнают в этом сценарии один нз вариантов постановки задачи с урнами н шарамн. Но авторы считают урны н шары менее привлекательными, чем леденцы; более того, с самими леденцами можно также связать н другие задачи, например задачу принятия решения о том, есть лн смысл перепродать какой-то пакет конфет своему другу (см. упр. 20 3). 947 Глава 20. Статистические методы обучения В(Х(б) = ,') Р(Х(ет,)з,) В()з.!а) ь ,') Р(Х(ЬП) Р(вн!б) ) 1 (го.г) Р(а!л, = П з( 3 (го.з) Например, предположим, что пакет в действительности представляет собой пакет такого типа, который состоит из одних лимонных леденцов (йз), и все первые 10 КОНфЕт ЯВЛЯЮТСЯ ЛИМОННЫМИ ЛЕДЕНЦаМИ; В таКОМ СЛУЧаЕ ЗпаЧЕНИЕ Р(Г1 !)Зз) РаВНО 0.5зе, поскольку в пакете типа Лз половина конфет — лимонные леденцы'.
На рис. 20.1, а показано, как изменяются апостериорные вероятности пяти гипотез по мере наблюдения последовательности из 10 лимонных леденцов. Обратите внимание на то, что кривые вероятностей начинаются с их априорных значений, поэтому первоначально наиболее вероятным вариантом является гипотеза )зз и остается таковой после развертывания 1 конфеты с лимонным леденцом. После развертывания 2 конфет с лимонными леденцами наиболее вероятной становится гипотеза б„ а после обнаружения 3 или больше лимонных леденцов наиболее вероятной становится гипотеза )зз (ненавнстный пакет, состоящий из одних кислых лимонных леденцов). После обнаружения 10 подряд лимонных леденцов мы почти уверены в своей злосчастной судьбе. На рис.
20.1, б приведена предсказанная вероятность того, что следующий леденец будет лимонным, согласно уравнению 20.2. Как и следовало ожидать, она монотонно увеличивается до 1. ' Выше бьшо указано, что пакеты с конфетами — очень большие, так как в противном случае предположение Ь!.д. не соблюдалось бы. Формально было бы более правильно (но менее гигиенично) снова заворачивать каждую конфету в бумагу после ее осмотра и возврашать в пакет. где предполагается, что каждая гипотеза определяет распределение вероятностей по х. Это уравнение показывает, что предсказания представляют собой взвец)енные средние по предсказаниям отдельных гипотез.
Сами гипотезы по сути являются "посредниками" между фактическими данными и предсказаниями. Основными количественными показателями в байесовском подходе являются 'св распределение априорных вероятностей гипотезы, Р()ъ ), И Ъ. правдоподобие данных согласно каждой гипотезе, Р(ез ~)з,). Применительно к рассматриваемому примеру с леденцами предположим, что изготовитель объявил о наличии распределения априорных вероятностей по значениям Л,, ., Лз, которое задано вектором <О. 1, О.
2, О. 4, О. 2, О. 1>. Правдоподобие данных рассчитывается в соответствии с предположением, что наблюдения характеризуются свойством ск |лА., т.е. являются независимыми и одинаково распределенными (ВЫ. — !пдерепг)еп(!у апг( и)еп(!са1!у г)!згг!Ьн(ег)), поэтому соблюдается следующее уравнение: 948 Часть Ч1. Обучение й ! 0,8 о Ц 0,6 о с 0,4 ц Я 0,2 о о ы и Я б =" оп оп М сй 0,9 0,8 0,6 0,5 0,4 о 0 2 4 6 8 )О Количество выборок в л! иожссчвс 4 а) 2 4 6 8 !О Количество выборок в множестве 4 б) Рис.
20.1. Изменение вероятностей в зависимости от количеопва данных: апостераорные веро- ятности В бл /с)ч ..., с)н), полученные с ч!омон(ью уравнения 20.!. Количество наблюдений н воз- растает от 1 до 1О, а в каждом наблюдении обнаруживается лимонный леденец (а); байесовские предсказания в (с)я в =аьюе ) с)ч, ..., с(н), полученные из уравнения 20 2 (б) Этот пример показывает, что СР истинная гипотеза в конечном итоге будет доминировать над байесовским предсказанием. В этом состоит характерная особенность байесовского обучения. При любом заданном распределении априорных вероятностей, которое не исключает с самого начала истинную гипотезу, апостериорная вероятность любой ложной гипотезы в конечном итоге полностью исчезает просто потому, что вероятность неопределенно долгого формирования "нехарактерных" данных исчезаюше мала (сравните это замечание с аналогичным замечанием, сделанным при обсуждении РАС-обучения в главе 18).
Вше более важно то, что байесовское предсказание является оптимальным, независимо от того, применяется ли большой или малый набор данных. При наличии распределения априорных вероятностей гипотезы все другие предсказания будут правильными менее часто. Но за оптимальность байесовского обучения, безусловно, приходится платить. В реальных задачах обучения пространство гипотез обычно является очень большим или бесконечным, как было показано в главе 18. В некоторых случаях операция вычисления суммы в уравнении 20.2 (или, в непрерывном случае, операция интегрирования) может быть выполнена успешно, но в большинстве случаев приходится прибегать к приближенным или упрощенным методам.
Один из широко распространенных приближенных подходов (из числа тех, которые обычно применяются в научных исследованиях) состоит в том, чтобы делать предсказания на основе единственной наиболее вероятной гипотезы„т.е. той гипотезы 22» которая максимизирует значение Р (22! ~ 48) . Такую гипотезу часто называют 'э. максимальной апостериорной гипотезой, или сокращенно МАР (Махнпшп А Роз(епог!; произносится "эм-эй-пи"). Предсказания )ь„„сделанные на основе МАР- гипотезы, являются приближенно байесовскими до такой степени, что и (х~ 42) =зв (Х~ анлв) .