Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 261
Текст из файла (страница 261)
Существуют два альтернативных метода принятия решения о том, нужно ли прекратить поиск, поскольку обнаружена приемлемая структура. Первый из них предусматривает проверку того, действительно ли в данных удовлетворяются предположения об условной независимости, неявно заданные в этой структуре. Например, сам факт использования наивной байесовской модели для задачи с рестораном равносилен предположению о том, что справедливо приведенное ниже соотношение, поэтому можно проверить по самим данным, соблюдается ли это соотношение применительно к соответствующим условным частотам. Р(кгх/Бас, Ваз~ ахззыацс) = Р(Ргз/Бас(ыцззГГазс) Р(ваг~ Ьц22ыахс) Итак, даже если полученная структура описывает истинный причинный характер проблемной области, наличие статистических флуктуаций в наборе данных означает, что это уравнение никогда не будет выполняться точно, поэтому необходимо выполнить подходящую статистическую проверку для определения того, есть ли достаточно весомые свидетельства нарушения гипотезы о независимости.
Сложность результирующей сети будет зависеть от пороговых значений, используемых для этой проверки — чем строже проверка на независимость, тем больше связей будет введено в сеть и тем выше опасность чрезмерно тщательной подгонки. Подход, более совместимый с идеями, изложенными в этой главе, состоит в определении того, до какой степени предложенная модель объясняет данные (в вероятностном смысле). Но необходимо соблюдать осторожность при выборе способа измерения этой степени. Если будет просто предпринята попытка найти гипотезу с максимальным правдоподобием, то в конечном итоге будет получена полносвязная сеть, поскольку введение дополнительных родительских узлов для некоторого узла 961 Глава 20. Статистические методы обучения не позволяет повысить его правдоподобие (см.
упр. 20.9). Поэтому приходится каким-то образом вводить штраф за сложность модели. В подходе МАР (или МОЬ) просто вычитаются штрафные оценки из значений правдоподобия каждой структуры (после настройки параметров) до сравнения различных структур, а в байесовском подходе налагается совместное распределение априорных вероятностей на структуры и параметры.
Но обычно количество структур, по которым должно быть выполнено суммирование, слишком велико (оно определяется суперэкспоненциальной зависимостью от количества переменных), поэтому большинство практиков используют алгоритм МСМС для формирования выборок по структурам. Применение способа штрафования за сложность (с помощью либо методов МАР, либо байесовских методов) влечет за собой появление важной связи между оптимальной структурой и характером представления для распределений условных вероятностей в сети. При использовании табличных распределений значения штрафов за сложность для распределения вероятностей узла растут экспоненциально в зависимости от количества родительских узлов, а при использовании, скажем, распределений зашумленного ИЛИ они растут только линейно.
Это означает, что обучение с помощью моделей зашумленного ИЛИ (или других компактно параметризованных моделей), как правило, приводит к созданию в результате обучения таких структур, в которых имеется больше родительских узлов, чем при обучении с помощью табличных распределений. 20.3. ОБУЧЕНИЕ С ПОМОЩЬЮ СКРЫТЪ|Х ПЕРЕМЕННЫХ: АЛГОРИТМ ЕМ Предыдущий раздел относился к полностью наблюдаемому случаю. Но многие реальные задачи характеризуются наличием скрытых переменных (иногда называемых ек латентными переменными), которые не наблюдаются в данных, доступных для обучения.
Например, истории болезни часто включают описания наблюдаемых симптомов, применяемого лечения и, возможно, результата лечения, но редко содержат сведения' о непосредственном наблюдении за развитием самого заболевания! Очевидно, напрашивается вопрос "Если ход развития заболевания не наблюдается, то почему бы не построить модель без него"." Ответ на этот вопрос можно найти на рис. 20.7, где показана небольшая фиктивная диагностическая модель для сердечного заболевания. Сугцествуют три наблюдаемых фактора, способствующих или препятствующих развитию заболевания, и три наблюдаемых симптома (которые имеют слишком сложные медицинские названия, поэтому им присвоены условные обозначения). Предполагается, что каждая переменная имеет три возможных значения (например, лопе (отсутствуюший), атос)ела се (умеренный) и эепеле (серьезный)). Удаление скрытой переменной из сети, приведенной на рис. 20.7, а, влечет за собой создание сети, показанной на рис.
20.7, б; при этом общее количество параметров увеличивается с 78 до 708. Таким образом, ог скрытые переягенные В некоторых историях болезни содержатся сведения о диагнозе, предложенном лечащим врачом, но такой диагноз является причинным следствием симптомов, причиной которых, а свою очередь, стало заболевание. 962 Часть зЧ. Обучение позволяют резко уменыиить количество параметров, требуемых для определения байесовский сети. А такой факт, в свою очередь, позволяет резко уменьшить объем данных, необходимых для определения в процессе обучения рассматриваемых параметров. б) а) Рис. 20.7.
Иллюстрация необходимости использования скрытых переменных: простая диагностическая сеть для сердечного заболевиния, в которой предполагается наличие скрытой переменной; каждая переменная имеет три возможных значения и еоотвепютвующий ей узел обозначен количеством независимых параметров враепределении ее условной вероятности; общее количество параметров равно 78 (а); эквивалентная сеть с удаленным узлом Неахеотаеаее. Обратите внимание на то, «пьо переменные еимтпомов больше не являются условно незовисимымщ если даны значения их родительских переменных.
Для этой сети требуется 708 параметров (б) Скрытые переменные важны, но их введение приводит к усложнению задачи обучения. Например, на рис. 20.7, а не показано наглядно, как найти в процессе обучения распределение условных вероятностей для переменной неаггг)звеапе, если заданы ее родительские переменные, поскольку значение переменной неаггШ иеаае в каждом случае не известно; такая же проблема возникает при поиске в процессе обучения распределений вероятностей для симптомов. В этом разделе описан алгоритм, называемый гв ожиданием — максимизацией, или сокращенно ЕМ (Ехресгайоп — Махпп)хайоп), который позволяет решить эту проблему очень общим способом. Мы рассмотрим три примера, а затем приведем общее описание.
На первых порах складывается впечатление, что этот алгоритм действует как по волшебству, но как только будет достигнуто его интуитивное понимание, читатель сможет найти приложения для алгоритма ЕМ в огромном спектре задач обучения. Неконтролируемая кластеризация: определение в процессе обучения смешанных гауссовых распределений 'т. Неконтролируемой кластеризацией называется задача выделения многочисленных категорий в коллекции объектов. Эта проблема — неконтролируемая, поскольку категориям не назначены метки. Например, предположим, что регистрируются спектры сотен тысяч звезд; звезды подразделяются на типы, которые можно определить по спектру, а если так оно и есть, то сколько таких типов и каковы их характеристики? Мы все знакомы с терминами наподобие "красный гигант" и "белый карлик", но звезды не носят эти надписи на своих шляпах, поэтому астрономы должны 9б3 Глава 20.
Статистические методы обучения выполнять неконтролируемую кластеризацию для выявления их категорий. К другим примерам относится вьивление видов, родов, отрядов и других категорий в таксономии живых организмов, установленной Линнеем, а также создание естественных разновидностей для распределения по категориям обычных объектов (см.
главу ) О). Неконтролируемая кластеризация начинается с данных. На рис. 20.8, а показано 500 точек данных, каждая из которых задает значения двух непрерывных атрибутов. Точки данных могут соответствовать звездам, а атрибуты — интенсивностям спектра на двух определенных частотах. Затем необходимо понять, какого рода распределение вероятностей могло быть сформировано этими данными.
Сама возможность кластеризации равносильна предположению, что данные сформированы с помощью Ъ. смешанного распределения Р. Такое распределение имеет )с Ъ. компонентов, каждый из которых представляет собой отдельное распределение. Точка данных формируется путем первоначального выбора компонента, а затем формирования выборки из этого компонента. Допустим, что этот компонент определяет случайная переменная С со значениями 1, ., )с; в таком случае смешанное распределение задается следующим выражением: Р(ве) =,) Р(0=1) Р(х(С=1) где х относится к значениям атрибутов для точки данных.
В случае непрерывных данных естественным вариантом выбора для распределений компонентов является многомерное гауссово распределение, что приводит к созданию семейства распределений, представляющего собой так называемое Ъ. смешанное гауссово распределение. Параметрами смешанного гауссова распределения являются ш,=Р(С=5) (вес каждого компонента), )4, (математическое ожидание каждого компонента) и х, (ковариация каждого компонента). На рис. 20.8, б показано смешанное гауссово распределение, состоящее из трех распределений; фактически это смешанное распределение было источником данных, приведенных на рис.
20.8, а. 0,8 0,8 0,8 0,6 0,6 0,6 0,4 0,4 0,4 0,2 0,2 0,2 0 0 0 0 0,2 0,4 0,6 0,8 1 0 0,2 0,4 0,6 0,8 1 0 0,2 0.4 0,6 0,8 1 в) в) Рис. 20.8. Смешанное гоуссово распределение: 500 двухмерных точек данных, показывающих наличие трех клистеров (о); модель смешанного гоуссово распределения с тремя компонентами; веса компонентов (слева направо) ровны О.
2, О. 3 и О. 5. Данные, приведенные на рис. 20.8, а, были сформированы с помощью этой модели (б); модель, реконструированная из даннььх, приведенньт на рис. 20.8, а, с помощью алгоритма ЕМ(в) 964 Часть ЪЧ. Обучение Таким образом„задача неконтролируемой кластеризации состоит в восстановлении модели смешанного распределения, подобной приведенной на рис. 20.8, б, из исходных данных, таких как показано на рнс. 20.8, а. Очевидно, что если бы мы знали, с помощью какого компонента сформирована каждая точка данных, то было бы легко восстановить гауссово распределение для этого компонента, поскольку можно было просто выбрать все точки данных, соответствующие такому компоненту, а затем применить уравнение 20.4 (вернее, его многомерную версию) для согласования параметров гауссова распределения с множеством данных. С другой стороны, если бы были известны параметры каждого компонента, то можно было бы, по меньшей мере в вероятностном смысле, присвоить каждую точку данных компоненту.