Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 271
Текст из файла (страница 271)
Достигнутые с тех пор усовершенствования алгоритмов стали причиной убедительной победы метода обучения байесовской сети в соревновании по интеллектуальному анализу данных на кубок КРР Сцр 2001 года [248). (На этих соревнованиях рассматривалась конкретная задача из биоинформатики с 139351 характеристикой!) Подход к определению в процессе обучения структуры сети, основанный на учете максимального правдоподобия, был разработан Купером и Херсковицем [292] и усовершенствован Хекерманом и др. [642]. В [507] указано на то, какое влияние оказывает способ представления локальных распределений условных вероятностей на структуру, определяемую в процессе обучения.
Общая задача определения в процессе обучения параметров вероятностных моделей со скрытыми переменными и недостаюцгими данными была решена с помощью алгоритма ЕМ, предложенного Демпстером [383), который представляет собой обобшение нескольких существующих методов, включая алгоритм Баума — Уэлша Глава 20. Статистические методы обучения !001 для обучения скрытых марковских моделей [85).(Сам Демпстер рассматривал ЕМ скорее как схему, а не как алгоритм, поскольку может потребоваться большой объем математической работы, прежде чем появится возможность применить подход на основе ЕМ к новому семейству распределений.) В настоящее время ЕМ представляет собой один из алгоритмов, наиболее широко используемых в науке, а Маклахлан и Кришнан посвятили этому алгоритму и его свойствам целую книгу [1030].
Конкретная задача определения в процессе обучения параметров моделей на основе смешанных распределений, включая смешанные гауссовы распределения, рассматривается в [1509]. В рамках искусственного интеллекта первой успешной системой, в которой использовался алгоритм ЕМ для моделирования смешанных распределений, была система Ацгос1азз [245], )246). Система Аигос!азз применялась для решения многих реальных задач научной классификации, включая открытие новых типов звезд на основе спектральных данных [567] и новых классов белков и интронов в базах данных последовательностей ДН К/белок ) 708). Алгоритм ЕМ для обучения байесовских сетей со скрытыми переменными был разработан Лауритценом [892).
Наряду с этим свою эффективность при обучении байесовских сетей, а также динамических байесовских сетей показали методы на основе градиента [1326], [126]. Структурный алгоритм ЕМ был разработан Фридманом [506]. Способность к определению в процессе обучения структуры байесовских сетей тесно связана с проблемой извлечения причинной информации из данных. Эта проблема сводится к поиску ответа на вопрос о том, существует ли возможность определять в процессе обучения структуру байесовских сетей таким образом, чтобы полученная структура сети демонстрировала реальные причинные связи'? В течение многих лет статистики избегали анализа этого вопроса, считая, что данные самих наблюдений (в отличие от данных, выработанных в результате экспериментальных попыток) могут предоставить только информацию о корреляции; в конце концов, любые две переменные, которые кажутся взаимосвязанными, могут в действительности испытывать влияние третьего, неизвестного причинного фактора, а не влиять друг на друга непосредственно.
Перл [1192] представил убедительные доводы, опровергающие это мнение, и показал, что фактически возникает много ситуаций. в которых причинно-следственные связи можно подтвердить и выявить с помогдью формальных средств 'а. причинной сети для выражения причин и результатов вмешательства, а также обычных условных вероятностей.
Истоки моделей с использованием ближайших соседних точек прослеживаются по меньшей мере до работы Фикса и Ходжеса [474] и со времени ее появления такие модели считаются стандартным инструментом в статистике и распознавании образов. В искусственном интеллекте они нашли широкое применение под влиянием работы Стенфилла и Вальца [1457), которые исследовали методы адаптирования метрики расстояния к данным. Хасти и Тибширани [628) разработали способ локализации метрики применительно к каждой точке пространства в зависимости от распределения данных вокруг этой точки. Эффективные схемы индексации для поиска ближайших соседних точек исследовались в сообществе специалистов по алгоритмам (см., например, [715)).
Оценки плотности ядра, называемые также оценками плотности окна Парцена, были первоначально исследованы Розенблаттом [1305) и Парценом [1178). С тех пор было опубликовано огромное количество научных работ с результатами исследований свойств различных средств оценки. Исчерпывающее введение в эту тему приведено в [393). 1002 Часть Ч!.
Обучение Объем литературы по нейронным сетям слишком велик (до настоящего времени опубликовано примерно 100 000 статей), чтобы всю ее можно было подробно рассмотреть в настоящем разделе. В [299), [300) приведен краткий обзор ранней истории этого направления, начиная с работы Мак-Каллока и Питтса [1017). В сотрудничестве с Мак-Каллоком и Питгсом работал Норберт Винер, основатель кибернетики и теории управления [!589], который оказал значительное влияние на дальнейшую деятельность многих молодых исследователей, включая Марвина Минского.
По-видимому, именно Минский был первым, кто разработал действующую нейронную сеть на основе аппаратных средств; это произошло в 195! году (см. [1055, с. гх — х)). Между тем в Великобритании У. Росс Эшби (также один из основателей кибернетики; см. [42)), Алан Тьюринг, Грей Уолтер и другие основали клуб Кайо (клуб Разума) для "тех, кто был носителем идей Винера еще до появления книги Винера". В книге Эшби 27ез!8л7ог а Вга!и [43), [44] выдвинута идея, что интеллект можно создать с использованием гомеостатических устройств, реализующих соответствующие циклы обратной связи для достижения стабильного адаптивного поведения.
Тьюринг [1519] написал исследовательский отчет с заглавием 7лгей8елг МасЫлегу, который начинается со слов "Я предлагаю исследовать вопрос о том, может ли машина проявлять интеллектуальное поведение" и продолжается в виде описания архитектуры рекуррентной нейронной сети, названной Тьюрингом "неорганизованными машинами В-типа", и подхода к обучению этих машин. К сожалению, этот отчет оставался неопубликованным до 1969 года и его содержание почти полностью игнорировалось до недавнего времени. Фрэнк Розенблатг [! 302) изобрел современный "персептрон" и доказал теорему сходимости персептрона [! 303), хотя его работы оставались в тени чисто математических исследований, выполненных вне контекста нейронных сетей [6), [1093). Кроме того, некоторые ранние работы в области нейронных сетей были посвящены многослойным сетям, включая персептроиы Гамба [517] и мадалииы [1586).
В книге Ееагп!ля Масйтез [1140) рассматриваются многие из этих ранних работ, а также другие интересные темы. В дальнейшем, в этот ранний период исследований персептронов, интерес к этой теме упал под влиянием книги Регсергголз [1054], авторы которой посетовали на отсутствие математической строгости в этой области (но сами авторы в последующем заявили, что они в своей книге просто объяснили причины этого падения интереса). В данной книге указано, что однослойные персептроны способны представить только линейно разделимые понятия, и отмечено отсутствие эффективных алгоритмов обучения для многослойных сетей.
Как свидетельство возрождения интереса к коннекционизму могут рассматриваться статьи в сборнике, выпущенном по материалам конференции в Сан-Диего в 1979 году [655). Большое внимание исследователей привлекла двухтомная антология РВР (Рагайе1 !31зггйшгег( Ргосезгйпй — параллельная распределенная обработка) [1316] и короткая статья в журнале ]Уагиге [1317]; фактически количество статей по "нейронным сетям" за период между 1980 — 1984 и 1990 — 1994 гг.
увеличилось в 200 раз. Анализ нейронных сетей с использованием физической теории магнитных спиновых стекол, приведенный в [26], упрочил связи между статистической механикой и теорией нейронных сетей, предоставляя последнему научному направлению не только полезные математические основы, но и научную респектабельность. Метод обратного распространения был изобретен довольно рано [201), но затем был забыт и снова открыт еще несколько раз [1175], [1579]. 1003 Глава 20. Статистические методы обучения Машины поддерживающих векторов впервые были созданы в ! 990-х годах [296], а теперь являются темой все более возрастающего количества литературных источников, включая такие учебники, как [309]. Было доказано, что эти машины могут стать очень широко применяемым и эффективным средством решения таких задач, как категоризация текста [738), исследования в области биоинформатики [194) и обработка естественного языка, в частности распознавание рукописных цифр [374].
К примерам связанных с ними методов, в которых также используется "фокус с ядерными функциями" для неявного представления экспоненциального пространства характеристик, относится персептрон с голосованием [283]. Тема вероятностной интерпретации нейронных сетей рассматривалась в нескольких источниках, включая [84] и [185). Роль сигмоидальной функции описана в [745]. Метод байесовского обучения параметрам для нейронных сетей был предложен Маккеем [965], а его дальнейшее исследование проведено Нилом [1118). Способность нейронных сетей представлять функции была исследована Цыбенко [316], [317], который показал, что двух скрытых слоев достаточно для представления любой функции, а одного скрытого слоя достаточно для представления любой непрерывной функции.