Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 310
Текст из файла (страница 310)
Это все, что требуется для алгоритма ЕМ. На основании начальных параметров вычисляются выравнивания, а с помошью выравниваний уточняются оценки параметров. Такая процедура повторяется до полной сходимости. 23.5. РЕЗЮМЕ Основные положения, изложенные в этой главы, перечислены ниже. ° Вероятностные языковые модели, основанные на п-элементных сочетаниях, позволяют получить весьма значительный обьем информации о языке. ° Контекстно-свободные грамматики 1Сопгехг-атее Огапппаг — СГО) могут быть расширены до вероятностных контекстно-свободных грамматик, которые позволяют проше определять их параметры с помошью обучения из имеюшихся данных, а также легче решать задачу устранения неоднозначности. ° В системах информационного поиска используется очень простая языковая модель, основанная на обработке мультимножеств слов, но даже эта модель позволяет достичь высоких показателей полноты и точности на очень больших совокупностях текстов.
° В системах извлечения информации используется более сложная модель, которая включает простейшие синтаксические и семантические конструкции. Для реализации таких систем часто применяются каскады конечных автоматов. ° В практически применяемых системах машинного перевода используется целый ряд методов, начиная от полного синтаксического и семантического анализа и заканчивая статистическими методами, основанными на учете частот слов. 1135 Глава 23, Вероятностная обработка лингвистической информации ° При формировании статистической языковой системы лучше всего опереться на модель, позволяющую эффективно использовать имеющиеся данные, даже если эта модель кажется чрезмерно упрощенной.
БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ Подход с применением моделей и-буквенных сочетаний для моделирования языка был предложен Марковым [983]. Клод Шеннон (1394] впервые создал модели и-словных сочетаний английского языка. Хомский [250), [25!] указал на ограничения моделей на основе конечных автоматов по сравнению с моделями на основе контекстно-свободных грамматик и пришел к заключению: "Вероятностные модели не позволяют каким-то образом добиться лучшего понимания некоторых основных проблем синтаксической структуры".
Это утверждение справедливо, но в нем игнорируется тот факт, что вероятностные модели обеспечивают лучшее понимание некоторых других основных проблем, а именно тех проблем, которые не могут быть решены с помощью контекстно-свободных грамматик. Замечания, сделанные Хомским, оказали неблагоприятный эффект, выразившийся в том, что в течение двух десятилетий многие исследователи избегали использования статистических моделей. Положение изменилось лишь после того, как указанные модели снова вышли на передний план и стали применяться при распознавании речи [730].
Метод сглаживания с добавлением единицы был предложен Джеффри (728], а метод сглаживания с удалением путем интерполяции разработан Елинеком и Мерсером [732), которые использовали этот метод для распознавания речи. В число других методов входят сглаживание Виггена — Белла [1605) и сглаживание Гуда— Тьюринга [257]. Последний метод также широко применяется при решении задач биоинформатики. Проблематика биостатистическнх и вероятностных задач Ь]1 Р постепенно сближается, поскольку в каждой из этих областей приходится иметь дело с длинными структурированными последовательностями, выбранными из алфавита непосредственных составляющих. Простые модели и-буквенных и и-словных сочетаний не являются единственными возможными вероятностными моделями. В [136) описана вероятностная модель текста, называемая скрытым распределением Дирихле, в которой документ рассматривается как комбинация тем, а каждая из тем характеризуется собственным распределением слов.
Эта модель может рассматриваться как дополнение и уточнение модели скрытой семантической индексации Дирвестера [376) (см. также [1169]); кроме того, она тесно связана с моделью сочетания многочисленных причин [1345]. В вероятностных контекстно-свободных грамматиках [РгоЬаЬ111зг[с Сопгехг-Ргее Огапцпаг — РСРО) устранены все недостатки вероятностных моделей, отмеченные Хомским, и они показали свои преимущества над обычными контекстно- свободными грамматиками. Грамматики РСРО были исследованы Бугом [151] и Саломаа (1346]. В [729] представлен алгоритм декодирования стека, представляющий собой один из вариантов алгоритма поиска Витерби, который может использоваться для определения наиболее вероятной версии синтаксического анализа с помощью грамматики РСРО.
В [63] представлен внешний — внутренний алгоритм, а в [889] описаны области его применения и ограничения. В [236) и [804) обсуждаются проблемы синтаксического анализа с помощью грамматик в виде банка деревьев. 1!36 Часть ЧП. Общение, восприятие и осуществление действий В [1467] показано, как определять с помощью обучения грамматические правила на основе слияния байесовских моделей.
Другие алгоритмы для грамматик РСЗО представлены в [235] и [980). В [282] приведен обзор результатов, полученных в этой области, и даны пояснения к одной из наиболее успешных программ статистического синтаксического анализа. К сожалению, грамматики РСРО при выполнении самых различных задач показывают более низкую производительность по сравнению с простыми и-элементными моделями, поскольку грамматики РСЗО не позволяют представить информацию, связанную с отдельными словами. Для устранения этого недостатка некоторые авторы [281], [237], [7!3] предложили варианты га лексикализоваиных вероятностных грамматик, в которых совместно используются контекстно-свободные грамматики и статистические данные, касающиеся отдельных слов.
Первой попыткой собрать сбалансированную совокупность текстов для эмпирической лингвистики явилось создание коллекции Вгои и Согроз [493]. Эта совокупность состояла примерно из миллиона слов с отметками, обозначающими части речи. Первоначально эта коллекция хранилась на 100 тысячах перфокарт. Банк деревьев синтаксического анализа Пенна [982] представляет собой коллекцию, состоящую примерно из 1,6 миллиона слов текста, для которого вручную выполнен синтаксический анализ с преобразованием в деревья. Эта коллекция помещается на компактдиске.
В издании Вг[!!з[з Ха!!опа1 Согрев [905] данная коллекция была расширена до 100 миллионов слов. В У!ог!д %Ые %еЬ хранится свыше триллиона слов больше чем на 10 миллионах серверов. В последнее время растет интерес к области информационного поиска, обусловленный широким применением поиска в 1и!егпе!. В [1296] приведен обзор ранних работ в этой области и представлен принцип ранжирования вероятностей. В [980] дано краткое введение в проблематику информационного поиска в контексте статистических подходов к решению задач Х[.Р. В [59) приведен обзор общего назначения, заменивший более старые классические работы [492) и [1347). Книга МалаяГл8 бфаЬугез [1606] посвящена решению именно той задачи, о которой говорит ее название, — описанию того, как можно эффективно индексировать, применять сжатие и выполнять запросы применительно к совокупности текстов гигабайтовых размеров.
В рамках конференции ТКЕС, организованной Национальным институтом стандартов и технологии (]х!а!!она! 1пзбщге оГ 8!апоагоз апд Тес[зпо1о8у — МБТ) при правительстве Соединенных Штатов, проводятся ежегодные соревнования между системами информационного поиска и публикуются труды с описанием достигнутых результатов. За первые семь лет таких соревнований производительность участвующих в них программ выросла примерно в два раза.
Наиболее широко применяемой моделью для информационного поиска является модель векторного пространства Салтона [1348]. В первые годы развития этой области указанная работа Салтона была фактически самой влиятельной. Имеются также две альтернативные вероятностные модели. Модель, представленная в этой книге, основана на [1225]. В ней моделируется совместное распределение вероятностей Р ! гз, !2! в терминах Р ! [2) и1 . В другой модели [985], [1297) используется вероятность Р ! гз] О! .
В [879] показано, что обе эти модели основаны на одном и том же совместном распределении вероятностей, но от выбора модели зависит то, какие методы должны применяться для определения параметров с помощью обучения. Описание, Глава 23. Вероятностная обработка лингвистической информации 1137 приведенное в данной главе, основано на обеих этих моделях. В [1522] приведено сравнение различных моделей информационного поиска.
В [! 87] описана реализация машины поиска для %ог10 %к[е %еЬ, включая алгоритм Ра8еКап[г, в основе которого лежит независимый от запроса критерий качества документа, базируюшийся на анализе %еЬ-ссьиок. В [805] описано, как находить авторитетные источники информации в %еЬ с использованием анализа ссылок. В [1411] приведены результаты исследования журнала с данными о миллиарде поисковых операций, выполненных в %еЬ. В [864] приведен обзор литературы по исправлению орфографических ошибок.