Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 299
Текст из файла (страница 299)
Каждое предложение должно иметь значительные отличия от другого, состоять не меньше чем из шести слов и быть основанным на полностью новом множестве словарных записей (которые вы должны определить). Предложите способы совершенствования каждой грамматики, предотвращаю)цие выработку неправильных английских предложений. 22.10. (:в Реализуйте версию алгоритма диаграммного синтаксического анализа, который возврашает упакованное дерево из всех ребер, охватывающих весь объем входных данных.
((00 Часть ЧН. Общение, восприятие и осуществление действий 22.11. Йв Реализуйте версию алгоритма диаграммного синтаксического анализа, который возвраШает упакованное дерево для самого длинного крайнего левого ребра, а если это ребро не охватывает весь объем входных данных, продолжает синтаксический анализ с конца этого ребра. Покажите, почему требуется вызывать процедуру Ргегйс( перед продолжением синтаксического анализа. Окончательным результатом становится такой список упакованных деревьев, что этот список в целом охватывает входные данные. 22.12. (Составлено ло материалам книги ('77).) Данное упражнение относится к языку, получившему название ВигГа1о", который очень напоминает английский (или по меньшей мере его версию Е,), если не считать того, что единственным словом в его словаре является ЬцГЕа1о, которое пишется со строчной буквы (и обозначает в данном контексте "стадо буйволов", если рассматривается как существительное, а в позиции глагола означает "терроризировать") или с прописной (и обозначает название города — Буффало).
Ниже приведены два предложения на этом языке. Вцтта1о Ьцтта1о Ьцййа1о Вцтта1о Ьцтта1о. Вцееа1о Вцета1о Ьцтеа1о Ьцтта1о Ьцтта1о Вцееа1о Ьцела1о. Если вы не верите, что это действительно предложения, рассмотрите два английских предложения с соответствующей синтаксической структурой: Ва11аз саес1е Ьеи11с)ек Шепчет сасс1е. (Стадо из Далласа терроризирует стадо из Денвера.) Сиетз Ьопс)оп стьегсз асйпьте соек ркепси тоой. (Шеф-повара, которых обожают лондонские критики, готовят блюда французской кухни.) Напишите грамматику для языка Вигга1о".
Его лексическими категориями являются имя собственное с обозначением города, имя сушествительное во множественном числе и (переходный) глагол; кроме того, должно быть предусмотрено одно грамматическое правило для предложения, одно — для глагольного словосочетания и три — для именного словосочетания: сушествительное во множественном числе, именное словосочетание, которому предшествует в качестве модификатора название города, и именное словосочетание, за которым следует сокращенное относительное предложение. Сокрашенным относительным предложением называется такое относительное предложение, в котором исключено относительное местоимение.
Кроме того, относительное предложение состоит из субьектного именного словосочетания, за которым следует глагол без объекта. Примером сокращенного относительного предложения является "Ьоп((оп спйсз алаш(ге" из приведенного выше примера. Рассчитайте количество возможных вариантов синтаксического анализа для языка ВцгГа1о" при и, не превышающем (О. Дополнил)ельяое указаное. Карл де Маркен рассчитал, что количество предложений на языке Вцгга1о" с длиной 200 (для грамматики, которую он использовал) равно (2! 0308722(3055 )5968! (84485. Как он это сделал? 22.13.
Нарисуйте дерево синтаксического анализа речи для приведенного на с. )087 рассказа о том, как Джон пообедал в модном ресторане. Воспользуйтесь двумя грамматическими правилами для фрагмента текста Вертепс, указав соответствующее значение отношения связности Сойелепседе1а Е1оп для каждого узла. (Результаты синтаксического анализа отдельных предложений показы- Глава 22.
Общение 1101 вать не обязательно.) Теперь сделайте то же самое для выбранного вами фрагмента речи, состоящего из 5 — 1О предложений. 22.14. Мы забыли упомянуть, что текст, приведенный в упр. 22.1, должен быть озаглавлен "Стирка белья". Еще раз прочитайте этот текст и ответьте на вопросы, приведенные в упр. 22.7. Удалось ли вам на этот раз лучше справиться с заданием? Бренсфорд и Джонсон 1173) использовали этот текст в эксперименте, проводимом под лучшим контролем, и обнаружили, что для его понимания очень важен заголовок.
Какие выводы вы можете сделать по проблеме совершенствования речи? В данной главе показано, как можно использовать простые язы- ковые модели, прошедшие статистическое обучение, для обра- ботки коллекций, состоящих из миллионов слов, а не просто от- дельных предложений. В главе 22 было показано, что агент может взаимодействовать с другим агентом (человеком или программой), используя фрагменты текста на естественном языке.
Для полного извлечения смысла фрагментов речи необходимо проводить всесторонний синтаксический и семантический анализ фрагментов речи, а такая возможность возникает благодаря тому, что эти фрагменты речи невелики и относятся только к ограниченной проблемной области. В данной главе рассматривается подход к обеспечению понимания языка, основанный на использовании Ъ.
совокупностей текстов. Совокупностью текстов (согриз, во множественном числе — согрога) называется большая коллекция текстов, подобная тем миллиардам страниц, из которых состоит %ог)б %к(е %еЬ. Эти тексты написаны людьми и для людей, а задача программного обеспечения состоит в упрощении поиска нужной информации. В этом подходе предусматривается использование статистики и обучения для получения возможности воспользоваться содержимым совокупности, и в нем обычно применяются вероятностные языковые модели, обучение которых может проводиться с использованием существующих данных и которые прогде по сравнению с дополненными грамматиками (3Сб, описанными в главе 22. При решении большинства подобных задач доступный объем данных превышает тот, который требуется для создания более простой языковой модели.
В данной главе рассматриваются три конкретные задачи: информационный поиск (раздел 23.2), извлечение информации (раздел 23.3) и машинный перевод (раздел 23.4). Но вначале в ней представлен обзор вероятностных языковых моделей. 1! 03 Глава 23. Вероятностная обработка лингвистической информации 23.1. ВЕРОЯТНОСТНЫЕ ЯЗЫКОВЫЕ МОДЕЛИ В главе 22 описана логическая модель языка; в ней для определения того, относится или не относится к некоторому языку данная строка, использовались грамматики СРО и Г)СО, а в данном разделе представлено несколько вероятностных моделей. Вероятностные модели имеют целый ряд преимуществ.
Обучение этих моделей по имеюшимся данным осушествляется очень просто; обучение сводится лишь к подсчету количества вариантов (с учетом определенных допусков на то, что из-за малого размера выборки могут возникать ошибки). Кроме того, эти модели являются более надежными (поскольку они способны принять любую строку, хотя и с низкой вероятностью); они отражают тот факт, что не все !00% говорящих на определенном языке согласны с тем, какие предложения фактически входят в состав языка; кроме того, такие модели могут использоваться для устранения неоднозначности, поскольку для выбора наиболее подходящей интерпретации могут применяться вероятностные законы, 'т. Вероятностная языковая модель позволяет определить распределение вероятностей множества строк (которое может быть бесконечно большим). К примерам таких моделей, которые уже рассматривались в данной книге, относятся двухи трехсловные языковые модели (или модели двух- и трехсловных сочетаний), применявшиеся при распознавании речи (раздел 15.6).
В однословной модели (или модели однословных сочетаний) каждому слову в словаре присваивается вероятность Г'(гч) . В этой модели предполагается, что слова выбираются независимо, поэтому вероятность строки представляет собой произведение вероятностей входящих в нее слов и определяется выражением и, и,). Ниже приведена последовательность из 20 слов, которая была сформирована случайным образом из слов в оригинале данной книги с помощью однословной модели. 1оя)са! аге аз аге солгав)оп а тау г)апг гг!ез аяепг воа! Гйс ваз Гйезе! тоге оЬ)есг Гйсп )лГоппаг)еп-аагпеппя зеагсЬ |з В двухсловной модели каждому слову присваивается вероятность Р(гч,) гч, з) с учетом предыдушего слова. Часть данных о вероятностях таких двухсловных сочетаний приведена в табл. 15.2.
Приведенная ниже случайная последовательность слов сформирована с помощью модели двухсловных сочетаний по материалам оригинала данной книги. р!апп)па риге!у ьйадпозг)с ехреп зумегпз аге чету апц1аг согпртапопа) арргоасЬ воа1с) Ье гергезепГег) сотрас11у иипв бс гас Сое а ргегйсаге Вообще говоря, в модели п-словных сочетаний учитываются предыдущие и-1 слов и присваивается вероятность )( гчз) гчз,„ы...
ь„,) . Приведенная ниже случайная последовательность сформирована с помощью модели трехсловных сочетаний по оригиналу данной книги. р1апп)па авг) зсЬеЖ1)пд аге !пгеягагег) Гйе кассем оГ ла!че Ьауез тог)е! )з)им а ром)Ые рпог зсогсе Ьу гба! 1)те Даже эти небольшие примеры позволяют понять, что модель трехсловных сочетаний превосходит модель двухсловных сочетаний (а последняя превосходит модель однословных сочетаний) как с точки зрения качества приближенного представления )!04 Часть ЧП. Общение, восприятие и осушествление действий текста на английском языке, так и с точки зрения успешной аппроксимации изложения темы в книге по искусственному интеллекту. Согласуются и сами модели: в модели трехсловных сочетаний строке, сформированной случайным образом, присваивается вероятность 10 "', в модели двухсловных сочетаний — вероятность 10 ", а в модели однословных сочетаний — вероятность 10 ".
Но оригинал настояШей книги содержит всего лишь полмиллиона слов, поэтому в нем отсутствует достаточный объем данных для выработки качественной модели двухсловных сочетаний, не говоря уже о модели трехсловных сочетаний. Весь словарь оригинала данной книги включает примерно ! 5 тысяч различных слов, поэтому модель двухсловных сочетаний включает 15000' = 225 миллионов пар слов. Безусловно, что вероятность появления по меньшей мере 99,8% этих пар будет равна нулю, но сама модель не должна указывать на то, что появление любой из этих пар в тексте невозможно. Поэтому требуется определенный способ 'ек сглаживания нулевых результатов фактического подсчета количества пар.