Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 297
Текст из файла (страница 297)
Доведение процесса лексикализации до предела приводит к созданию категориальиой грамматики, в которой количество грамматических правил может стать крайне малым, например равным двум, или грамматики зависимостей [1033], в которой не сушествует словосочетаний, а есть только слова. В [1431] описан широко применяемый синтаксический анализатор, в котором используется грамматика зависимостей. Грамматика соединения деревьев, или сокращенно ТАО (Тгее-Аг(]о!в[ай Огапцпаг) [749], строго говоря, не является лексической, но получила широкое распространение в своей лексикализованной форме [1356]. Интерес представляет общедоступный словарь хогг(пе! [462], состоящий примерно из 100 000 слов и словосочетаний, классифицированных по частям речи и связанных с помошью семантических отношений, таких как "синоним", "антоним" и "часть — целое".
Первые компьютеризированные алгоритмы синтаксического анализа были продемонстрированы в [1632]. Эффективные алгоритмы были разработаны в конце 1960-х годов, и с тех пор в них было введено лишь немного дополнений [587], [773], [1636]. Рассматриваемый в настоящей главе диаграммный синтаксический анализатор в большей степени соответствует описанному в [427]. Хороший общий обзор по этой теме приведен в книге Ахо и Ульмана [9], посвяшенной синтаксическому анализу и компиляции.
В [1001] показано, как в обычной ситуации можно добиться высокой эффективности алгоритма диаграммного синтаксического анализа с дополнениями. В [256] рассматривается проблема устранения синтаксической неоднозначности. Направление исследований по формальной семантической интерпретации естественных языков впервые возникло в рамках философии и формальной логики и особенно тесно связано с работой Альфреда Тарского [1490] по семантике формальных языков.
Бар-Хиллел впервые проанализировал проблемы прагматики и высказал предположение, что они могут быть решены с помощью формальной логики. Вчастности, он ввел в лингвистику предложенный Ч.С. Пирсом [1198] термин "индексальный'* (1пбеяса1), т.е. обладающий смыслом только в непосредственном контексте своего применения [68]. Очерк Ричарда Монтегю Еп81ЫЬ аз а~огта[!ап8иа8е (Английский как формальный язык) [1071] представляет собой своего рода манифест сторонников логического анализа языка, но более доступными дпя восприятия являются [408] и [924].
Полный сборник трудов Монтегю вышел под редакцией Томасона Глава 22. Общение 1095 [1505). В искусственном интеллекте традиции Монтегю продолжили Макаллестер и Гивен [! 007), которые разработали много новых формальных методов. Идея использования промежуточной, или квазилогической формы, для решения таких проблем, как определение области действия кванторов, впервые выдвинута Вудсом [1614] и в настоящее время применяется во многих современных системах [22), [714]. Первой системой Ь![.Р, предназначенной для решения реальной задачи, повидимому, стала система формирования ответов на вопросы ВазеЬай [590], которая выдавала ответы на вопросы, касающиеся базы данных со статистическими сведениями о бейсболе. Вскоре после это~о была разработана система Вудса 1 цпаг [1612), которая отвечала на вопросы об образцах лунного грунта, доставленного на Землю в рамках программы Аполлон. Роджер Шенк со своими студентами создал ряд программ [425], [1358), [1359], [1590], предназначенных для решения задачи понимания языка.
Но при разработке этих программ основное внимание было сосредоточено не на языке как таковом, а, скорее, на представлении знаний и формировании рассуждений. К числу рассматриваемых проблем относилось представление стереотипных ситуаций [314), описание организации человеческой памяти [829), [1287), а также понимание планов и целей [1591).
Задачи производства текстов на естественном языке рассматривались с самых первых дней развития работ по машинному переводу, начиная с 1950-го года, но не были сформулированы в связи с потребностями выработки текста на одном языке (а не двух, как при переводе) до 1970-х годов. Характерными исследованиями в этом направлении являются работы, описанные в [571] и [1413). Одной из первых полномасштабных систем производства текста явилась система Рептап [80], основанная на системной грамматике [775]. В 1990-х годах появились две важные общедоступные системы выработки текста, КРМ[ [79] и Р(3Р [433). К числу наиболее важных книг по производству текста относятся [690), [1029], [1183] и [1275).
Одной из самых ранних работ по устранению неоднозначности явилось исследование Уилкса [1596) по теории семантики предпочтений, в котором предпринимались попытки поиска интерпретаций, позволяющих свести к минимуму количество семантических аномалий. В [66 Ц описана система аналогичного назначения, которая ближе к композиционной семантике, описанной в этой главе. В [666) представлена количественная инфраструктура для измерения качества синтаксической и семантической интерпретации.
С тех пор получили более широкое распространение методы, основанные на использовании явной байесовской инфраструктуры [238], [1625]. В лингвистике получила распространение теория оптимальности (1з!пйц[зг!сз] [761), основанная на идее формирования мягких ограничений, налагаемых на грамматику, что позволяет выполнять естественное ранжирование интерпретаций, а не использовать грамматику для производства всех возможных вариантов с равным рангом. В [1147) рассматриваются проблемы изучения многочисленных одновременных интерпретаций как метода, применяемого вместо выбора одной интерпретации с максимальным правдоподобием. Литературные критики [437), [663] выразили сомнение в том, удастся ли когда-либо решить проблему устранения или уменьшения неоднозначности.
Формальная модель метонимии представлена в [1150). В [883) приведены соответствующие результаты анализа и описан каталог метафор, широко применяемых в английском языке, В [1160) представлен сборник статей по метафорам, а в [992) предложен вычислительный подход к интерпретации метафор. 1096 Часть |Ч1. Общение, восприятие и осушествление действий Приведенная в этой главе трактовка разрешения ссылок основана на работе Хоббса [662]. Более сложная модель, предложенная в [888], основана на механизме присваивания количественных оценок.
В опубликованных немного позже работах [529], [789[ использовалось машинное обучение для настройки количественных параметров. Двумя превосходными обзорами проблематики разрешения ссылок являются книги [660] и [1067]. В изданной в 1758 году книге Дэвида Юма Елг(и!у Солсеглт8 Где Нитал ИЫегзгалдщ утверждалось, что речь становится связной благодаря действию "трех принципов связи между идеями, а именно: сходство, смежность во времени или пространстве, а также причина или результат". С этого началась долгая история попыток определить отношения связности речи. Множество отношений, которое используется в данной главе, предложено Хоббсом [663]; в [974] представлено более широкое множество, которое включает готовность к принятию решения, свидетельство, обоснование, мотивацию, основание, следствие, предоставление возможностей, использование возможностей, переформулировку утверждения, условие, обстоятельство, причину, соглашение, предысторию и тезис — антитезис.
Развитие этой модели привело к созданию теории риторической структуры (Кпегог!са! Бгпюшге Т[зеогу — КБТ), которая, по-видимому, является одной из наиболее перспективных современных теорий [975]. Некоторые примеры, приведенные в настояшей главе, заимствованы из книги, принадлежашей перу Эндрю Келера [756]. В [598[ представлена теория связности речи, основанная на изучении сдвига фокуса внимания слушателя, а в [597[ предложена близкая к ней теория, основанная на понятии сосредоточения внимания.
В [750] собраны важные ранние работы по проблемам речи. Веббер представил модель взаимодействия ограничений синтаксиса и речи в том, что может быть высказано в любом моменте речи [1560], а также описал способ взаимодействия с содержимым речи времен глаголов [1561]. Первый важный результат по индуктивному вьвоау грамматики оказался отрицательным: Голд [569] показал, что нельзя надежно определить с помощью обучения правильный вариант контекстно-свободной грамматики по множеству строк, полученных с помощью этой грамматики. По сути, его идея состоит в том, что если дано множество строк э,, в„..., э„, то правильная грамматика может либо оказаться всеобъемлющей (Я вЂ” > ьохх! *),либо стать копией входныхданных(Я -+ э, ] э, [ ...