Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 284
Текст из файла (страница 284)
Формальные языки, такие как логика первого порядка и Яана, имеют строгие математические определения. В этом они отличаются от 'сь естественных языков, таких как китайский, датский и английский, которые не имеют строгого определения, но совместно используются сообществом говорящих на них людей. Но в этой главе будет предпринята попытка трактовать естественные языки так, как если бы они были формальными языками, хотя авторы признают, что эта попытка провести между ними аналогию не будет идеальной. Ж Грамматика — это конечное множество правил, которое определяет язык. Формальные языки всегда имеют официально утвержденную грамматику, описанную в руководствах или учебниках. Естественные языки не имеют официально утвержденной грамматики, но лингвисты стремятся раскрыть свойства языка в процессе научного исследования, а затем узаконить свои открытия в грамматике.
До снх пор еше ни одному лингвисту не удалось добиться в этом полного успеха. Следует отметить, что лингвисты — это ученые, пытающиеся дать определение естественному языку в том виде, в каком он есть. Но некоторые специалисты берут также на себя роль распространителей норм грамматики и пытаются диктовать, каким должен быть язык. Они создают правила, подобные тому, что "нельзя применять инфинитив с отделенной частицей" (зр1й 1пйп111хе), а эти правила иногда публикуются в руководствах по языковому стилю, но оказывают очень малое влияние на то, как фактически используется язык.
И в формальных, и в естественных языках с каждой допустимой строкой связан смысл, или семантика. Например, в языке арифметики может быть предусмотрено ПраВИЛО, уКаЗЫВаЮШЕЕ, ЧтО ЕСЛИ "Х" И "У" — ВЫражЕНИя, тО "Хьу" — таКжЕ ВЫражение, а его семантикой является сумма Х и у. В естественных языках важно также понимать 'сь прагматику строки — фактический смысл строки, как речи, высказан- !049 Глава 22. Общение ной в данной конкретной ситуации. Смысл заложен не только в самих словах, но и в интерпретации этих слов в сложившихся обстоятельствах. Большинство формальных систем представления грамматических правил основано на идее Ж структуры словосочетаний, согласно которой строки состоят из подстрок, называемых словосочетаниями, которые относятся к различным категориям. Например, словосочетания "г!зе артроз", "г)ге )г)пя" и "1!зе аяепг 1п где согпег" представляют собой примеры категории 'сь именного словосочетания, или сокращенно и'(Моцп Р)цэзе).
Есть две причины, по которым целесообразно классифицировать словосочетания именно таким образом. Во-первых, словосочетания обычно соответствуют естественным семантическим элементам, из которых можно конструировать смысл фрагмента; например, именные словосочетания указывают на объекты в рассматриваемом мире. Во-вторых, классификация словосочетаний позволяет описывать строки, допустимые в данном языке. В частности, можно угверждать, что любое из именных словосочетаний может комбинироваться с 'з.
глагольным словосочетанием (или сокращенно РР— Чег1з Рпгазе), таким как ")з беар" (мертв), для формирования словосочетания, относящегося к категории Ъ. предложения (или сокращенно э — бепгспсе). Без таких вспомогательных понятий, как именное словосочетание и глагольное словосочетание, было бы трудно объяснить, почему строка, состоягцая из слов "Г!зе чщтрцэ В г)еаг(", представляет собой предложение, а "члзгпрцз Гпе с(еаза 1в" — нет. Такие имена категорий, как МР, чр и Я, называются ск нетерминальными символами. В формальных грамматиках нетерминальные символы определяются с использованием пх правил подстановки.
Авторы приняли в качестве системы обозначений для правил подстановки форму Бэкуса — Наура (Вас)гцэ — Хацг Еоггп — ВХР). которая описана в приложении Б на с. 1297. В этой системе обозначений смысл приведенного ниже правила состоит в том, что конструкция я может состоять из любой конструкции иР, за которой следует любая конструкция ж". э — ~ ггпу гч ПОРОЖДАЮШАЯ СПОСОБНОСТЪ Грамматические формальные системы можно классифицировать по их порождающей способности — по тому множеству языков, которое они позволяют представить.
Ноам Хомский [251) описал четыре класса грамматических формальных систем, которые различаются только по форме правил подстановки. Эти классы можно расположить в виде иерархии, в которой каждый класс может использоваться для описания всех языков, которые могут быть описаны с помощью менее мощного класса, а также некоторых дополнительных языков. Ниже приведен список классов этой иерархии, в котором вначале приведен наиболее мощный класс.
° ск Рекурсивно перечислимые грамматики имеют неограниченные правила; по обе стороны правил подстановки может находиться любое количество терминальных и нетерминальных символов, как в правиле д  — г С Эги грамматики по своей выразительной мощи эквивалентны машинам Тьюринга. ° 'ск Контекстно-зависимые грамматики ограничены лишь тем, что в правой части правил должно находиться по меньшей мере столько же символов, сколько и в левой части. Определение "контекстно-зависимыи" связано с 1050 Часть ЧП.
Общение, восприятие и осуществление действий тем фактом, что в правиле, подобном л В в †> л х в, указано, что вместо символа в может быть выполнена подстановка символа х в контексте предшествующего символа л и следующего символа в. Контекстнозависимые грамматики способны представлять такие языки, как а"Ь"с" (последовательность из п копий а, за которой следует такое же количество копий Ь, а затем с). ° В 'в. контекстно-свободных грамматиках (или сокращенно 'в.
СРб— Сопгехг-Ргее Огапппаг) левая часть каждого правила состоит из одного не- терминального символа. Таким образом, каждое правило обеспечивает подстановку вместо нетерминального символа правой части правила в любом контексте. Грамматики СГО широко применяются для описания естественных языков и представления в виде программ грамматик формальных языков, хотя теперь широко признано, что некоторые естественные языки включают конструкции, которые не являются контекстно-свободными [1242]. Контекстно-свободные грамматики позволяют представить язык а"Ь", но не а"Ь" с'.
° Регулярные грамматики представляют собой наиболее ограниченный класс. Каждое правило имеет один нетерминальный символ в левой части и терминальный символ, за которым может следовать или не следовать не- терминальный символ, в правой части. Регулярные грамматики эквивалентны по своей выразительной моши конечным автоматам. Они плохо приспособлены для определения языков программирования, поскольку не позволяют представить такие конструкции, как сбалансированные открывающие и закрывающие скобки (один из вариантов языка а"Ь"). Самое большее, что они позволяют представить, — это язык а .Ь, последовательность, состоящую из любого количества символов а, за которым следует любое количество символов Ь. Грамматики, расположенные выше в этой иерархии, имеют большую выразительную мощь, но алгоритмы для работы с ними являются менее эффективными.
Вплоть до середины 1980-х годов усилия лингвистов были в основном сосредоточены на контекстно-свободных и контекстно-зависимых языках. Но в дальнейшем стали шире применяться регулярные грамматики, что было вызвано необходимостью очень быстро обрабатывать мегабайты и гигабайты текста в оперативном режиме, даже за счет менее полного анализа. Как сказал Фернандо Перейра: "Чем старше я становлюсь, тем ниже спускаюсь по иерархии Хомского". Чтобы узнать, что он имел в виду, сравните его книгу, которая вышла в 1980 году [1208], с книгой, выпущенной в 2002 году [1069].
Составные этапы общения Типичный эпизод общения, в котором отправитель сообщения В желает проинформировать получателя сообщения в об истинности высказывания в с использованием слов ЬГ, состоит из семи описанных ниже процессов. ° 'сь Намерение. В какой-то момент времени отправитель в решает, что есть некоторое высказывание в, которое следует сообщить получателю в. В качестве 1051 Глава 22.
Общение примера предположим, что отправитель хочет дать знать получателю о том, что вампуса больше нет в живых. ° 'ск Выработка. Отправитель составляет план преобразования высказывания Р во фрагмент речи, обеспечивающий высокую вероятность того„что получатель после восприятия этого фрагмента речи в текущей ситуации сможет восстановить логическим путем смысл высказывания р (или чего-то близкого к нему). Предположим, что отправитель способен составить предложение из слов "Т(зе зушпрца!з с(еаг(", и обозначим эти слова как иг. ° 'ж Синтез. Отправитель производит физическую реализацию и' слов (зг. Это может выражаться в нанесении чернил на бумагу, создании колебаний воздуха или воздействии на какой-то другой носитель информации. На рис.
22.1 показано, что агент синтезирует строку звуков (зг', записанную в фонетическом алфавите, который определен на с. 1: и(спахыа)зтрахзз'пздо)зс(! ". Слова сливаются друг с другом; это типично для быстро произносимой речи. 46ЦРВВ)РЩП» ! Синтез: ! ! (гбахиа1вврахвьхасЫЦ ! ! ! ! Выработка: ! ! Тье вчвириз Ь беар ! Намерение: Коли(В, А!Ье(И'итры,5))) ! ! ! ! ' Анализ; (Синтаксический анкчиз)! 5 1 1 1 ! ТЬе ивврвз В йаб ! (Семантическая А!(ге( Игитриз, Кгои) ! нитрврегавия)! Тгтд( И!итры, ° оъ) ! ! (Прагматическая ! -А(г' (И' р !,5з) интериретавия): Пим(вгитриц,53) ! Таз)б(й9КТВЛЬ ! ! ! ' Устранение иеокнозначности; ! ! ! А(не( И итрт),5)) ! ! ! Восприятие: Тбе ивтрвз П Йеаб Усвоение: ТЕЬ1(КВ, Алые( И йтрт 1,50) ° 'а.
Восприятие. Получатель и воспринимает физическую реализацию р) как р(, ' и расшифровывает ее в виде слов Иг,. Если носитель информации предназначен для передачи звуковой речи, такой этап восприятия называется распознаванием речи, а если носитель информации обеспечивает создание двухмерных отображений знаков, такой этап называется оптическим распознаванием символов. Оба эти способа распознавания в !990-х годах перешли из Рис. 22. !. Семь процессов, связанных с общением, которые показаны на примере предложения "ТЬе ыитриз и деад о (Вампус мертв) 1052 Часть М!. Обшение, восприятие и осушествление действий области действий, непостижимых по своей сложности, в сферу повседневного использования, в основном благодаря повышению вычислительной моши настольных компьютеров.