Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 30
Текст из файла (страница 30)
Аналогичная модель на базе статистики отдельныхслов и их совместной встречаемости в текстах (биграмм, триграмм слов)применяется, например, для разрешения лексической неоднозначности [18] илиопределения части речи слова (в языках типа английского).Отметим, что возможны структурно-статистические модели, в которых припредставлении отдельных уровней ЕЯ учитывается та или иная статистика – слов,синтаксических конструкций и т.п.В ЛП модульного типа на каждом этапе анализа или синтеза текста используетсясоответствующая модель (морфологии, синтасиса и т.п.).Существующие в КЛ морфологические модели анализа словоформ различаютсяв основном по следующим параметрам:• результату работы – лемма или основа с набором морфологических характеристик(род, число, падеж, вид, лицо и т.п.) заданной словоформы;• методу анализа – с опорой на словарь словоформ языка или на словарь основ,либо же бессловарный метод;• возможности обработки словоформы лексемы, не включенной в словарь.При морфологическом синтезе исходными данными являются лексема иконкретные морфологические характеристики запрашиваемой словоформы даннойлексемы, возможен и запрос на синтез всех форм заданной лексемы.
Результат какморфологического анализа, так и синтеза в общем случае неоднозначен.Для моделирования синтаксиса в рамках КЛ предложено большое числоразных идей и методов, отличающихся способом описания синтаксиса языка,способом использования этой информации при анализе или синтезе предложения ЕЯ,а также способом представления синтаксической структуры предложения [6]. Весьмаусловно можно выделить три основных подхода к созданию моделей: генеративныйподход, восходящий к идеям Хомского [7], подход, восходящий к идеям И. Мельчукаи представленный моделью «Смысл⇔Текст» [42], а также подход, в рамках которогоделаются те или иные попытки преодолеть ограничения первых двух подходов, вчастности, теория синтаксических групп [33].В рамках генеративного подхода синтаксический анализ производится, какправило, на основе формальной контекстно-свободной грамматики, описывающейфразовую структуру предложения, или же на основе некоторого расширенияконтекстно-свободной грамматики.
Эти грамматики исходят из последовательноголинейного членения предложения на фразы (синтаксические конструкции, например,именные группы) и отражают поэтому одновременно как его синтаксическую, так илинейную структуры. Полученная в результате анализа иерархическаясинтаксическая структура предложения ЕЯ описывается деревом составляющих, влистьях которого находятся слова предложения,поддеревья соответствуют95входящим в предложение синтаксическим конструкциям (фразам), а дуги выражаютотношения вложения конструкций.К рассматриваемому подходу могут быть отнесены сетевые грамматики,представляющие собой одновременно аппарат для описания системы языка и длязадания процедуры анализа предложений на основе понятия конечного автомата,например, расширенная сеть переходов ATN [23].В рамках второго подхода для представления синтаксической структурыпредложения используется более наглядный и распространенный способ – деревьязависимостей.
В узлах дерева расположены слова предложения (в корне обычноглагол-сказуемое), а каждая дуга дерева, связывающая пару узлов, интерпретируетсякак синтаксическая подчинительная связь между ними, причем направление связисоответствует направлению данной дуги. Поскольку при этом синтаксические связислов и порядок слов в предложении отделены, то на основе деревьев подчинениямогут быть описаны разорванные и непроективные конструкции [36], достаточночасто возникающие в языках со свободным порядком слов.Деревья составляющих больше подходят для описания языков в жесткимпорядком слов, представление с их помощью разорванных и непроективныхконструкций требует расширения используемого грамматического формализма. Затов рамках этого подхода более естественно описываются конструкции снеподчинительными отношениями.
В то же время общая трудность для обоихподходов – представление однородных членов предложения.Синтаксические модели во всех подходах пытаются учесть ограничения,накладываемые на соединение языковых единиц в речи, при этом так или иначеиспользуется понятие валентности [38]. Валентность – это способность слова илидругой единицы языка присоединять другие единицы определенным синтаксическимспособом; актант – это слово или синтаксическая конструкция, заполняющая этувалентность. Например, русский глагол передать имеет три основные валентности,которыеможновыразитьследующимивопросительнымисловами:кто? кому? что? В рамках генеративного подхода валентности слов (прежде всего,глаголов) описываются преимущественно в виде специальных фреймов(subcategorization frames) [4], а в рамках подхода, основанного на деревьяхзависимостей – как модели управления.Модели семантики языка наименее проработаны в рамках КЛ.
Длясемантического анализа предложений были предложены так называемые падежныеграмматики и семантические падежи (валентности), на базе которых семантикапредложения описывается как через связи главного слова (глагола) с егосемантическими актантами, т.е. через семантические падежи [4]. Например, глаголпередать описывается семантическими падежами дающего (агенса), адресата иобъекта передачи.Для представления семантики всего текста обычно используются два логическиэквивалентных формализма (оба они детально описаны в рамках ИИ [40]):• Формулы исчисления предикатов, выражающих свойства, состояния, процессы,действия и отношения;• Семантические сети – размеченные графы, в которых вершины соответствуютпонятиям, а вершины – отношениям между ними.Что касается моделей прагматики и дискурса, позволяющих обрабатывать нетолько отдельные предложения, но и текст в целом, то в основном для их построения96используются идеи Ван Дейка [30].
Одна из редких и удачных моделей – модельдискурсивного синтеза связных текстов [41]. В подобных моделях должныучитываться анафорические ссылки и другие явления уровня дискурса.Завершая характеристику моделей языка в рамках КЛ, остановимся чутьподробнее на теории лингвистических моделей «Смысл⇔Текст» [42], и в рамкахкоторой появилось много плодотворных идей, опередивших свое время и актуальныхдо сих пор.В соответствии с этой теорией ЕЯ рассматривается как особого родапреобразователь, выполняющий переработку заданных смыслов в соответствующиеим тексты и заданных текстов в соответствующие им смыслы.
Под смысломпонимается инвариант всех синонимичных преобразований текста. Содержаниесвязного фрагмента речи без расчленения на фразы и словоформы отображается ввиде специального семантического представления, состоящего из двух компонент:семантического графа и сведений о коммуникативной организации смысла.Как отличительные особенности теории следует указать:o ориентацию на синтез текстов (способность порождать правильные текстырассматривается как основной критерий языковой компетенции);o многоуровневый, модульный характер модели, причем основные уровни языкаразделяются на поверхностный и глубинный уровень: различаются, к примеру,глубинный (семантизированный) и поверхностный («чистый») синтаксис, а такжеповерхностно-морфологический и глубинно-морфологический уровни;o интегральный характер модели языка; сохранение информации, представленнойна каждом уровне, соответствующим модулем, выполняющими переход с этогоуровня на следующий;o специальные средства описания синтактики (правил соединения единиц) накаждом из уровней; для описания лексической сочетаемости был предложен наборлексических функций, при помощи которых сформулированы правиласинтаксического перифразирования;o упор на словарь, а не на грамматику; в словаре хранится информация,относящаяся к разным уровням языка; в частности, для синтаксического анализаиспользуются модели управления слов, описывающие их синтаксические исемантические валентности.Эта теория и модель языка нашли свое воплощение в системе машинногоперевода ЭТАП [26].Глава 5.Лингвистические ресурсыРазработка лингвистических процессоров требует соответствующегопредставления лингвистической информации об обрабатываемом ЕЯ.
Этаинформация отображается в разнообразных компьютерных словарях и грамматиках.Словари являются наиболее традиционной формой представления лексическойинформации; они различаются своими единицами (обычно слова илисловосочетания), структурой, охватом лексики (словари терминов конкретнойпроблемной области, словари общей лексики и т.п.).
Единица словаря называетсясловарной статьей, в ней представляется информация о лексеме. Лексическиеомонимы обычно представляются в разных словарных статьях.Наиболее распространены в КЛ морфологические словари, используемые дляморфологического анализа, в их словарной статье представлена морфологическая97информация о соответствующем слове – часть речи, словоизменительный класс (дляфлективных языков), перечень значений слова и т.п.
В зависимости от организациилингвистического процессора в словарь может быть добавлена и грамматическаяинформация, например, модели управления слова.Существуют словари, в которых представлена и более широкая информация ословах. Например, лингвистическая модель «Смысл⇔Текст» существенно опираетсяна толково-комбинаторный словарь, в словарной статье которого помимоморфологической, синтаксической и семантической информации (синтаксические исемантические валентности) представлены сведения о лексической сочетаемостиэтого слова.В ряде лингвистических процессоров используются словари синонимов.Сравнительно новый вид словарей – словари паронимов, т.е. внешне схожих слов,различающихся по смыслу, например, чужой и чуждый, правка и справка [34].Еще один вид лексических ресурсов – базы словосочетаний, в которыеотбираются наиболее типичные словосочетания конкретного языка.
Такая базасловосочетаний русского языка (около миллиона единиц) составляет ядро системыКроссЛексика [28].Более сложными видами лексических ресурсов являются тезаурусы ионтологии. Тезаурус – это семантический словарь, т.е. словарь, в которомпредставлены смысловые связи слов – синонимические, отношения род-вид (иногданазываемые отношением выше-ниже), часть-целое, ассоциации. Распространениетезаурусов связано с решением задач информационного поиска [39].С понятием тезауруса тесно связано понятие онтологии [11]. Онтология – наборпонятий, сущностей определенной области знаний, ориентированный намногократное использование для различных задач.Онтологии могут создаваться набазе существующей в языке лексики – в этом случае они называютсялингвистическими.Подобной лингвистической онтологией считается система WordNet [24] –большой лексический ресурс, в котором собраны слова английского языка:существительные, прилагательные, глаголы и наречия, и представлены их смысловыесвязи нескольких типов.