Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 31
Текст из файла (страница 31)
Полученная в результате анализа иерархическаясинтаксическая структура предложения ЕЯ описывается деревом составляющих, влистьях которого находятся слова предложения,поддеревья соответствуют95входящим в предложение синтаксическим конструкциям (фразам), а дуги выражаютотношения вложения конструкций.К рассматриваемому подходу могут быть отнесены сетевые грамматики,представляющие собой одновременно аппарат для описания системы языка и длязадания процедуры анализа предложений на основе понятия конечного автомата,например, расширенная сеть переходов ATN [23].В рамках второго подхода для представления синтаксической структурыпредложения используется более наглядный и распространенный способ – деревьязависимостей.
В узлах дерева расположены слова предложения (в корне обычноглагол-сказуемое), а каждая дуга дерева, связывающая пару узлов, интерпретируетсякак синтаксическая подчинительная связь между ними, причем направление связисоответствует направлению данной дуги. Поскольку при этом синтаксические связислов и порядок слов в предложении отделены, то на основе деревьев подчинениямогут быть описаны разорванные и непроективные конструкции [36], достаточночасто возникающие в языках со свободным порядком слов.Деревья составляющих больше подходят для описания языков в жесткимпорядком слов, представление с их помощью разорванных и непроективныхконструкций требует расширения используемого грамматического формализма.
Затов рамках этого подхода более естественно описываются конструкции снеподчинительными отношениями. В то же время общая трудность для обоихподходов – представление однородных членов предложения.Синтаксические модели во всех подходах пытаются учесть ограничения,накладываемые на соединение языковых единиц в речи, при этом так или иначеиспользуется понятие валентности [38]. Валентность – это способность слова илидругой единицы языка присоединять другие единицы определенным синтаксическимспособом; актант – это слово или синтаксическая конструкция, заполняющая этувалентность.
Например, русский глагол передать имеет три основные валентности,которыеможновыразитьследующимивопросительнымисловами:кто? кому? что? В рамках генеративного подхода валентности слов (прежде всего,глаголов) описываются преимущественно в виде специальных фреймов(subcategorization frames) [4], а в рамках подхода, основанного на деревьяхзависимостей – как модели управления.Модели семантики языка наименее проработаны в рамках КЛ. Длясемантического анализа предложений были предложены так называемые падежныеграмматики и семантические падежи (валентности), на базе которых семантикапредложения описывается как через связи главного слова (глагола) с егосемантическими актантами, т.е. через семантические падежи [4]. Например, глаголпередать описывается семантическими падежами дающего (агенса), адресата иобъекта передачи.Для представления семантики всего текста обычно используются два логическиэквивалентных формализма (оба они детально описаны в рамках ИИ [40]):• Формулы исчисления предикатов, выражающих свойства, состояния, процессы,действия и отношения;• Семантические сети – размеченные графы, в которых вершины соответствуютпонятиям, а вершины – отношениям между ними.Что касается моделей прагматики и дискурса, позволяющих обрабатывать нетолько отдельные предложения, но и текст в целом, то в основном для их построения96используются идеи Ван Дейка [30].
Одна из редких и удачных моделей – модельдискурсивного синтеза связных текстов [41]. В подобных моделях должныучитываться анафорические ссылки и другие явления уровня дискурса.Завершая характеристику моделей языка в рамках КЛ, остановимся чутьподробнее на теории лингвистических моделей «Смысл⇔Текст» [42], и в рамкахкоторой появилось много плодотворных идей, опередивших свое время и актуальныхдо сих пор.В соответствии с этой теорией ЕЯ рассматривается как особого родапреобразователь, выполняющий переработку заданных смыслов в соответствующиеим тексты и заданных текстов в соответствующие им смыслы.
Под смысломпонимается инвариант всех синонимичных преобразований текста. Содержаниесвязного фрагмента речи без расчленения на фразы и словоформы отображается ввиде специального семантического представления, состоящего из двух компонент:семантического графа и сведений о коммуникативной организации смысла.Как отличительные особенности теории следует указать:o ориентацию на синтез текстов (способность порождать правильные текстырассматривается как основной критерий языковой компетенции);o многоуровневый, модульный характер модели, причем основные уровни языкаразделяются на поверхностный и глубинный уровень: различаются, к примеру,глубинный (семантизированный) и поверхностный («чистый») синтаксис, а такжеповерхностно-морфологический и глубинно-морфологический уровни;o интегральный характер модели языка; сохранение информации, представленнойна каждом уровне, соответствующим модулем, выполняющими переход с этогоуровня на следующий;o специальные средства описания синтактики (правил соединения единиц) накаждом из уровней; для описания лексической сочетаемости был предложен наборлексических функций, при помощи которых сформулированы правиласинтаксического перифразирования;o упор на словарь, а не на грамматику; в словаре хранится информация,относящаяся к разным уровням языка; в частности, для синтаксического анализаиспользуются модели управления слов, описывающие их синтаксические исемантические валентности.Эта теория и модель языка нашли свое воплощение в системе машинногоперевода ЭТАП [26].Глава 5.Лингвистические ресурсыРазработка лингвистических процессоров требует соответствующегопредставления лингвистической информации об обрабатываемом ЕЯ.
Этаинформация отображается в разнообразных компьютерных словарях и грамматиках.Словари являются наиболее традиционной формой представления лексическойинформации; они различаются своими единицами (обычно слова илисловосочетания), структурой, охватом лексики (словари терминов конкретнойпроблемной области, словари общей лексики и т.п.). Единица словаря называетсясловарной статьей, в ней представляется информация о лексеме.
Лексическиеомонимы обычно представляются в разных словарных статьях.Наиболее распространены в КЛ морфологические словари, используемые дляморфологического анализа, в их словарной статье представлена морфологическая97информация о соответствующем слове – часть речи, словоизменительный класс (дляфлективных языков), перечень значений слова и т.п. В зависимости от организациилингвистического процессора в словарь может быть добавлена и грамматическаяинформация, например, модели управления слова.Существуют словари, в которых представлена и более широкая информация ословах.
Например, лингвистическая модель «Смысл⇔Текст» существенно опираетсяна толково-комбинаторный словарь, в словарной статье которого помимоморфологической, синтаксической и семантической информации (синтаксические исемантические валентности) представлены сведения о лексической сочетаемостиэтого слова.В ряде лингвистических процессоров используются словари синонимов.Сравнительно новый вид словарей – словари паронимов, т.е.
внешне схожих слов,различающихся по смыслу, например, чужой и чуждый, правка и справка [34].Еще один вид лексических ресурсов – базы словосочетаний, в которыеотбираются наиболее типичные словосочетания конкретного языка. Такая базасловосочетаний русского языка (около миллиона единиц) составляет ядро системыКроссЛексика [28].Более сложными видами лексических ресурсов являются тезаурусы ионтологии. Тезаурус – это семантический словарь, т.е.
словарь, в которомпредставлены смысловые связи слов – синонимические, отношения род-вид (иногданазываемые отношением выше-ниже), часть-целое, ассоциации. Распространениетезаурусов связано с решением задач информационного поиска [39].С понятием тезауруса тесно связано понятие онтологии [11]. Онтология – наборпонятий, сущностей определенной области знаний, ориентированный намногократное использование для различных задач.Онтологии могут создаваться набазе существующей в языке лексики – в этом случае они называютсялингвистическими.Подобной лингвистической онтологией считается система WordNet [24] –большой лексический ресурс, в котором собраны слова английского языка:существительные, прилагательные, глаголы и наречия, и представлены их смысловыесвязи нескольких типов.
Для каждой из указанных частей речи слова сгруппированыв группы синонимов (синсеты), между которыми установлены отношенияантонимии, гипонимии (отношение род-вид), меронимии (отношение часть-целое).Ресурс содержит примерно 25 тыс. слов, число уровней иерархии для отношения родвид в среднем равно 6-7, достигая порою 15. Верхний уровень иерархии формируетобщую онтологию – систему основных понятий о мире.По схеме английского WordNet были построены аналогичные лексическиересурсы для других европейских языков, объединенные под общим названиемEuroWordNet.Совершенно другой вид лингвистических ресурсов – это грамматики ЕЯ, типкоторых зависит от используемой в процессоре модели синтаксиса. В первомприближении грамматика представляет собой набор правил, выражающих общиесинтаксические свойства слов и групп слов.
Общее число правил грамматики такжезависит от модели синтаксиса, изменяясь от нескольких десятков до несколькихсотен. По существу, здесь проявляется такая проблема, как соотношение в моделиязыка грамматики и лексики: чем больше информации представлено в словаре, темкороче может быть грамматика и наоборот.98Отметим, что построение компьютерных словарей, тезаурусов и грамматик –объемная и трудоемкая работа, иногда даже более трудоемкая, чем разработкалингвистической модели и соответствующего процессора.
Поэтому одной изподчиненных задач КЛ является автоматизация построения лингвистическихресурсов [10, 15].Компьютерные словари часто формируются конвертацией обычных текстовыхсловарей, однако нередко для их построения требуется гораздо более сложная икропотливая работа. Обычно это бывает при построении словарей и тезаурусов длябыстро развивающися научных областей – молекулярной биологии, информатики идр. Исходным материалом для извлечения необходимой лингвистическойинформации могут быть коллекции и корпуса текстов.Корпус текстов – это коллекция текстов, собранная по определенномупринципу представительности (по жанру, авторской принадлежности и т.п.), вкоторой все тексты размечены, т.е.