AI-2009 Day 15 (1156479), страница 2
Текст из файла (страница 2)
Совокупность ГП, по которым изменяется И-слово (свободных ГП), определяет его парадигму, а спектр значений этих переменных – число элементов парадигмы. Множество И-слов с общим набором ГП, общим набором свободных ГП и общим спектром значений переменных образует М-класс. Основе (и словоформе) сопоставлен упорядоченный набор (вектор) значений соответствующих ГП. Так, например, с основой лев- слова лев (денежная единица) связан такой вектор (7 8 2 1 0 0) – слово 7-го М-класса, 8-го П-класса, неодушевленное (2), мужского рода (1), значения ГП число и падеж не определены (0 и 0). Для словоформы левами вектор будет иметь вид (7 2 1 2 5), здесь добавились значения ГП число (2 – множественное) и падеж (5 – творительный).
Понятие М-класса является уточнением традиционного понятия «часть речи»: 7-й класс образован в основном существительными, 8-й – прилагательными, 9-й – глаголами. В ФМРС рассматриваются три класса склоняемых И-слов: местоименные (М-класс номер 5), субстантивные (класс номер 7), адъективные (класс номер 8) и один класс спрягаемых (класс номер 9). Представители 5-го и 8-го М-классов изменяются по родам, числам и падежам, 7-го – по числам и падежам, 9-го – по лицам, родам, числам и временам. Отсутствие у И-слова одной или нескольких форм (например, формы родит. падежа множ. числа у слова мгла, форм ед. числа у слова ножницы) не мешает отнести его к М-классу номер 7.
Подмножество М-класса, представители которого при совпадающих значениях свободных ГП имеют одинаковые флексии, образует парадигматический класс. В ФМРС рассматриваются 24 П-класса для слов субстантивного склонения, 8 – для слов адъективного склонения, 2 – для слов местоименного склонения, 9 – для спрягаемых слов. К 1-му П-классу субстантивных И-слов относятся, например, существительные завод и артист (флексии: -∅, -а, -у, -∅ или -а, -ом, -е – для шести традиционных падежей единственного числа; -ы, -ов, -ам, -ы или -ов, -ами, -ах – для множественного); к 11-му П-классу – карта и корова; к 21-му – болото. К 1-му П-классу местоименных И-слов относятся: притяжательное прилагательное отцов, существительное кабельтов (не изменяется по родам), ко 2-му П-классу – местоимение мой, прилагательное лисий, порядковое числительное третий.
Хотя П-классы задают более детальную классификацию сочетаемости основ с флексиями чем традиционные типы склонения и спряжения, они недостаточны для описания многих частных особенностей русского словоизменения. Эти особенности можно было бы учесть с помощью еще более дробной классификации П-классов, однако в ФМРС используются другие методы.
Как исключения описываются случаи сочетания основы с «нестандартной» для данного П-класса и данной формы флексией: -а в форме именит. падежа множеств. числа существительных вместо характерной для 1-го П-класса флексии -ы (глаза, но заводы), пустая флексия вместо флексии -ов в родит. падеже множеств. числа (глаз, но заводов). Исключением считается и наличие у некоторых существительных 2-го родительного (партитивного) и 2-го предложного (локативного) падежей: кусок сахару, в шкафу, но из сахара, о шкафе. Всего в ФМРС учитываются 26 исключений такого вида.
К особенностям словоизменения относятся и чередования в основе. В ФМРС учтено 55 чередований, например: ова - у (рис-ова-ть - рис-у-ю), та - щ (клеве-та-ть - клеве-щ-у), е - <пусто> (царев-е-н - царев-н-а). Для И-слов с чередованиями достаточно рассматривать только один «стандартный» вариант основы, указывая тип и контекст чередования в описании значения основы. Так, для стандартного варианта основы царевн- указывается, что при пустой флексии перед последней буквой основы вставляется буква е. Относительно редкие чередования (встречающиеся у 1-3 слов) в ФМРС учитываются по-иному: парадигмы таких слов задаются несколькими основами и Н-словами, образующими семейство слова (основы зай-, зайд- и заш- и Н-слово зайти для глагола зайти). Семейства вводятся и для слов с супплетивными формами (хороший - лучше) или уникальными наборами флексий (некоторые числительные, личные местоимения).
В синтаксический класс объединяются слова и конструкции с общим набором ГП и общими синтаксическими функциями. Каждому представителю некоторого С-класса сопоставлен (как и в случае М-классов) вектор значений характерных ГП. Для большинства И-слов номер С-класса и набор ГП совпадают с номером и набором ГП М-класса. Так, многие существительные – С-класс номер 7 – относятся и к 7-му М-классу. Однако некоторые слова изменяются по «необычной» модели: существительные прохожий, гончая склоняются как представители 8-го М-класса.
Библиотека программ «РУССКАЯ МОРФОЛОГИЯ»
Основные программы
Морфологический анализ знакомых слов. Программа МОРФ1
Программа МОРФ1 строит все возможные разбиения входной словоформы на основу и флексию и ищет соответствующие части в словаре (первоначально МОРФ1 пытается найти в словаре совпадающее со словоформой Н-слово, а затем последовательно рассматривает словоформу как основу с пустой флексией, основу с флексиями длиной 3, 2 и 1) или неизменяемое слово.
Проверку правильности разбиения – сочетаемости основы и флексии – осуществляет вспомогательная программа, она же устанавливает значения ГП, определяемые флексией. Когда МОРФ1, отщепив флексию, не может найти полученную основу в словаре, происходит обращение к подпрограмме, применяющей к основе правила чередования. Если и после применения правил чередования найти основу в словаре не удалось, слово признается незнакомым и формируется обращение к программе морфологического анализа незнакомых слов МОРФ2 – список вариантов трактовки словоформы (грамматически корректные разбиения на основу и флексию, неизменяемое слово).
Результат работы МОРФ1 (для знакомого слова) – список вариантов анализа, каждый из которых содержит: грамматические признаки словоформы и ссылку на словарную статью, описывающую семантическое значение слова.
Примеры:
стекла (7 2 3 1 2) - существительное (неодуш., ср. род) стекло
в форме: ед. число, родит. падеж
(7 2 3 2 (1 4)) - существительное (неодуш., ср. род) стекло
в форме: мн. число, именит. или винит. падеж
(9 1 1 3 2 1 1) - глагол стечь
в форме: прош. вр., женск. род, ед. число
Упрощенный вариант программы МОРФ1 – программа МОРФ3 – решает так называемую задачу лемматизации: определяет только начальную форму слова, не формируя список грамматических характеристик словоформы.
Примеры:
стеки стек, стечь
стекла стекло, стечь
стеками стек
Морфологический анализ незнакомых слов. Программа МОРФ2
На вход программы поступает сформированный МОРФ1 список вариантов трактовки словоформы.
Пример (словоформа квазибиологом):
квазибиологом+∅ (ср. космодром/управдом)
квазибиолог+ом (ср. биолог+ом)
квазибиологом (ср. бегом)
При обработке незнакомого слова МОРФ2 учитывает флексию и строение основы. В большинстве случаев исследование флексии не позволяет однозначно установить не только П-класс, род слов субстантивного склонения, вид спрягаемых слов, но даже М-класс анализируемого слова, так как, например, флексия -а встречается у слов всех четырех рассматриваемых М-классов (стол-а, красив-а, дядин-а, ворош-а). Для уточнения грамматических признаков незнакомых слов МОРФ2 учитывает следующие составляющие (диагностические сегменты) основы: префикс, суффикс или некоторую цепочку букв в конце основы, последнюю букву основы.
По префиксу можно обнаружить некоторые Н-слова и установить вид некоторых глаголов. Анализ суффикса помогает установить М-класс, П-класс, род (а иногда и одушевленность) слова субстантивного склонения, вид глагола или даже все нужные (описываемые в словарной статье) грамматические признаки слова. По последней букве основы легко уточняется П-класс, а иногда и М-класс слова. Программа МОРФ2 работает с таблицами, содержащими 28 префиксов и 67 суффиксов. Анализ незнакомого слова МОРФ2 начинает с варианта расщепления с максимальной длиной флексии.
Если анализируется не отдельно взятое слово, а слово в составе предложения, появляется возможность учета контекста (синтаксических связей данного слова с соседними). Информация о контексте передается программам морфологического анализа от объемлющих их программ синтаксического анализа с помощью предсказаний – списка ожидаемых грамматических признаков обрабатываемого слова. Так, при анализе незнакомого слова Верхневартовск в контексте приехала из далекого Верхневартовска ожидаемые характеристики последнего слова фрагмента таковы: неодушевленное существительное в форме единственного числа, родительного падежа.
В таких ситуациях результат работы МОРФ2 сопоставляется с предсказаниями, и, в случае соответствия, запоминается. Если же предсказание не подтвердилось, начинает обрабатываться другой вариант разбиения словоформы. Если ожидаемый результат не получен, либо слово признается неизменяемым, либо в нем ищутся и исправляются ошибки.
Для каждого отобранного варианта формируются результаты анализа словоформы (и вариант/варианты новой словарной статьи).
Пример (словоформа квазибиологом):
(7 0 1 1 (1 4)) - существительное (одуш. или неодуш., ср. род)
квазибиологом в форме: ед. число, именит. или винит. падеж
(7 1 1 1 5) - существительное (одуш., муж. род)
квазибиолог в форме: ед. число, творит. падеж
(11) – неизменяемое слово (возможно, наречие)
Заполнение словаря по грамматическим описаниям слов. Программа СЛОВ1
Основная сервисная программа автоматической генерации словарных статей – программа СЛОВ1. В ходе ее разработки были составлены таблицы соответствия словарной информации из словаря Зализняка и словарной информации ФМРС. Отметим, что программа СЛОВ1 автоматизирует трудоемкую, требующую хорошего знания ФМРС работу по составлению словарных статей. Действия, выполняемые программой, зачастую весьма нетривиальны из-за различий морфологической модели словаря Зализняка, и ФМРС. На вход программы поступает словарная статья, взятая из словаря Зализняка или (если такого слова там нет) сформированная экспертом.
Программа автоматически определяет: 1) основу записываемого в словарь системы слова; 2) номера М-класса, П-класса, С-класса; 3) наличие чередований и их контекст; 4) наличие других частных особенностей словоизменения. При работе с программой словарные статьи кодируются по определенным стандартным правилам, в частности, заменяются символы, отсутствующие на клавиатуре.
По первому элементу словарной информации из словаря Зализняка в большинстве случаев определяется номер М-класса, у слов субстантивного склонения также одушевленность и род, у спрягаемых слов – вид. Если, например, этот элемент «п», то слово относится к 8-му М-классу; «ж» – к 7-му М-классу, женскому роду, неодушевленное; «мо» – к 7-му М-классу, мужскому роду, одушевленное; «нсв» – к 9-му М-классу, несовершенному виду.
После определения М-класса происходит переход на соответствующую ветвь алгоритма, где по второму элементу определяется номер П-класса. Если второй элемент не цифра (это означает, что слово изменяется по необычной модели), СЛОВ1 фиксирует несовпадение номеров С-класса и М-класса (т.е. наличие соответствующего исключения) и формирует необходимый фрагмент словарной статьи.
Остальные элементы исходной словарной статьи либо уточняют номер П-класса, либо свидетельствуют о наличии в слове чередований, исключений или об отсутствии у слова некоторых форм. Например, символ «П2» означает, что у слова есть второй предложный падеж (локатив), символ «*» является признаком чередования. Для определения конкретного номера чередования СЛОВ1 анализирует строение начальной формы слова. Так, при обработке первого варианта слова лев номер чередования (4 – чередование: ь - е) определяется по буквам ле, стоящим перед последней согласной основы (буква в в данном случае неинформативна). Стандартный вариант основы (льв-) определяется по номерам П-класса и чередования.
Результатом работы программы СЛОВ1 является словарная статья или список таких словарных статей – в случае, когда слово из словаря Зализняка представляется в ФМРС семейством Н-слов и/или основ И-слов (для спрягаемых слов, например, программа строит словарную статью, описывающую личные формы глагола и деепричастия, и несколько статей для причастий).
Заполнение словаря по тексту. Программа СЛОВ2
Программа СЛОВ1 используется в ситуации, когда список слов, предназначенных для включения в компьютерный словарь, составлен заранее. Другая технологическая схема предполагает
выявление незнакомых слов непосредственно в характерных текстах.
Режимы/сценарии работы с программой различаются:
- глубиной лингвистического анализа текста (пословный анализ, частичный синтаксический анализ, полный синтаксический анализ, синтактико-семантический анализ);
- «степенью самостоятельности» программ формирования словаря (работа без обращения за помощью к человеку, работа в диалоге с пользователем/администратором и под его контролем)
При пакетной обработке текстов на печать выдается так называемый «протокол формирования словаря», в который могут вставляться вопросы, адресуемые администратору. Рассмотрим фрагмент протокола диалога администратора-лаборанта с программой пословного анализа текста (будем считать, что слова: колба, стержень, стекло, стечь – отсутствуют в словаре):
* РАБОТАЕТ ПРОГРАММА ФОРМИРОВАНИЯ СЛОВАРЯ ПО ТЕКСТУ *