Методичка по первой части ModernLib.Ru (pdf) (1157206), страница 5
Текст из файла (страница 5)
Эти особенности можно было быучесть с помощью еще более дробной классификации, однако, во избежание чрезмерногоувеличения числа П-классов, в ФМРС используются другие методы.Как исключения описываются случаи сочетания основы с "нестандартной" для данногоП-класса и данной формы флексией: -а в форме именительного падежа множественногочисла существительных вместо характерной для 1-го П-класса флексии -ы (глаза , но заводы), пустая флексия вместо флексии -ов в родительном падеже множественного числа (глаз , нозаводов ).
Исключением считается и наличие у некоторых существительных 2-городительного (партитивного) и 2-го предложного (локативного) падежей: кусок сахару , вшкафу , но из сахара , о шкафе . Всего в ФМРС учитываются 26 исключений такого вида.К особенностям словоизменения относятся и чередования в основе. В ФМРС учтено 55чередований, например: ова - у (рис-ова -ть - рис-у -ю ), та - щ (клеве-та -ть - клеве-щ -у ), е- ‹пусто› (царев-е -н - царев-н-а ). Для И-слов с чередованиями достаточнорассматривать только один "стандартный" вариант основы, указывая тип и контекстчередования в описании значения основы. Так, для стандартного варианта основы царевнуказывается, что при пустой флексии перед последней буквой основы вставляется буква е .Относительно редкие чередования (встречающиеся у 1-3 слов) в ФМРС учитываютсяпо-иному: парадигмы таких слов задаются несколькими основами и Н-словами,образующими "семейство" слова (основы зай- , зайд- и заш- и И-слово зайти для глаголазайти ).
Семейства вводятся и для слов с супплетивными формами (хороший - лучше ) илиуникальными наборами флексий (некоторые числительные, личные местоимения).В синтаксический класс объединяются слова и конструкции с общим набором ГП иобщими синтаксическими функциями. Каждому представителю некоторого С-классасопоставлен (как и в случае М-классов) вектор значений характерных ГП. Для большинстваИ-слов номер С-класса и соответствующий набор ГП совпадают с номером и набором ГПМ-класса.
Так, многие существительные - С-класс номер 7 - относятся и к 7-му М-классу.Однако некоторые слова изменяются по "необычной" модели: существительные прохожий ,гончая склоняются как представители 8-го М-класса, для существительного кабельтовхарактерно местоименное склонение. В подобных ситуациях в описании значения основыуказывается и синтаксический класс, а иногда значения "дополнительных" ГП (например,вида и залога для причастий - С-класс номер 18, склоняющихся по модели 8-го М-класса).2.2.3.
Основные программыМорфологический анализ знакомых слов. Программа МОРФ1Программа МОРФ1 строит все возможные разбиения входной словоформы на основу ифлексию и ищет соответствующие части в словаре (первоначально МОРФ1 пытается найти всловаре совпадающее со словоформой Н-слово, а затем последовательно рассматриваетсловоформу как основу с пустой флексией, основу с флексиями длиной 3, 2 и 1) илинеизменяемое слово.Проверку правильности разбиения - сочетаемости основы и флексии - осуществляетвспомогательная программа, она же устанавливает значения ГП, определяемые флексией.Когда МОРФ1, отщепив флексию, не может найти полученную основу в словаре,происходит обращение к подпрограмме, применяющей к основе правила чередования.
Еслии после применения правил чередования найти основу в словаре не удалось, словопризнается незнакомым и формируется обращение к программе морфологического анализанезнакомых слов МОРФ2 - список вариантов трактовки словоформы (грамматическикорректные разбиения на основу и флексию, неизменяемое слово).Результат работы МОРФ1 (для знакомого слова) - список вариантов анализа, каждый изкоторых содержит: грамматические признаки словоформы и ссылку на словарную статью,описывающую семантическое значение слова.Примеры:стекла ? (7 2 3 1 2) - существительное (неодуш.,ср.род) стеклов форме: ед.число, родит.падеж(7 2 3 2 (1 4)) - существительное (неодуш.,ср.род) стеклов форме: мн.число, именит. или винит.падеж(9 1 1 3 2 1 1) - глагол стечьв форме: прош.вр., женск.род, ед.числоУпрощенный вариант программы МОРФ1 - программа МОРФ3 - решает такназываемую задачу лемматизации : определяет только начальную форму слова, неформируя список грамматических характеристик словоформы.Примеры:стеки ? стек, стечьстекла ? стекло, стечьстеками ? стекМорфологический анализ незнакомых слов.
Программа МОРФ2На вход программы поступает сформированный МОРФ1 список вариантов трактовкисловоформы.Пример (словоформа квазибиологом ):квазибиологом+? (ср.космодром/управдом )квазибиолог+ом (ср. биолог+ом )квазибиологом (ср. бегом )При обработке незнакомого слова МОРФ2 учитывает флексию и строение основы. Вбольшинстве случаев исследование флексии не позволяет однозначно установить не толькоП-класс, род слов субстантивного склонения, вид спрягаемых слов, но даже М-классанализируемого слова, так как, например, флексия -а встречается у слов всех четырехрассматриваемых М-классов (класс-а , красив-а , дядин-а , ворош-а ). Для уточненияграмматических признаков незнакомых слов МОРФ2 учитывает следующие составляющие(диагностические сегменты) основы: префикс, суффикс или некоторую цепочку букв в концеосновы, последнюю букву основы.По префиксу можно обнаружить некоторые Н-слова и установить вид некоторыхглаголов. Анализ суффикса помогает установить М-класс, П-класс, род (а иногда иодушевленность) слова субстантивного склонения, вид глагола или даже все нужные(описываемые в словарной статье) грамматические признаки слова.
По последней буквеосновы легко уточняется П-класс, а иногда и М-класс слова. Программа МОРФ2 работает стаблицами, содержащими 28 префиксов и 67 суффиксов. Анализ незнакомого слова МОРФ2начинает с варианта расщепления с максимальной длиной флексии.Если анализируется не отдельно взятое слово, а слово в составе предложения,появляется возможность учета контекста (синтаксических связей данного слова ссоседними). Информация о контексте передается программам морфологического анализа отобъемлющих их программ синтаксического анализа с помощью предсказаний - спискаожидаемых грамматических признаков обрабатываемого слова.
Так, при анализенезнакомого слова Верхневартовск в контексте приехала из далекого Верхневартовскаожидаемые характеристики последнего слова фрагмента таковы: неодушевленноесуществительное в форме единственного числа, родительного падежа.В таких ситуациях результат работы МОРФ2 сопоставляется с предсказаниями, и, вслучае соответствия, запоминается. Если же предсказание не подтвердилось, начинаетобрабатываться другой вариант разбиения словоформы. Если ожидаемый результат неполучен, либо слово признается неизменяемым, либо в нем ищутся и исправляются ошибки.Для каждого отобранного варианта формируются результаты анализа словоформы (ивариант/варианты новой словарной статьи).Пример (словоформа квазибиологом ):(7 0 1 1 (1 4)) - существительное (одуш. или неодуш., ср.род)квазибиологом в форме: ед.число, именит. или винит.падеж(7 1 1 1 5) - существительное (одуш.,муж.род)квазибиолог в форме: ед.число, творит.падеж(11) - неизменяемое слово (возможно, наречие)Заполнение словаря по грамматическим описаниям слов.
Программа СЛОВ1Основная сервисная программа автоматической генерации словарных статей программа СЛОВ1. В ходе ее разработки были составлены таблицы соответствия словарнойинформации из словаря Зализняка и словарной информации ФМРС. Отметим, что программаСЛОВ1 автоматизирует трудоемкую, требующую хорошего знания ФМРС работу посоставлению словарных статей. Действия, выполняемые программой, зачастую весьманетривиальны из-за различий морфологической модели словаря Зализняка, и ФМРС. На входпрограммы поступает словарная статья, взятая из словаря Зализняка или (если такого словатам нет) сформированная экспертом.Программа автоматически определяет: 1) основу записываемого в словарь системыслова; 2) номера М-класса, П-класса, С-класса; 3) наличие чередований и их контекст; 4)наличие других частных особенностей словоизменения.
При работе с программой СЛОВ1словарные статьи кодируются по определенным стандартным правилам, в частности,заменяются символы, отсутствующие на клавиатуре (например, цифра в кружке заменяетсяна цифру в круглых скобках).По первому элементу словарной информации из словаря Зализняка в большинствеслучаев определяется номер М-класса, у слов субстантивного склонения такжеодушевленность и род, у спрягаемых слов - вид. Если, например, этот элемент "п", то словоотносится к 8-му М-классу; "ж" - к 7-му М- классу, женскому роду, неодушевленное; "мо" - к7-му М-классу, мужскому роду, одушевленное; "нсв" - к 9-му М-классу, несовершенномувиду.После определения М-класса происходит переход на соответствующую ветвьалгоритма, где по второму элементу - цифре - определяется номер П-класса.
Если второйэлемент - не цифра (это означает, что слово изменяется по необычной модели), то СЛОВ1фиксирует несовпадение номера С-класса с номером М-класса (т.е. наличиесоответствующего исключения) и формирует необходимый фрагмент словарной статьи.Остальные элементы исходной словарной статьи либо уточняют номер П-класса, либосвидетельствуют о наличии в слове чередований, исключений или об отсутствии у слованекоторых форм.
Например, символ "П2" означает, что у слова есть второй предложныйпадеж (локатив), символ "*" является признаком чередования. Для определения конкретногономера чередования СЛОВ1 анализирует строение начальной формы слова. Так, приобработке первого варианта слова лев номер чередования (4 - чередование: ь - е )определяется по буквам ле , стоящим перед последней согласной основы (буква в в данномслучае неинформативна). Стандартный вариант основы (льв- ) определяется по номерамП-класса и чередования.Результатом работы программы СЛОВ1 является словарная статья или список такихсловарных статей - в случае, когда слово из словаря Зализняка представляется в ФМРСсемейством Н-слов и/или основ И-слов (для спрягаемых слов, например, программа строитсловарную статью, описывающую личные формы глагола и деепричастия, и несколькостатей для причастий).Заполнение словаря по тексту.
Программа СЛОВ2Программа СЛОВ1 используется в ситуации, когда список слов, предназначенных длявключения в компьютерный словарь, составлен заранее. Другая технологическая схемапредполагает автоматизацию не только этого, но и предыдущего этапа - этапа выявлениянезнакомых слов по характерным текстам.Отдельные программы различаются:– глубиной лингвистического анализа текста (пословный анализ, частичныйсинтаксический анализ, полный синтаксический анализ, синтактико-семантический анализ);– "степенью самостоятельности" программ формирования словаря (работа безобращения за помощью к человеку, работа в диалоге с пользователем/администратором ипод его контролем)При пакетной обработке текстов на печать выдается так называемый "протоколформирования словаря", в который могут вставляться вопросы, адресуемые администратору.Рассмотрим фрагмент протокола диалога администратора-лаборанта с программойпословного анализа текста (будем считать, что слова: колба, стержень, стекло, стечь отсутствуют в словаре):* РАБОТАЕТ ПРОГРАММА ФОРМИРОВАНИЯ СЛОВАРЯ ПО ТЕКСТУ *УКАЖИТЕ, ПОЖАЛУЙСТА, ОТКУДА БУДЕТ ВВОДИТЬСЯ ТЕКСТ(К - С КЛАВИАТУРЫ, ‹ИМЯ ФАЙЛА› - ИЗ ВНЕШНЕГО ФАЙЛА)КВВОДИТЕ ТЕКСТ.