М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов, страница 5
Описание файла
PDF-файл из архива "М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов", который расположен в категории "". Всё это находится в предмете "искусственный интеллект" из 7 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 5 страницы из PDF
Затем словам/основам и флексиям были сопоставленысоответствующие номера классов. При чередовании в основе и при наличии у словасупплетивных - образованных от другой основы - форм (хорош-ий - лучше ) былиорганизованы дополнительные входы в словарные статьи.Новое представление словаря трудно воспринимаемо для человека. Однакоунификация и упрощение структур данных позволили создать условия для значительногоувеличения скорости обработки.2.2.2.
Формальная модель русского словоизмененияВ Формальной модели русского словоизменения (ФМРС) множество слов русскогоязыка разбивается на два основных класса - неизменяемые (Н-слова) и изменяемые , т.е.склоняемые или спрягаемые (И-слова). Совокупность форм И-слова (словоформ) образуетего парадигму . В каждой словоформе можно выделить основуи окончание, илифлексию(возможно, пустую, которую мы обозначим: -∅), соответствующуюконкретной форме И-слова; за флексией может следовать постфикс , например, возвратнаячастица ся /сь .С основой И-слова, Н-словом, флексией и словоформой связывается описание значениясоответствующего объекта, включающее описание его грамматических характеристик;лексических связей (синонимы, производные слова); семантического значения(ассоциированные с объектом понятия). Грамматические характеристики определяютсочетаемость основ и флексий и синтаксические признаки объектов всех четырех типов.К грамматическим характеристикам морфологического уровня относятся:морфологический(словоизменительный) класс- М-класс, парадигматическийкласс- П-класс, чередование , исключение .
Синтаксическим показателем являетсясинтаксический класс(С-класс). Если М-класс определяет, как изменяется слово(склоняется, спрягается), то С-класс характеризует его синтаксическое поведение(сочетаемость с другими словами) Как словоизменительные, так и синтаксические признакиопределяются набором значений грамматических переменных.Грамматическая переменная(ГП) - переменная одного из следующих типов:одушевленность, род, число, падеж, вид, лицо, залог, возвратность, время, наклонение,степень - принимает закодированное целым числом значение из некоторого множествадопустимых. Значение ГП "род", например, кодируется так: мужской - 1, женский - 2,средний - 3.
Если значение неопределенно, указывается список возможных значений иличисло 0 (которое, по соглашению, обозначает любое допустимое значение ГП).Совокупность ГП, по которым изменяется И-слово (свободных ГП), определяет егопарадигму, а спектр значений этих переменных - число элементов парадигмы. МножествоИ-слов с общим набором ГП, общим набором свободных ГП и общим спектром значенийпеременных образует М-класс. Основе (и словоформе) сопоставлен упорядоченный набор(вектор) значений соответствующих ГП. Так, например, с основой лев- слова лев(денежная единица) связан такой вектор (7 8 2 1 0 0)- слово 7-го М-класса, 8-го П-класса,неодушевленное (2), мужского рода (1), значения ГП "число" и "падеж" не определены (0 и0).
Для словоформы левами вектор будет иметь вид (7 2 1 2 5), здесь добавились значенияГП "число" (2 - множественное) и "падеж" (5 - творительный).Понятие М-класса является уточнением традиционного понятия "часть речи": 7-й классобразован в основном существительными, 8-й - прилагательными, 9-й - глаголами.В ФМРС рассматриваются три класса склоняемых И-слов: местоименные (М-классномер 5), субстантивные (класс номер 7), адъективные (класс номер 8) и один классспрягаемых (класс номер 9). Представители 5-го и 8-го М-классов изменяются по родам,числам и падежам, 7-го - по числам и падежам, 9-го - по лицам, родам, числам и временам.Отсутствие у И-слова одной или нескольких форм (например, форм единственного числа услова ножницы , формы родительного падежа множественного числа у слова мгла ) непрепятствует отнесению его к соответствующему М-классу.Подмножество М-класса, представители которого при совпадающих значенияхсвободных ГП имеют одинаковые флексии, образует парадигматический класс.
В ФМРСрассматриваются 24 П-класса для слов субстантивного склонения, 8 - для слов адъективногосклонения, 2 - для слов местоименного склонения, 9 - для спрягаемых слов. К 1-му П-классусубстантивных И-слов относятся, например, существительные завод и артист (флексии:-∅, -а , -у , -∅ или -а , -ом , -е - для шести традиционных падежейединственного числа; -ы , -ов , -ам , -ы или -ов , -ами , -ах - для множественного); к 11-муП-классу - карта и корова ; к 21-му - болото . К 1-му П-классу местоименных И-словотносятся: притяжательное прилагательное отцов , существительное кабельтов (неизменяется по родам), ко 2-му П-классу - местоимение мой , прилагательное лисий ,порядковое числительное третий .Хотя П-классы задают более детальную классификацию сочетаемости основ сфлексиями чем традиционные типы склонения и спряжения, они недостаточны для описаниямногих частных особенностей русского словоизменения.
Эти особенности можно было быучесть с помощью еще более дробной классификации, однако, во избежание чрезмерногоувеличения числа П-классов, в ФМРС используются другие методы.Как исключения описываются случаи сочетания основы с "нестандартной" для данногоП-класса и данной формы флексией: -а в форме именительного падежа множественногочисла существительных вместо характерной для 1-го П-класса флексии -ы (глаза , нозаводы ), пустая флексия вместо флексии -ов в родительном падеже множественного числа(глаз , но заводов ). Исключением считается и наличие у некоторых существительных 2-городительного (партитивного) и 2-го предложного (локативного) падежей: кусок сахару , вшкафу , но из сахара , о шкафе . Всего в ФМРС учитываются 26 исключений такого вида.К особенностям словоизменения относятся и чередования в основе. В ФМРС учтено 55чередований, например: ова - у (рис-ова -ть - рис-у -ю ), та - щ (клеве-та -ть - клеве-щ-у ), е - ‹пусто› (царев-е -н - царев-н-а ).
Для И-слов с чередованиями достаточнорассматривать только один "стандартный" вариант основы, указывая тип и контекстчередования в описании значения основы. Так, для стандартного варианта основы царевнуказывается, что при пустой флексии перед последней буквой основы вставляется буква е .Относительно редкие чередования (встречающиеся у 1-3 слов) в ФМРС учитываютсяпо-иному: парадигмы таких слов задаются несколькими основами и Н-словами,образующими "семейство" слова (основы зай- , зайд- и заш- и И-слово зайти для глаголазайти ).
Семейства вводятся и для слов с супплетивными формами (хороший - лучше ) илиуникальными наборами флексий (некоторые числительные, личные местоимения).В синтаксический класс объединяются слова и конструкции с общим набором ГП иобщими синтаксическими функциями.
Каждому представителю некоторого С-классасопоставлен (как и в случае М-классов) вектор значений характерных ГП. Для большинстваИ-слов номер С-класса и соответствующий набор ГП совпадают с номером и набором ГПМ-класса. Так, многие существительные - С-класс номер 7 - относятся и к 7-му М-классу.Однако некоторые слова изменяются по "необычной" модели: существительные прохожий ,гончая склоняются как представители 8-го М-класса, для существительного кабельтовхарактерно местоименное склонение. В подобных ситуациях в описании значения основыуказывается и синтаксический класс, а иногда значения "дополнительных" ГП (например,вида и залога для причастий - С-класс номер 18, склоняющихся по модели 8-го М-класса).2.2.3.
Основные программыМорфологический анализ знакомых слов. Программа МОРФ1Программа МОРФ1 строит все возможные разбиения входной словоформы на основу ифлексию и ищет соответствующие части в словаре (первоначально МОРФ1 пытается найти всловаре совпадающее со словоформой Н-слово, а затем последовательно рассматриваетсловоформу как основу с пустой флексией, основу с флексиями длиной 3, 2 и 1) илинеизменяемое слово.Проверку правильности разбиения - сочетаемости основы и флексии - осуществляетвспомогательная программа, она же устанавливает значения ГП, определяемые флексией.Когда МОРФ1, отщепив флексию, не может найти полученную основу в словаре,происходит обращение к подпрограмме, применяющей к основе правила чередования. Еслии после применения правил чередования найти основу в словаре не удалось, словопризнается незнакомым и формируется обращение к программе морфологического анализанезнакомых слов МОРФ2 - список вариантов трактовки словоформы (грамматическикорректные разбиения на основу и флексию, неизменяемое слово).Результат работы МОРФ1 (для знакомого слова) - список вариантов анализа, каждый изкоторых содержит: грамматические признаки словоформы и ссылку на словарную статью,описывающую семантическое значение слова.Примеры:стекла → (7 2 3 1 2) - существительное (неодуш.,ср.род) стеклов форме: ед.число, родит.падеж(7 2 3 2 (1 4)) - существительное (неодуш.,ср.род) стеклов форме: мн.число, именит.
или винит.падеж(9 1 1 3 2 1 1) - глагол стечьв форме: прош.вр., женск.род, ед.числоУпрощенный вариант программы МОРФ1 - программа МОРФ3 - решает такназываемую задачу лемматизации : определяет только начальную форму слова, неформируя список грамматических характеристик словоформы.Примеры:стеки → стек, стечьстекла → стекло, стечьстеками → стекМорфологический анализ незнакомых слов.
Программа МОРФ2На вход программы поступает сформированный МОРФ1 список вариантов трактовкисловоформы.Пример (словоформа квазибиологом ):квазибиологом+∅ (ср. космодром/управдом )квазибиолог+ом (ср. биолог+ом )квазибиологом (ср. бегом )При обработке незнакомого слова МОРФ2 учитывает флексию и строение основы. Вбольшинстве случаев исследование флексии не позволяет однозначно установить не толькоП-класс, род слов субстантивного склонения, вид спрягаемых слов, но даже М-классанализируемого слова, так как, например, флексия -а встречается у слов всех четырехрассматриваемых М-классов (класс-а , красив-а , дядин-а , ворош-а ). Для уточненияграмматических признаков незнакомых слов МОРФ2 учитывает следующие составляющие(диагностические сегменты) основы: префикс, суффикс или некоторую цепочку букв в концеосновы, последнюю букву основы.По префиксу можно обнаружить некоторые Н-слова и установить вид некоторыхглаголов.