Методичка по первой части ModernLib.Ru (pdf) (1157206), страница 4
Текст из файла (страница 4)
Ее решение требует привлеченияквалифицированных специалистов в области лингвистики и инженерии знаний, созданиянеобходимой инфраструктуры, серьезной финансовой и организационной поддержки (часто- на государственном уровне).2.2. Библиотека программ "Русская морфология"2.2.1.
Словарь ЗализнякаОдним из широкодоступных (и активно используемых) русскоязычных ЛБД являетсяэлектронный вариант фундаментального «Грамматического словаря русского языка»А.А.Зализняка. Текст словаря был перенесен на машинные носители в начале 80-х годов. Стех пор словари всех русскоязычных коммерческих автокорректоров (в том числе, ОРФО,Word), словари практически всех экспериментальных и коммерческих систем машинногоперевода и других систем автоматической обработки текстов строятся на основе словаряЗализняка.Полиграфический вариант словаря Зализняка состоит из двух частей: "Грамматическиесведения" (около 120 страниц) и собственно "Словарь" (около 740 страниц).
В первой частипредставлена разработанная автором словаря с необычайной тщательностью оригинальнаямодель русского словоизменения (склонения и спряжения). Во второй - приведено около 100тысяч слов, которым приписаны грамматические индексы, характеризующие тип ихсловоизменения и схему ударения. Слова упорядочены по концам, что естественно и удобнодля грамматического словаря, поскольку слова со сходным грамматическим поведением(одинаковыми суффиксами и окончаниями) располагаются компактными группами.Словарная статья в словаре Зализняка состоит из заголовка (начальная форма слова) исловарной (грамматической) информации.
Для некоторых слов даются такжедополнительные сведения, необходимые для различения вариантов. Статьи с заголовкамилев, стричь и прихожая выглядят так:лев мо 1*b (животное)лев м 1a (денежная единица)стричь нсв 8b (-г-)прихожая ж (п 4a)По первому элементу словарной информации определяется грамматический класс(спрягаемоеслово, слово субстантивного, адъективногоили местоименногосклонения - эти термины будут разъяснены в следующем разделе), для слов субстантивногосклонения также одушевленность и род, для спрягаемых слов - вид. Если, например, этотэлемент "п", то слово относится к словам адъективного склонения; "ж" - к словамсубстантивного склонения, женского рода, неодушевленным; "мо" - к словам субстантивногосклонения, мужского рода, одушевленным; "нсв" - к спрягаемым словам (глаголам)несовершенного вида.Если второй элемент - не цифра, то это означает, что слово изменяется по необычноймодели (существительное прихожая изменяется по модели слов адъективного склонения).Остальные элементы словарной статьи либо уточняют тип склонения/спряжения, либосвидетельствуют о наличии в слове чередований (символ *), об отсутствии у слованекоторых форм или о других частных особенностях словоизменения.
Буквенный индекспосле цифры (или после символа *) характеризует схему ударения во всех формахописываемого слова; эта информация полезна при автоматизированной генерациифонетического словаря словоформ русского языка.Отметим, что исходный (полиграфический) вариант словаря Зализняка былориентирован на пользователя-человека.
Основной сценарий использования словаряпредусматривал возможность просклонять/проспрягать любое слово из "Словаря" на основеего грамматического описания и правил, приведенных в "Грамматических сведениях". Этиоперации, вообще говоря, требовали выполнения некоторых трудноформализуемыхдействий, определенной языковой компетенции: поиск уместных грамматических таблиц,определение типа чередования, рассуждения по аналогии. Поэтому непосредственноеиспользование словаря Зализняка (даже в электронном виде) в составе компьютерных системобработки текста/речи затруднительно.Разработчики компьютерных словарей, базирующихся на словаре Зализняка, выбираютобычно один из трех путей:– генерация на основе словаря Зализняка словаря русских словоформ;– использование электронного "Словаря" в исходной форме и разработка (достаточносложных) алгоритмов, моделирующих работу с "Грамматическими сведениями";– создание на основе словаря Зализняка формальной модели словоизменения инеобходимое переструктурирование словарной части (явное введение в словарную статьюнекоторой информации из "Грамматических сведений"), позволяющее существенноупростить алгоритмы.После подобных преобразований компьютерный словарь может использоваться длярешения двух практически важных задач:задача морфологического анализа - определения начальной формы слова попроизвольной словоформе (и, возможно, грамматических признаков словоформы);задача синтеза - построения всех форм (или указанной формы) слова по начальнойформе.Одна из первых формальных моделей русского словоизменения на базе словаряЗализняка (третий из указанных выше путей) была разработана еще в середине 80-х годов накафедре алгоритмических языков факультета ВМК МГУ под руководствомМ.Г.Мальковского.
Модель была реализована на лиспоподобном языке программированияПлэнер (ЭВМ БЭСМ-6, а позже - МВК «Эльбрус-2» и IBM-совместимые ПК). При этомшироко использовались динамические структуры, мощные средства обработки списков исопоставления образца с выражением. В плэнерских структурах данных явно указывалисьвсе морфологические свойства для каждого слова, включая чередования в основе слова.Поэтому плэнерское представление достаточно легко воспринималось человеком, явноотражало морфологические особенности описываемых в компьютерном словаре слов.Однако язык Плэнер является интерпретируемым, а следовательно, довольно медленноработающим, что затрудняет его применение в системах, к которым предъявляются высокиетребования по быстродействию. Обработка сложной структуры списков требуетсущественных затрат машинного времени, даже при реализации алгоритма их обработки накомпилируемых языках, ориентированных на написание эффективных программ (С, С++).Поэтому было принято решение о переходе к другой структуре словаря и соответствующеймодификации алгоритмов анализа и синтеза.Плэнерские структуры, описывающие морфологические особенности всех различныхклассов слов, были пронумерованы.
Затем словам/основам и флексиям были сопоставленысоответствующие номера классов. При чередовании в основе и при наличии у словасупплетивных - образованных от другой основы - форм (хорош-ий - лучше ) былиорганизованы дополнительные входы в словарные статьи.Новое представление словаря трудно воспринимаемо для человека. Однакоунификация и упрощение структур данных позволили создать условия для значительногоувеличения скорости обработки.2.2.2. Формальная модель русского словоизмененияВ Формальной модели русского словоизменения (ФМРС) множество слов русскогоязыка разбивается на два основных класса - неизменяемые (Н-слова) и изменяемые , т.е.склоняемые или спрягаемые (И-слова). Совокупность форм И-слова (словоформ) образуетего парадигму . В каждой словоформе можно выделить основу и окончание, или флексию(возможно, пустую, которую мы обозначим: -?), соответствующую конкретной формеИ-слова; за флексией может следовать постфикс , например, возвратная частица ся /сь .С основой И-слова, Н-словом, флексией и словоформой связывается описание значениясоответствующего объекта, включающее описание его грамматических характеристик;лексических связей (синонимы, производные слова); семантического значения(ассоциированные с объектом понятия).
Грамматические характеристики определяютсочетаемость основ и флексий и синтаксические признаки объектов всех четырех типов.К грамматическим характеристикам морфологического уровня относятся:морфологический(словоизменительный)класс- М-класс, парадигматическийкласс - П-класс, чередование , исключение . Синтаксическим показателем являетсясинтаксический класс(С-класс). Если М-класс определяет, как изменяется слово(склоняется, спрягается), то С-класс характеризует его синтаксическое поведение(сочетаемость с другими словами) Как словоизменительные, так и синтаксические признакиопределяются набором значений грамматических переменных.Грамматическая переменная (ГП) - переменная одного из следующих типов:одушевленность, род, число, падеж, вид, лицо, залог, возвратность, время, наклонение,степень - принимает закодированное целым числом значение из некоторого множествадопустимых.
Значение ГП "род", например, кодируется так: мужской - 1, женский - 2,средний - 3. Если значение неопределенно, указывается список возможных значений иличисло 0 (которое, по соглашению, обозначает любое допустимое значение ГП).Совокупность ГП, по которым изменяется И-слово (свободных ГП), определяет егопарадигму, а спектр значений этих переменных - число элементов парадигмы. МножествоИ-слов с общим набором ГП, общим набором свободных ГП и общим спектром значенийпеременных образует М-класс. Основе (и словоформе) сопоставлен упорядоченный набор(вектор) значений соответствующих ГП. Так, например, с основой лев- слова лев (денежнаяединица) связан такой вектор (7 8 2 1 0 0)- слово 7-го М-класса, 8-го П-класса,неодушевленное (2), мужского рода (1), значения ГП "число" и "падеж" не определены (0 и0).
Для словоформы левами вектор будет иметь вид (7 2 1 2 5), здесь добавились значения ГП"число" (2 - множественное) и "падеж" (5 - творительный).Понятие М-класса является уточнением традиционного понятия "часть речи": 7-й классобразован в основном существительными, 8-й - прилагательными, 9-й - глаголами.В ФМРС рассматриваются три класса склоняемых И-слов: местоименные (М-классномер 5), субстантивные (класс номер 7), адъективные (класс номер 8) и один классспрягаемых (класс номер 9). Представители 5-го и 8-го М-классов изменяются по родам,числам и падежам, 7-го - по числам и падежам, 9-го - по лицам, родам, числам и временам.Отсутствие у И-слова одной или нескольких форм (например, форм единственного числа услова ножницы , формы родительного падежа множественного числа у слова мгла ) непрепятствует отнесению его к соответствующему М-классу.Подмножество М-класса, представители которого при совпадающих значенияхсвободных ГП имеют одинаковые флексии, образует парадигматический класс.
В ФМРСрассматриваются 24 П-класса для слов субстантивного склонения, 8 - для слов адъективногосклонения, 2 - для слов местоименного склонения, 9 - для спрягаемых слов. К 1-му П-классусубстантивных И-слов относятся, например, существительные завод и артист (флексии: -?,-а , -у , -? или -а , -ом , -е - для шести традиционных падежей единственного числа; -ы , -ов ,-ам , -ы или -ов , -ами , -ах - для множественного); к 11-му П-классу - карта и корова ; к21-му - болото . К 1-му П-классу местоименных И-слов относятся: притяжательноеприлагательное отцов , существительное кабельтов (не изменяется по родам), ко 2-муП-классу - местоимение мой , прилагательное лисий , порядковое числительное третий .Хотя П-классы задают более детальную классификацию сочетаемости основ сфлексиями чем традиционные типы склонения и спряжения, они недостаточны для описаниямногих частных особенностей русского словоизменения.