М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов, страница 6
Описание файла
PDF-файл из архива "М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов", который расположен в категории "". Всё это находится в предмете "искусственный интеллект" из 7 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 6 страницы из PDF
Анализ суффикса помогает установить М-класс, П-класс, род (а иногда иодушевленность) слова субстантивного склонения, вид глагола или даже все нужные(описываемые в словарной статье) грамматические признаки слова. По последней буквеосновы легко уточняется П-класс, а иногда и М-класс слова. Программа МОРФ2 работает стаблицами, содержащими 28 префиксов и 67 суффиксов. Анализ незнакомого слова МОРФ2начинает с варианта расщепления с максимальной длиной флексии.Если анализируется не отдельно взятое слово, а слово в составе предложения,появляется возможность учета контекста (синтаксических связей данного слова ссоседними).
Информация о контексте передается программам морфологического анализа отобъемлющих их программ синтаксического анализа с помощью предсказаний - спискаожидаемых грамматических признаков обрабатываемого слова. Так, при анализенезнакомого слова Верхневартовск в контексте приехала из далекого Верхневартовскаожидаемые характеристики последнего слова фрагмента таковы: неодушевленноесуществительное в форме единственного числа, родительного падежа.В таких ситуациях результат работы МОРФ2 сопоставляется с предсказаниями, и, вслучае соответствия, запоминается.
Если же предсказание не подтвердилось, начинаетобрабатываться другой вариант разбиения словоформы. Если ожидаемый результат неполучен, либо слово признается неизменяемым, либо в нем ищутся и исправляются ошибки.Для каждого отобранного варианта формируются результаты анализа словоформы (ивариант/варианты новой словарной статьи).Пример (словоформа квазибиологом ):(7 0 1 1 (1 4)) - существительное (одуш. или неодуш., ср.род)квазибиологом в форме: ед.число, именит.
или винит.падеж(7 1 1 1 5) - существительное (одуш.,муж.род)квазибиолог в форме: ед.число, творит.падеж(11) - неизменяемое слово (возможно, наречие)Заполнение словаря по грамматическим описаниям слов. Программа СЛОВ1Основная сервисная программа автоматической генерации словарных статей программа СЛОВ1. В ходе ее разработки были составлены таблицы соответствия словарнойинформации из словаря Зализняка и словарной информации ФМРС.
Отметим, что программаСЛОВ1 автоматизирует трудоемкую, требующую хорошего знания ФМРС работу посоставлению словарных статей. Действия, выполняемые программой, зачастую весьманетривиальны из-за различий морфологической модели словаря Зализняка, и ФМРС. На входпрограммы поступает словарная статья, взятая из словаря Зализняка или (если такого словатам нет) сформированная экспертом.Программа автоматически определяет: 1) основу записываемого в словарь системыслова; 2) номера М-класса, П-класса, С-класса; 3) наличие чередований и их контекст; 4)наличие других частных особенностей словоизменения. При работе с программой СЛОВ1словарные статьи кодируются по определенным стандартным правилам, в частности,заменяются символы, отсутствующие на клавиатуре (например, цифра в кружке заменяетсяна цифру в круглых скобках).По первому элементу словарной информации из словаря Зализняка в большинствеслучаев определяется номер М-класса, у слов субстантивного склонения такжеодушевленность и род, у спрягаемых слов - вид.
Если, например, этот элемент "п", то словоотносится к 8-му М-классу; "ж" - к 7-му М- классу, женскому роду, неодушевленное; "мо" - к7-му М-классу, мужскому роду, одушевленное; "нсв" - к 9-му М-классу, несовершенномувиду.После определения М-класса происходит переход на соответствующую ветвьалгоритма, где по второму элементу - цифре - определяется номер П-класса.
Если второйэлемент - не цифра (это означает, что слово изменяется по необычной модели), то СЛОВ1фиксирует несовпадение номера С-класса с номером М-класса (т.е. наличиесоответствующего исключения) и формирует необходимый фрагмент словарной статьи.Остальные элементы исходной словарной статьи либо уточняют номер П-класса, либосвидетельствуют о наличии в слове чередований, исключений или об отсутствии у слованекоторых форм. Например, символ "П2" означает, что у слова есть второй предложныйпадеж (локатив), символ "*" является признаком чередования. Для определения конкретногономера чередования СЛОВ1 анализирует строение начальной формы слова.
Так, приобработке первого варианта слова лев номер чередования (4 - чередование: ь - е )определяется по буквам ле , стоящим перед последней согласной основы (буква в в данномслучае неинформативна). Стандартный вариант основы (льв- ) определяется по номерамП-класса и чередования.Результатом работы программы СЛОВ1 является словарная статья или список такихсловарных статей - в случае, когда слово из словаря Зализняка представляется в ФМРСсемейством Н-слов и/или основ И-слов (для спрягаемых слов, например, программа строитсловарную статью, описывающую личные формы глагола и деепричастия, и несколькостатей для причастий).Заполнение словаря по тексту.
Программа СЛОВ2Программа СЛОВ1 используется в ситуации, когда список слов, предназначенных длявключения в компьютерный словарь, составлен заранее. Другая технологическая схемапредполагает автоматизацию не только этого, но и предыдущего этапа - этапа выявлениянезнакомых слов по характерным текстам.Отдельные программы различаются:– глубиной лингвистического анализа текста (пословный анализ, частичныйсинтаксический анализ, полный синтаксический анализ, синтактико-семантический анализ);– "степенью самостоятельности" программ формирования словаря (работа безобращения за помощью к человеку, работа в диалоге с пользователем/администратором ипод его контролем)При пакетной обработке текстов на печать выдается так называемый "протоколформирования словаря", в который могут вставляться вопросы, адресуемые администратору.Рассмотрим фрагмент протокола диалога администратора-лаборанта с программойпословного анализа текста (будем считать, что слова: колба, стержень, стекло, стечь отсутствуют в словаре):* РАБОТАЕТ ПРОГРАММА ФОРМИРОВАНИЯ СЛОВАРЯ ПО ТЕКСТУ *УКАЖИТЕ, ПОЖАЛУЙСТА, ОТКУДА БУДЕТ ВВОДИТЬСЯ ТЕКСТ(К - С КЛАВИАТУРЫ, ‹ИМЯ ФАЙЛА› - ИЗ ВНЕШНЕГО ФАЙЛА)КВВОДИТЕ ТЕКСТ.
ПРИЗНАК КОНЦА - //.ВНУТРИ КОЛБЫ РАСПОЛАГАЕТСЯ СТЕРЖЕНЬ, ВЫПОЛНЕННЫЙ ИЗСТЕКЛА. ЧЕРЕЗ СТЕРЖЕНЬ ... //ВЫБЕРИТЕ РЕЖИМ РАБОТЫ, УКАЗАВ НОМЕР РЕЖИМА:1 - ЗАПИСЬ СЛОВАРНЫХ СТАТЕЙ В БУФЕР БЕЗ ВЫДАЧИ ИНФОРМАЦИИ2 - ЗАПИСЬ СЛОВАРНЫХ СТАТЕЙ В БУФЕР С ВЫДАЧЕЙ ИНФОРМАЦИИ3 - ФОРМИРОВАНИЕ СЛОВАРНЫХ СТАТЕЙ С ПОМОЩЬЮ ПОЛЬЗОВАТЕЛЯ3ПЕРВАЯ ФРАЗА: НЕЗНАКОМЫЕ СЛОВА: КОЛБЫ, СТЕРЖЕНЬ, СТЕКЛАСЛОВО 'КОЛБЫ' - СУЩЕСТВИТЕЛЬНОЕ? (Д/Н)ДК КАКОМУ РОДУ ОТНОСИТСЯ СУЩЕСТВИТЕЛЬНОЕ 'КОЛБЫ'? (М/Ж/С)ЖЯВЛЯЕТСЯ ЛИ ОНО ОДУШЕВЛЕННЫМ? (Д/Н)НК КАКОМУ РОДУ ОТНОСИТСЯ СУЩЕСТВИТЕЛЬНОЕ 'СТЕРЖЕНЬ'? (М/Ж/С)МЯВЛЯЕТСЯ ЛИ ОНО ОДУШЕВЛЕННЫМ? (Д/Н)НСЛОВО 'СТЕКЛА' - ГЛАГОЛЬНАЯ ФОРМА? (Д/Н)НК КАКОМУ РОДУ ОТНОСИТСЯ СУЩЕСТВИТЕЛЬНОЕ 'СТЕКЛА'? (М/Ж/С)ССФОРМИРОВАНЫ СЛОВАРНЫЕ СТАТЬИ С ОСНОВАМИ:КОЛБ-, СТЕРЖН-, СТЕКЛ-.ВТОРАЯ ФРАЗА: ......Морфологический синтез форм слова.
Программа ФОРМ1По словарной статье (знакомого слова) и набору значенийсоответствующая словоформа.Примеры:ЛЕВ (животное), творит.падеж, ед.число (7 0 0 1 5) → ЛЬВОМЛЕВ (ден.единица), творит.падеж, ед.число (7 0 0 1 5) → ЛЕВОМГПстроитсяМорфологический синтез парадигмы.
Программа ФОРМ2По словарной статье (знакомого слова) строится массив всех форм этого слова.Порядок элементов массива определяется номером М-класса.Примеры:синтез всех форм знакомого существительного КАССИРШАКАССИРША КАССИРШИ - им.падеж, ед. и мн.числоКАССИРШИ КАССИРШ - род.падеж, ед. и мн.числоКАССИРШЕ КАССИРШАМ - дат.падеж, ед. и мн.числоКАССИРШУ КАССИРШ - вин.падеж, ед. и мн.числоКАССИРШЕЙ КАССИРШАМИ - твор.падеж, ед. и мн.числоКАССИРШЕ КАССИРШАХ - предл.падеж,ед.
и мн.числосинтез всех форм знакомого глагола ВОРОШИТЬВОРОШИТЬ - начальная формаВОРОШИ ВОРОШИТЕ - формы повелит. наклоненияВОРОШУ (БУДУ ВОРОШИТЬ) - 1 лицо,ед.ч,наст.и буд.вр.ВОРОШИШЬ (БУДЕШЬ ВОРОШИТЬ) - 2 лицо,ед.ч,наст.и буд.вр.ВОРОШИТ (БУДЕТ ВОРОШИТЬ) - 3 лицо,ед.ч,наст.и буд.вр.ВОРОШИМ (БУДЕМ ВОРОШИТЬ) - 1 лицо,мн.ч,наст.и буд.вр.ВОРОШИТЕ (БУДЕТЕ ВОРОШИТЬ) - 2 лицо,мн.ч,наст.и буд.вр.ВОРОШАТ (БУДУТ ВОРОШИТЬ) - 3 лицо,мн.ч,наст.и буд.вр.ВОРОШИЛ ВОРОШИЛА ВОРОШИЛО ВОРОШИЛИ - формы прош.времениВОРОША ВОРОШИВ - деепричастияРассмотрим примеры, показывающие возможность комбинирования отдельныхпрограмм библиотеки "Русская морфология".
Пусть написана управляющая программа,получающая на входе некоторую словоформу, обращающаяся к программе МОРФ1 (и - еслислова нет в словаре - к МОРФ2) и генерирующая все формы (программа ФОРМ2) длякаждого варианта анализа. Среди этих форм обязательно должна быть входная словоформа.Примеры:обработка незнакомого слова ХРЮШАВАРИАНТ 1склонение по образцу слова НОЖ/БОГАЧ* значение ГП "одушевленность" неизвестно *ХРЮШ ХРЮШИХРЮША ХРЮШЕЙХРЮШУ ХРЮШАМХРЮША / ХРЮШ ХРЮШЕЙ / ХРЮШИХРЮШОМ ХРЮШАМИХРЮШЕ ХРЮШАХВАРИАНТ 2склонение по образцу слова МАРШ* значение ГП "одушевленность" неизвестно *ХРЮШ ХРЮШИХРЮША ХРЮШЕЙХРЮШУ ХРЮШАМХРЮША / ХРЮШ ХРЮШЕЙ / ХРЮШИХРЮШЕМ ХРЮШАМИХРЮШЕ ХРЮШАХВАРИАНТ 3склонение по образцу слова ТУЧА/КАССИРША* значение ГП "одушевленность" неизвестно *ХРЮША ХРЮШИХРЮШИ ХРЮШХРЮШЕ ХРЮШАМХРЮШУ ХРЮШ / ХРЮШИХРЮШЕЙ ХРЮШАМИХРЮШЕ ХРЮШАХВАРИАНТ 4склонение по образцу слова СВЕЖИЙПОХРЮШЕЕ ХРЮШЕЕХРЮШ ХРЮША ХРЮШЕ ХРЮШИХРЮШИЙ ХРЮШАЯ ХРЮШЕЕ ХРЮШИЕХРЮШЕГО ХРЮШЕЙ ХРЮШЕГО ХРЮШИХХРЮШЕМУ ЖРЮШЕЙ ХРЮШЕМУ ХРЮШИМХРЮШЕГО amp; ХРЮШИЙ ХРЮШУЮ ХРЮШЕЕ ХРЮШИХ amp; ХРЮШИЕХРЮШИМ ХРЮШЕЙ ХРЮШИМ ХРЮШИМИХРЮШЕМ ХРЮШЕЙ ХРЮШЕМ ХРЮШИХВАРИАНТ 5спряжение по образцу слова ТОЧИТЬ/СЛЫШАТЬХРЮШИТЬХРЮШИ ХРЮШИТЕХРЮШУ (БУДУ ХРЮШИТЬ)ХРЮШИШЬ (БУДЕШЬ ХРЮШИТЬ)ХРЮШИТ (БУДЕТ ХРЮШИТЬ)ХРЮШИМ (БУДЕМ ХРЮШИТЬ)ХРЮШИТЕ (БУДЕТЕ ХРЮШИТЬ)ХРЮШАТ (БУДУТ ХРЮШИТЬ)ХРЮШИЛ ХРЮШИЛА ХРЮШИЛО ХРЮШИЛИХРЮША ХРЮШИВВАРИАНТ 6неизменяемое слово типа АНТРАШАХРЮШАЗаметим, что если бы слово хрюша анализировалось с предсказаниями, результат былбы более точен.