Методичка по первой части ModernLib.Ru (pdf) (1157206), страница 5

Файл №1157206 Методичка по первой части ModernLib.Ru (pdf) (Методичка по первой части ModernLib.Ru (pdf)) 5 страницаМетодичка по первой части ModernLib.Ru (pdf) (1157206) страница 52019-09-182019-09-18СтудИзба

Методичка по первой части ModernLib.Ru (pdf)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 5)

Эти особенности можно было быучесть с помощью еще более дробной классификации, однако, во избежание чрезмерногоувеличения числа П-классов, в ФМРС используются другие методы.Как исключения описываются случаи сочетания основы с "нестандартной" для данногоП-класса и данной формы флексией: -а в форме именительного падежа множественногочисла существительных вместо характерной для 1-го П-класса флексии -ы (глаза , но заводы), пустая флексия вместо флексии -ов в родительном падеже множественного числа (глаз , нозаводов ).

Исключением считается и наличие у некоторых существительных 2-городительного (партитивного) и 2-го предложного (локативного) падежей: кусок сахару , вшкафу , но из сахара , о шкафе . Всего в ФМРС учитываются 26 исключений такого вида.К особенностям словоизменения относятся и чередования в основе. В ФМРС учтено 55чередований, например: ова - у (рис-ова -ть - рис-у -ю ), та - щ (клеве-та -ть - клеве-щ -у ), е- вЂ№пустовЂє (царев-е -н - царев-н-а ). Для И-слов с чередованиями достаточнорассматривать только один "стандартный" вариант основы, указывая тип и контекстчередования в описании значения основы. Так, для стандартного варианта основы царевнуказывается, что при пустой флексии перед последней буквой основы вставляется буква е .Относительно редкие чередования (встречающиеся у 1-3 слов) в ФМРС учитываютсяпо-иному: парадигмы таких слов задаются несколькими основами и Н-словами,образующими "семейство" слова (основы зай- , зайд- и заш- и И-слово зайти для глаголазайти ).

Семейства вводятся и для слов с супплетивными формами (хороший - лучше ) илиуникальными наборами флексий (некоторые числительные, личные местоимения).В синтаксический класс объединяются слова и конструкции с общим набором ГП иобщими синтаксическими функциями. Каждому представителю некоторого С-классасопоставлен (как и в случае М-классов) вектор значений характерных ГП. Для большинстваИ-слов номер С-класса и соответствующий набор ГП совпадают с номером и набором ГПМ-класса.

Так, многие существительные - С-класс номер 7 - относятся и к 7-му М-классу.Однако некоторые слова изменяются по "необычной" модели: существительные прохожий ,гончая склоняются как представители 8-го М-класса, для существительного кабельтовхарактерно местоименное склонение. В подобных ситуациях в описании значения основыуказывается и синтаксический класс, а иногда значения "дополнительных" ГП (например,вида и залога для причастий - С-класс номер 18, склоняющихся по модели 8-го М-класса).2.2.3.

Основные программыМорфологический анализ знакомых слов. Программа МОРФ1Программа МОРФ1 строит все возможные разбиения входной словоформы на основу ифлексию и ищет соответствующие части в словаре (первоначально МОРФ1 пытается найти всловаре совпадающее со словоформой Н-слово, а затем последовательно рассматриваетсловоформу как основу с пустой флексией, основу с флексиями длиной 3, 2 и 1) илинеизменяемое слово.Проверку правильности разбиения - сочетаемости основы и флексии - осуществляетвспомогательная программа, она же устанавливает значения ГП, определяемые флексией.Когда МОРФ1, отщепив флексию, не может найти полученную основу в словаре,происходит обращение к подпрограмме, применяющей к основе правила чередования.

Еслии после применения правил чередования найти основу в словаре не удалось, словопризнается незнакомым и формируется обращение к программе морфологического анализанезнакомых слов МОРФ2 - список вариантов трактовки словоформы (грамматическикорректные разбиения на основу и флексию, неизменяемое слово).Результат работы МОРФ1 (для знакомого слова) - список вариантов анализа, каждый изкоторых содержит: грамматические признаки словоформы и ссылку на словарную статью,описывающую семантическое значение слова.Примеры:стекла ? (7 2 3 1 2) - существительное (неодуш.,ср.род) стеклов форме: ед.число, родит.падеж(7 2 3 2 (1 4)) - существительное (неодуш.,ср.род) стеклов форме: мн.число, именит. или винит.падеж(9 1 1 3 2 1 1) - глагол стечьв форме: прош.вр., женск.род, ед.числоУпрощенный вариант программы МОРФ1 - программа МОРФ3 - решает такназываемую задачу лемматизации : определяет только начальную форму слова, неформируя список грамматических характеристик словоформы.Примеры:стеки ? стек, стечьстекла ? стекло, стечьстеками ? стекМорфологический анализ незнакомых слов.

Программа МОРФ2На вход программы поступает сформированный МОРФ1 список вариантов трактовкисловоформы.Пример (словоформа квазибиологом ):квазибиологом+? (ср.космодром/управдом )квазибиолог+ом (ср. биолог+ом )квазибиологом (ср. бегом )При обработке незнакомого слова МОРФ2 учитывает флексию и строение основы. Вбольшинстве случаев исследование флексии не позволяет однозначно установить не толькоП-класс, род слов субстантивного склонения, вид спрягаемых слов, но даже М-классанализируемого слова, так как, например, флексия -а встречается у слов всех четырехрассматриваемых М-классов (класс-а , красив-а , дядин-а , ворош-а ). Для уточненияграмматических признаков незнакомых слов МОРФ2 учитывает следующие составляющие(диагностические сегменты) основы: префикс, суффикс или некоторую цепочку букв в концеосновы, последнюю букву основы.По префиксу можно обнаружить некоторые Н-слова и установить вид некоторыхглаголов. Анализ суффикса помогает установить М-класс, П-класс, род (а иногда иодушевленность) слова субстантивного склонения, вид глагола или даже все нужные(описываемые в словарной статье) грамматические признаки слова.

По последней буквеосновы легко уточняется П-класс, а иногда и М-класс слова. Программа МОРФ2 работает стаблицами, содержащими 28 префиксов и 67 суффиксов. Анализ незнакомого слова МОРФ2начинает с варианта расщепления с максимальной длиной флексии.Если анализируется не отдельно взятое слово, а слово в составе предложения,появляется возможность учета контекста (синтаксических связей данного слова ссоседними). Информация о контексте передается программам морфологического анализа отобъемлющих их программ синтаксического анализа с помощью предсказаний - спискаожидаемых грамматических признаков обрабатываемого слова.

Так, при анализенезнакомого слова Верхневартовск в контексте приехала из далекого Верхневартовскаожидаемые характеристики последнего слова фрагмента таковы: неодушевленноесуществительное в форме единственного числа, родительного падежа.В таких ситуациях результат работы МОРФ2 сопоставляется с предсказаниями, и, вслучае соответствия, запоминается. Если же предсказание не подтвердилось, начинаетобрабатываться другой вариант разбиения словоформы. Если ожидаемый результат неполучен, либо слово признается неизменяемым, либо в нем ищутся и исправляются ошибки.Для каждого отобранного варианта формируются результаты анализа словоформы (ивариант/варианты новой словарной статьи).Пример (словоформа квазибиологом ):(7 0 1 1 (1 4)) - существительное (одуш. или неодуш., ср.род)квазибиологом в форме: ед.число, именит. или винит.падеж(7 1 1 1 5) - существительное (одуш.,муж.род)квазибиолог в форме: ед.число, творит.падеж(11) - неизменяемое слово (возможно, наречие)Заполнение словаря по грамматическим описаниям слов.

Программа СЛОВ1Основная сервисная программа автоматической генерации словарных статей программа СЛОВ1. В ходе ее разработки были составлены таблицы соответствия словарнойинформации из словаря Зализняка и словарной информации ФМРС. Отметим, что программаСЛОВ1 автоматизирует трудоемкую, требующую хорошего знания ФМРС работу посоставлению словарных статей. Действия, выполняемые программой, зачастую весьманетривиальны из-за различий морфологической модели словаря Зализняка, и ФМРС. На входпрограммы поступает словарная статья, взятая из словаря Зализняка или (если такого словатам нет) сформированная экспертом.Программа автоматически определяет: 1) основу записываемого в словарь системыслова; 2) номера М-класса, П-класса, С-класса; 3) наличие чередований и их контекст; 4)наличие других частных особенностей словоизменения.

При работе с программой СЛОВ1словарные статьи кодируются по определенным стандартным правилам, в частности,заменяются символы, отсутствующие на клавиатуре (например, цифра в кружке заменяетсяна цифру в круглых скобках).По первому элементу словарной информации из словаря Зализняка в большинствеслучаев определяется номер М-класса, у слов субстантивного склонения такжеодушевленность и род, у спрягаемых слов - вид. Если, например, этот элемент "п", то словоотносится к 8-му М-классу; "ж" - к 7-му М- классу, женскому роду, неодушевленное; "мо" - к7-му М-классу, мужскому роду, одушевленное; "нсв" - к 9-му М-классу, несовершенномувиду.После определения М-класса происходит переход на соответствующую ветвьалгоритма, где по второму элементу - цифре - определяется номер П-класса.

Если второйэлемент - не цифра (это означает, что слово изменяется по необычной модели), то СЛОВ1фиксирует несовпадение номера С-класса с номером М-класса (т.е. наличиесоответствующего исключения) и формирует необходимый фрагмент словарной статьи.Остальные элементы исходной словарной статьи либо уточняют номер П-класса, либосвидетельствуют о наличии в слове чередований, исключений или об отсутствии у слованекоторых форм.

Например, символ "П2" означает, что у слова есть второй предложныйпадеж (локатив), символ "*" является признаком чередования. Для определения конкретногономера чередования СЛОВ1 анализирует строение начальной формы слова. Так, приобработке первого варианта слова лев номер чередования (4 - чередование: ь - е )определяется по буквам ле , стоящим перед последней согласной основы (буква в в данномслучае неинформативна). Стандартный вариант основы (льв- ) определяется по номерамП-класса и чередования.Результатом работы программы СЛОВ1 является словарная статья или список такихсловарных статей - в случае, когда слово из словаря Зализняка представляется в ФМРСсемейством Н-слов и/или основ И-слов (для спрягаемых слов, например, программа строитсловарную статью, описывающую личные формы глагола и деепричастия, и несколькостатей для причастий).Заполнение словаря по тексту.

Программа СЛОВ2Программа СЛОВ1 используется в ситуации, когда список слов, предназначенных длявключения в компьютерный словарь, составлен заранее. Другая технологическая схемапредполагает автоматизацию не только этого, но и предыдущего этапа - этапа выявлениянезнакомых слов по характерным текстам.Отдельные программы различаются:– глубиной лингвистического анализа текста (пословный анализ, частичныйсинтаксический анализ, полный синтаксический анализ, синтактико-семантический анализ);– "степенью самостоятельности" программ формирования словаря (работа безобращения за помощью к человеку, работа в диалоге с пользователем/администратором ипод его контролем)При пакетной обработке текстов на печать выдается так называемый "протоколформирования словаря", в который могут вставляться вопросы, адресуемые администратору.Рассмотрим фрагмент протокола диалога администратора-лаборанта с программойпословного анализа текста (будем считать, что слова: колба, стержень, стекло, стечь отсутствуют в словаре):* РАБОТАЕТ ПРОГРАММА ФОРМИРОВАНИЯ СЛОВАРЯ ПО ТЕКСТУ *УКАЖИТЕ, ПОЖАЛУЙСТА, ОТКУДА БУДЕТ ВВОДИТЬСЯ ТЕКСТ(К - С КЛАВИАТУРЫ, вЂ№ИМЯ ФАЙЛАвЂє - ИЗ ВНЕШНЕГО ФАЙЛА)КВВОДИТЕ ТЕКСТ.

Характеристики

Тип файла

PDF-файл

Размер

569,35 Kb

Материал

Методичка по первой части ModernLib.Ru (pdf)

Тип материала

Книга

Предмет

Компьютерная лингвистика

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

metodichka-po-pervoj-chasti-modernlib.ru-pdf.rar

Методичка по первой части ModernLib.Ru (pdf).pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.