Главная » Просмотр файлов » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 36

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 36 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 362017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 36)

В этом случаев постфикс попадает вся часть слова, начиная с изменяемой части первого слова. Так,например, в фамилии Римский-Корсаков в постфикс попадет часть «ий-Корсаков».Можно заметить, что слова группируются по парадигмам. Парадигма – этомножество всех постфиксов и связанных с ними параметров для всех словоформданного слова. Так, например, слова «лектор» и «завлаб» имеют одну парадигму. Мыможем хранить единственный набор ветвей в дереве постфиксов, сокращая темсамым занимаемый объем памяти.113А Б В Г Д Е Ё Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ы Э Ю Я… Е …… А …… Е …… К …… К Л М …… Т …… Т …… О …… О …… Р …… Р …Парадигма3… М …… М …Парадигма1Парадигма1Парадигма4Парадигма2Рис. 2.2. Фрагменты дерева префиксов для слов «вектор», «лектор», «мама»,«лемма»Заметим, что вопрос о совпадении парадигм зависит от воли проектировщика.Так, слова «лектор» и «вектор» ни в коем случае не попадут в одну парадигму, таккак будут иметь различные формы в винительном падеже.

Однако слова «мама» и«лемма» попадут или не попадут в одну парадигму в зависимости от того, учитываемли мы их одушевленность или нет. В первом случае парадигмы будут различными,так как для каждой формы слова «мама» будет прописан параметр «одушевленная»(хотя может существовать еще одно слово в морфологии, являющеесянеодушевленным и означающее материнскую плату – его парадигма совпадет спарадигмой слова «лемма»), тогда как для слова «лемма» будет приписан параметр«неодушевленная». Во втором случае этих различий не будет, и слова будутпринадлежать одной парадигме.Конечная вершина дерева префиксов должна содержат информацию о том, какойпостфикс или набор постфиксов соответствует данному префиксу.

При этом указатель должен показывать на листовую вершину постфикса, в связи с тем, что развернуть его от корня будет несколько затруднительно. Заметим, что конечная вершинадерева префиксов не обязана быть листовой, так как в том месте, где закончиласьоснова одного слова, может продолжиться другое (например, «лук-ом» и«луков-ый»).Заметим, что листовые вершины представленного дерева сходятся в парадигмах.Кроме того, часть путей в дереве могут совпадать, в связи с чем можно перейти отдерева к графу, объединив совпадающие части в одну ветвь.

Такой граф уже можноназвать конечным автоматом, так как для каждого перехода в нем определен символ,114по которому осуществляется переход. Подобные и другие ухищрения позволяютсущественно сократить объем памяти, занимаемой морфологическим словарем.Морфологический анализ будет проходить следующим образом. Мы двигаемсяпобуквенно по строке, содержащей слово, перемещаясь при этом по деревупрефиксов. Изначально в качестве текущей вершины выбирается корень деревапрефиксов. Если переход из текущей вершины по очередной букве строкиотсутствует, то разбор заканчивается.

Если достигнута вершина, помеченная какконечная, то проводится проверка постфикса. При этом мы двигаемся по деревупостфиксов от листовой вершины к корню. Если корень был успешно достигнут, тоинформация из парадигмы изменения слова переносится в результат. Если в деревепрефиксов не была достигнута листовая вершина, то движение по немупродолжается. В случае, когда множество результатов оказалось пустым, сообщаем онеуспешном анализе.

В противном случае возвращаем множество результатов.Скорость анализа будет пропорциональна длине слова, а не объему словаря.Для дерева постфикса возможен и другой вариант хранения. В этом случае мыхраним префикс не с конца, а с его начала (движение будет производиться от корнядерева к листовым вершинам).

При этом вершины деревьев префиксов и постфиксовхранят номер парадигмы. В этом случае, проведя анализ префикса, мы начинаемпоиск постфикса от корня дерева. Если в конце слова была достигнута вершина с темже номером парадигмы, что и в дереве префиксов, то слово считается успешнонайденным.Следует заметить, что скорость работы морфологического анализа будет сильнозависеть от задач, которые перед ним ставятся. Так, например, если у нас имеетсяпоисковая система, задача которой найти все вхождения данного слова в документах,вне зависимости от формы слова, то нам вполне достаточно вернуть лишьнормальную форму слова.

Если мы хотим ранжировать поиск в зависимости отсовпадений морфологических параметров, или, как в нашем случае, морфологическиепараметры будут входить в критерий оценки, то для добавления параметров крезультату и их обработки потребуется еще некоторое время. Кроме того,морфологический анализ может хранить и семантическую информацию, добавлениекоторой к результату еще снизит скорость работы.Морфологический синтез будет осуществляться следующим образом. В индексенормальных форм находим все нормальные формы, для которых будет производитьсясинтез. Одной строке нормальной формы может соответствовать несколько слов сосвоими парадигмами, например, слово «кошка», имеющее одушевленную инеодушевленную формы, будет иметь разные постфиксы в винительном падежемножественного числа: «кошек» vs «кошки».

Однако в данном случае ища, например,одушевленную кошку мы не обнаружим параметра «одушевленность» со значением«одушевленная» среди параметров неодушевленной кошки. Следовательно, она непопадет в результат. Аналогичные проблемы возникают и в других словах: «лист» –«листы» vs «листья»; «язык» – «языки» (часть тела) vs «языков» (язычник(древнерусское) или пленник).Далее мы берем парадигму, соответствующую выбранной нормальной форме,находим нужный нам набор параметров, берем неизменяемую часть слова,присоединяем к ней постфикс, получая тем самым искомую словоформу.

Помещаемее в множество результатов.115При сравнении параметров может получиться так, что успешно сравнятсянесколько наборов параметров. Это происходит потому, что как в множествепараметров, хранимых в парадигме, так и в множестве параметров, поступивших навход, могут содержаться параметры с нулевым значением. Здесь следует помнить, чтопредпочтение следует отдавать полному совпадению параметров, т.е. желательно,чтобы значения параметров, имеющих на входе нулевое значение, в парадигме такжеимели нулевое значение. При наличии альтернативы лучше выбирать наборпараметров, в котором большее количество параметров сравнилось точно.

Еще однойпроблемой при синтезе является неполный набор параметров, поступивший на вход.Это связано с тем, что мы не сумели выяснить полный набор параметров напредыдущих этапах. Такой вариант также необходимо предусматривать приреализации системы морфологического синтеза.Так, например, если мы попытаемся сгенерировать родительный падежединственного числа от слова «чай», то мы получим два варианта: «чая» и «чаю»,которые оба являются морфологически верными и употребимыми. А попыткаполучить прошедшее время глагола, не уточнив предварительно его род, приведет ктому, что мы получим как минимум три варианта синтеза, так как прошедшее времяглагола в русском языке не различается по лицам.§ 2.2.Автоматизированное пополнение морфологического словаряАвтоматическое порождение гипотез о парадигмах изменения незнакомых словявляется хорошей возможностью автоматизировать процесс заполнения баз.

Припереходе к новой предметной области встает вопрос о неполноте морфологическогословаря. Каждая предметная область использует собственную лексику. В связи с этимвстает вопрос о пополнении ею словарей. Данный процесс может бытьавтоматизирован, если имеющийся модуль морфологического анализа позволяетпроводить предсказание лексических параметров незнакомых слов. Для этогонеобходимо выделить все слова, отсутствующие в имеющемся морфологическомсловаре, и подвергнуть их анализу с предсказанием. Результатам анализа, как этоотмечалось в соответствующем разделе, является кортеж словоформы <fnf, r,Pconst(r,s)∪Pvar(r,s)>, где fnf=<snf, r, Pvar(r,s)> - лексема нормальной формы, r – частьречи словоформы, s и snf – анализируемый токен (строка слова) и токен нормальнойформы, а P – наборы параметров.

По результатам анализа мы можем объединить всеслова, обладающие одинаковыми токенами нормальной формы в единые гипотезы.В ходе выдвижения гипотез можно использовать несколько сильных, ноинтуитивно верных положений.1. Гипотезы, порожденные на основе редковстречающихся парадигм, врассмотрение не брались. Под редковстречающейся понимается парадигма, покоторой изменяется количество лексем не выше заданного порога.2. Для словарных слов, принадлежащей одной парадигме, определяется списокбукв, заканчивающих их псевдоосновы. В случае если для словоформы выдвигаетсягипотеза о ее принадлежности к данной парадигме, и если при этом ее псевдоосноване оканчивается ни на одну из полученных букв, то такая гипотеза отвергается.Использование двух букв псевдоосновы позволяет проводить выбор с весьма высокойточностью.3. Можно отсеивать гипотезы, образованные от словоформы, встретившейсяединственный раз в исследуемом корпусе и являющиеся единственной словоформой,116использованной в данной парадигме, так как подобная словоформа скорее всегонаписана с ошибкой.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее