Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 37

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 37 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 372020-08-252020-08-25СтудИзба

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 37)

Однако в данном случае ища, например,одушевленную кошку мы не обнаружим параметра «одушевленность» со значением«одушевленная» среди параметров неодушевленной кошки. Следовательно, она непопадет в результат. Аналогичные проблемы возникают и в других словах: «лист» –«листы» vs «листья»; «язык» – «языки» (часть тела) vs «языков» (язычник(древнерусское) или пленник).Далее мы берем парадигму, соответствующую выбранной нормальной форме,находим нужный нам набор параметров, берем неизменяемую часть слова,присоединяем к ней постфикс, получая тем самым искомую словоформу. Помещаемее в множество результатов.115При сравнении параметров может получиться так, что успешно сравнятсянесколько наборов параметров.

Это происходит потому, что как в множествепараметров, хранимых в парадигме, так и в множестве параметров, поступивших навход, могут содержаться параметры с нулевым значением. Здесь следует помнить, чтопредпочтение следует отдавать полному совпадению параметров, т.е. желательно,чтобы значения параметров, имеющих на входе нулевое значение, в парадигме такжеимели нулевое значение. При наличии альтернативы лучше выбирать наборпараметров, в котором большее количество параметров сравнилось точно.

Еще однойпроблемой при синтезе является неполный набор параметров, поступивший на вход.Это связано с тем, что мы не сумели выяснить полный набор параметров напредыдущих этапах. Такой вариант также необходимо предусматривать приреализации системы морфологического синтеза.Так, например, если мы попытаемся сгенерировать родительный падежединственного числа от слова «чай», то мы получим два варианта: «чая» и «чаю»,которые оба являются морфологически верными и употребимыми.

А попыткаполучить прошедшее время глагола, не уточнив предварительно его род, приведет ктому, что мы получим как минимум три варианта синтеза, так как прошедшее времяглагола в русском языке не различается по лицам.§ 2.2.Автоматизированное пополнение морфологического словаряАвтоматическое порождение гипотез о парадигмах изменения незнакомых словявляется хорошей возможностью автоматизировать процесс заполнения баз. Припереходе к новой предметной области встает вопрос о неполноте морфологическогословаря.

Каждая предметная область использует собственную лексику. В связи с этимвстает вопрос о пополнении ею словарей. Данный процесс может бытьавтоматизирован, если имеющийся модуль морфологического анализа позволяетпроводить предсказание лексических параметров незнакомых слов. Для этогонеобходимо выделить все слова, отсутствующие в имеющемся морфологическомсловаре, и подвергнуть их анализу с предсказанием. Результатам анализа, как этоотмечалось в соответствующем разделе, является кортеж словоформы <fnf, r,Pconst(r,s)∪Pvar(r,s)>, где fnf=<snf, r, Pvar(r,s)> - лексема нормальной формы, r – частьречи словоформы, s и snf – анализируемый токен (строка слова) и токен нормальнойформы, а P – наборы параметров.

По результатам анализа мы можем объединить всеслова, обладающие одинаковыми токенами нормальной формы в единые гипотезы.В ходе выдвижения гипотез можно использовать несколько сильных, ноинтуитивно верных положений.1. Гипотезы, порожденные на основе редковстречающихся парадигм, врассмотрение не брались. Под редковстречающейся понимается парадигма, покоторой изменяется количество лексем не выше заданного порога.2. Для словарных слов, принадлежащей одной парадигме, определяется списокбукв, заканчивающих их псевдоосновы. В случае если для словоформы выдвигаетсягипотеза о ее принадлежности к данной парадигме, и если при этом ее псевдоосноване оканчивается ни на одну из полученных букв, то такая гипотеза отвергается.Использование двух букв псевдоосновы позволяет проводить выбор с весьма высокойточностью.3.

Можно отсеивать гипотезы, образованные от словоформы, встретившейсяединственный раз в исследуемом корпусе и являющиеся единственной словоформой,116использованной в данной парадигме, так как подобная словоформа скорее всегонаписана с ошибкой. Исключение можно делать для парадигм не изменяющихся слов(т.е. содержащих единственную позицию в парадигме).4.

Псевдоосновы несловарных словоформ, объединяемых в рамках однойпарадигмы, должны содержать хотя бы один символ.После кластеризации проводится отсеивание полученных лексем по критериюмаксимальной встречаемости словоформ, вошедших в лексему. Т.е. для каждогослова определяется, сколько раз оно встретилось в тексте. Далее эти значениясуммируются по парадигмам и оставляются лишь парадигмы с максимальной сумой.Получаемые результаты будут существенно зависеть от типа используемойморфологии. Для стемминга будут объединяться все слова, обладающие однойпсевдоосновой.

Так, в одну парадигму в зависимости от алгоритма выделенияпсевдоосновымогутпопастьслова«компьютер»,«компьютерный»,«компьютеризация» и т.д. При использовании лемматизации результаты зависят отсписка используемых параметров. При полном отсутствии таковых словаобъединяются без образования альтернатив. Однако полный набор параметровсоздает проблемы. Среди прочего, это связано с тем, что в русском языке встречаютсяпарадигмы, объединяющие один и тот же набор флексий, однако приписывающие имразличные наборы параметров. Так, для слова «админ» можно породить лексемы,показанные на Рис. 3.3.

Здесь «-» означает пустой постфикс. В скобках написанысловарные представители парадигмы. Из приведенных примеров видно, что дажеодин и тот же набор словоформ может быть различным образом размещен вразличных парадигмах.Единственное числоим.род.вин. дат.тв.пр.АДМИН (ТЕЛЕФОН) м.р., неодушАУОМЕАДМИН (ТОН) м.р., неодушАУОМЕАДМИН (БАЛ) м.р., неодушАУОМЕ/УАДМИН (АКТИВИСТ) м.р., одушААУОМЕАДМИН (ОПЕР) м.р., одушААУОМЕМножественное числоим.род.вин.

дат.тв.пр.АДМИН (ТЕЛЕФОН) м.р., неодушЫОВЫАМ АМИАХАДМИН (ТОН) м.р., неодушА/ЫОВА/ЫАМ АМИАХАДМИН м.р., неодушЫОВЫАМ АМИАХАДМИН (АКТИВИСТ) м.р., одушЫОВОВАМ АМИАХАДМИН (ОПЕР) м.р., одушА/ЫОВОВАМ АМИАХРис. 3.3. Пример неоднозначности предсказания слова по всем егословоформамБольшое количество ошибок, встречающихся в любых текстах, зашумляет выходсистемы лемматизации и требует длительного ручного труда по отделениюкорректных вариантов от ошибочных. К счастью, возможностей для ошибкипредоставляется очень много, и поэтому большинство ошибок встречается один илидва раза и отсеиваются на этапах фильтрации или кластеризации.

Однако некоторыеошибочные словоформы могут войти в состав других парадигм, изменив тем самымрезультаты кластеризации не в лучшую сторону. Кроме того, у многих авторовсуществуют так сказать «любимые» ошибки, когда одна и та же ошибка допускаетсямногократно в различных словоформах.117Однако даже небольшая автоматизация процесса предсказания парадигмнесловарных слов позволяет существенно повысить производительность трудалингвистов в ходе формирования словарей. Кроме того, в ряде задач можетиспользоваться не лемматизация, а, например, обсуждаемый ниже стемминг, в ходекоторого лексические параметры указываться не будут.

В этом случае необходимосгенерировать (в том или ином виде) нормальную форму слова и указанные вышепроблемы окажутся неактуальны. В этом случае возможно создание полностьюавтоматической процедуры пополнения словарей.§ 2.3.Методы бессловарного морфологического анализаБессловарные морфологические словари появились во времена, когдаоперативная память была существенно ограничена. Однако на данный моментнесколько мегабайт или даже десятков мегабайт оперативной памяти не составляютпроблемы, в связи с чем наибольшее распространение получили словарныеморфологии.

Существенным плюсом бессловарных морфологий является то, что нимогут предсказать морфологические характеристики практически любого слова, еслиего парадигма изменения попадает под одну из хранимых. Классическим примеромздесь является предложение «Глокая куздра штеко будланула бокра и курдячитбокрёнка», предложенное одним из основоположников отечетственного языкознанияакадемиком Л.В. Щербой еще около 1930 года при чтении курса лекций «Основыязыкознания».

Из этого предложения мы можем понять, что «куздра» имеет женскийрод, единственное число, именительный падеж и т.д. и разобрать синтаксиспредложения, при этом совершенно не понимая, о чем идет речь. С другой стороны,наша уверенность в том, что куздра имеет женский род во многом основывается нарезультатах неявно проводимого синтаксического анализа, который говорит о том,что «глокая» является прилагательным в женском роде и согласуется со словом«куздра».Бессловарные морфологии хранят парадигмы слов. При этом в парадигме вкачестве постфикса может храниться только окончание.

Часто в бессловарнойморфологии может храниться набор приставок и суффиксов и привязанная к нимсемантическая информация. Например, про суффиксы «-онок-» и «-ёнок-» будетнаписано, что их добавление обозначает детеныша животного, а приставка «при-»означает присоединение или приближение.Анализ и синтез в бессловарных морфологиях ведется так же, как и в словарных,но без поиска по дереву префиксов и с учетом возможности выделения несколькихпоследовательно идущих постфиксов.Однако такой подход часто приводит к существенным ошибкам. Так, например,«октябрёнок» может стать детенышем «октября» (что формально верно), «припевать»будет трактоваться как «приближение + певать» или «присоединение + певать», а«перебиваться» - возвратной несовершенной формой от «перебить», причем не ясноот какого из значений: прервать, уничтожить или прибить заново.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

avt.-obrabotka-tekstov-na-estestvennom-jazyke-i-komp.-lingvistika.-bolshakova-2014.pdf.rar

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.