Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 37
Текст из файла (страница 37)
Однако в данном случае ища, например,одушевленную кошку мы не обнаружим параметра «одушевленность» со значением«одушевленная» среди параметров неодушевленной кошки. Следовательно, она непопадет в результат. Аналогичные проблемы возникают и в других словах: «лист» –«листы» vs «листья»; «язык» – «языки» (часть тела) vs «языков» (язычник(древнерусское) или пленник).Далее мы берем парадигму, соответствующую выбранной нормальной форме,находим нужный нам набор параметров, берем неизменяемую часть слова,присоединяем к ней постфикс, получая тем самым искомую словоформу. Помещаемее в множество результатов.115При сравнении параметров может получиться так, что успешно сравнятсянесколько наборов параметров.
Это происходит потому, что как в множествепараметров, хранимых в парадигме, так и в множестве параметров, поступивших навход, могут содержаться параметры с нулевым значением. Здесь следует помнить, чтопредпочтение следует отдавать полному совпадению параметров, т.е. желательно,чтобы значения параметров, имеющих на входе нулевое значение, в парадигме такжеимели нулевое значение. При наличии альтернативы лучше выбирать наборпараметров, в котором большее количество параметров сравнилось точно.
Еще однойпроблемой при синтезе является неполный набор параметров, поступивший на вход.Это связано с тем, что мы не сумели выяснить полный набор параметров напредыдущих этапах. Такой вариант также необходимо предусматривать приреализации системы морфологического синтеза.Так, например, если мы попытаемся сгенерировать родительный падежединственного числа от слова «чай», то мы получим два варианта: «чая» и «чаю»,которые оба являются морфологически верными и употребимыми.
А попыткаполучить прошедшее время глагола, не уточнив предварительно его род, приведет ктому, что мы получим как минимум три варианта синтеза, так как прошедшее времяглагола в русском языке не различается по лицам.§ 2.2.Автоматизированное пополнение морфологического словаряАвтоматическое порождение гипотез о парадигмах изменения незнакомых словявляется хорошей возможностью автоматизировать процесс заполнения баз. Припереходе к новой предметной области встает вопрос о неполноте морфологическогословаря.
Каждая предметная область использует собственную лексику. В связи с этимвстает вопрос о пополнении ею словарей. Данный процесс может бытьавтоматизирован, если имеющийся модуль морфологического анализа позволяетпроводить предсказание лексических параметров незнакомых слов. Для этогонеобходимо выделить все слова, отсутствующие в имеющемся морфологическомсловаре, и подвергнуть их анализу с предсказанием. Результатам анализа, как этоотмечалось в соответствующем разделе, является кортеж словоформы <fnf, r,Pconst(r,s)∪Pvar(r,s)>, где fnf=<snf, r, Pvar(r,s)> - лексема нормальной формы, r – частьречи словоформы, s и snf – анализируемый токен (строка слова) и токен нормальнойформы, а P – наборы параметров.
По результатам анализа мы можем объединить всеслова, обладающие одинаковыми токенами нормальной формы в единые гипотезы.В ходе выдвижения гипотез можно использовать несколько сильных, ноинтуитивно верных положений.1. Гипотезы, порожденные на основе редковстречающихся парадигм, врассмотрение не брались. Под редковстречающейся понимается парадигма, покоторой изменяется количество лексем не выше заданного порога.2. Для словарных слов, принадлежащей одной парадигме, определяется списокбукв, заканчивающих их псевдоосновы. В случае если для словоформы выдвигаетсягипотеза о ее принадлежности к данной парадигме, и если при этом ее псевдоосноване оканчивается ни на одну из полученных букв, то такая гипотеза отвергается.Использование двух букв псевдоосновы позволяет проводить выбор с весьма высокойточностью.3.
Можно отсеивать гипотезы, образованные от словоформы, встретившейсяединственный раз в исследуемом корпусе и являющиеся единственной словоформой,116использованной в данной парадигме, так как подобная словоформа скорее всегонаписана с ошибкой. Исключение можно делать для парадигм не изменяющихся слов(т.е. содержащих единственную позицию в парадигме).4.
Псевдоосновы несловарных словоформ, объединяемых в рамках однойпарадигмы, должны содержать хотя бы один символ.После кластеризации проводится отсеивание полученных лексем по критериюмаксимальной встречаемости словоформ, вошедших в лексему. Т.е. для каждогослова определяется, сколько раз оно встретилось в тексте. Далее эти значениясуммируются по парадигмам и оставляются лишь парадигмы с максимальной сумой.Получаемые результаты будут существенно зависеть от типа используемойморфологии. Для стемминга будут объединяться все слова, обладающие однойпсевдоосновой.
Так, в одну парадигму в зависимости от алгоритма выделенияпсевдоосновымогутпопастьслова«компьютер»,«компьютерный»,«компьютеризация» и т.д. При использовании лемматизации результаты зависят отсписка используемых параметров. При полном отсутствии таковых словаобъединяются без образования альтернатив. Однако полный набор параметровсоздает проблемы. Среди прочего, это связано с тем, что в русском языке встречаютсяпарадигмы, объединяющие один и тот же набор флексий, однако приписывающие имразличные наборы параметров. Так, для слова «админ» можно породить лексемы,показанные на Рис. 3.3.
Здесь «-» означает пустой постфикс. В скобках написанысловарные представители парадигмы. Из приведенных примеров видно, что дажеодин и тот же набор словоформ может быть различным образом размещен вразличных парадигмах.Единственное числоим.род.вин. дат.тв.пр.АДМИН (ТЕЛЕФОН) м.р., неодушАУОМЕАДМИН (ТОН) м.р., неодушАУОМЕАДМИН (БАЛ) м.р., неодушАУОМЕ/УАДМИН (АКТИВИСТ) м.р., одушААУОМЕАДМИН (ОПЕР) м.р., одушААУОМЕМножественное числоим.род.вин.
дат.тв.пр.АДМИН (ТЕЛЕФОН) м.р., неодушЫОВЫАМ АМИАХАДМИН (ТОН) м.р., неодушА/ЫОВА/ЫАМ АМИАХАДМИН м.р., неодушЫОВЫАМ АМИАХАДМИН (АКТИВИСТ) м.р., одушЫОВОВАМ АМИАХАДМИН (ОПЕР) м.р., одушА/ЫОВОВАМ АМИАХРис. 3.3. Пример неоднозначности предсказания слова по всем егословоформамБольшое количество ошибок, встречающихся в любых текстах, зашумляет выходсистемы лемматизации и требует длительного ручного труда по отделениюкорректных вариантов от ошибочных. К счастью, возможностей для ошибкипредоставляется очень много, и поэтому большинство ошибок встречается один илидва раза и отсеиваются на этапах фильтрации или кластеризации.
Однако некоторыеошибочные словоформы могут войти в состав других парадигм, изменив тем самымрезультаты кластеризации не в лучшую сторону. Кроме того, у многих авторовсуществуют так сказать «любимые» ошибки, когда одна и та же ошибка допускаетсямногократно в различных словоформах.117Однако даже небольшая автоматизация процесса предсказания парадигмнесловарных слов позволяет существенно повысить производительность трудалингвистов в ходе формирования словарей. Кроме того, в ряде задач можетиспользоваться не лемматизация, а, например, обсуждаемый ниже стемминг, в ходекоторого лексические параметры указываться не будут.
В этом случае необходимосгенерировать (в том или ином виде) нормальную форму слова и указанные вышепроблемы окажутся неактуальны. В этом случае возможно создание полностьюавтоматической процедуры пополнения словарей.§ 2.3.Методы бессловарного морфологического анализаБессловарные морфологические словари появились во времена, когдаоперативная память была существенно ограничена. Однако на данный моментнесколько мегабайт или даже десятков мегабайт оперативной памяти не составляютпроблемы, в связи с чем наибольшее распространение получили словарныеморфологии.
Существенным плюсом бессловарных морфологий является то, что нимогут предсказать морфологические характеристики практически любого слова, еслиего парадигма изменения попадает под одну из хранимых. Классическим примеромздесь является предложение «Глокая куздра штеко будланула бокра и курдячитбокрёнка», предложенное одним из основоположников отечетственного языкознанияакадемиком Л.В. Щербой еще около 1930 года при чтении курса лекций «Основыязыкознания».
Из этого предложения мы можем понять, что «куздра» имеет женскийрод, единственное число, именительный падеж и т.д. и разобрать синтаксиспредложения, при этом совершенно не понимая, о чем идет речь. С другой стороны,наша уверенность в том, что куздра имеет женский род во многом основывается нарезультатах неявно проводимого синтаксического анализа, который говорит о том,что «глокая» является прилагательным в женском роде и согласуется со словом«куздра».Бессловарные морфологии хранят парадигмы слов. При этом в парадигме вкачестве постфикса может храниться только окончание.
Часто в бессловарнойморфологии может храниться набор приставок и суффиксов и привязанная к нимсемантическая информация. Например, про суффиксы «-онок-» и «-ёнок-» будетнаписано, что их добавление обозначает детеныша животного, а приставка «при-»означает присоединение или приближение.Анализ и синтез в бессловарных морфологиях ведется так же, как и в словарных,но без поиска по дереву префиксов и с учетом возможности выделения несколькихпоследовательно идущих постфиксов.Однако такой подход часто приводит к существенным ошибкам. Так, например,«октябрёнок» может стать детенышем «октября» (что формально верно), «припевать»будет трактоваться как «приближение + певать» или «присоединение + певать», а«перебиваться» - возвратной несовершенной формой от «перебить», причем не ясноот какого из значений: прервать, уничтожить или прибить заново.