Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 37
Текст из файла (страница 37)
Исключение можно делать для парадигм не изменяющихся слов(т.е. содержащих единственную позицию в парадигме).4. Псевдоосновы несловарных словоформ, объединяемых в рамках однойпарадигмы, должны содержать хотя бы один символ.После кластеризации проводится отсеивание полученных лексем по критериюмаксимальной встречаемости словоформ, вошедших в лексему. Т.е. для каждогослова определяется, сколько раз оно встретилось в тексте. Далее эти значениясуммируются по парадигмам и оставляются лишь парадигмы с максимальной сумой.Получаемые результаты будут существенно зависеть от типа используемойморфологии.
Для стемминга будут объединяться все слова, обладающие однойпсевдоосновой. Так, в одну парадигму в зависимости от алгоритма выделенияпсевдоосновымогутпопастьслова«компьютер»,«компьютерный»,«компьютеризация» и т.д. При использовании лемматизации результаты зависят отсписка используемых параметров. При полном отсутствии таковых словаобъединяются без образования альтернатив.
Однако полный набор параметровсоздает проблемы. Среди прочего, это связано с тем, что в русском языке встречаютсяпарадигмы, объединяющие один и тот же набор флексий, однако приписывающие имразличные наборы параметров. Так, для слова «админ» можно породить лексемы,показанные на Рис. 3.3. Здесь «-» означает пустой постфикс. В скобках написанысловарные представители парадигмы. Из приведенных примеров видно, что дажеодин и тот же набор словоформ может быть различным образом размещен вразличных парадигмах.Единственное числоим.род.вин.
дат.тв.пр.АДМИН (ТЕЛЕФОН) м.р., неодушАУОМЕАДМИН (ТОН) м.р., неодушАУОМЕАДМИН (БАЛ) м.р., неодушАУОМЕ/УАДМИН (АКТИВИСТ) м.р., одушААУОМЕАДМИН (ОПЕР) м.р., одушААУОМЕМножественное числоим.род.вин. дат.тв.пр.АДМИН (ТЕЛЕФОН) м.р., неодушЫОВЫАМ АМИАХАДМИН (ТОН) м.р., неодушА/ЫОВА/ЫАМ АМИАХАДМИН м.р., неодушЫОВЫАМ АМИАХАДМИН (АКТИВИСТ) м.р., одушЫОВОВАМ АМИАХАДМИН (ОПЕР) м.р., одушА/ЫОВОВАМ АМИАХРис. 3.3. Пример неоднозначности предсказания слова по всем егословоформамБольшое количество ошибок, встречающихся в любых текстах, зашумляет выходсистемы лемматизации и требует длительного ручного труда по отделениюкорректных вариантов от ошибочных.
К счастью, возможностей для ошибкипредоставляется очень много, и поэтому большинство ошибок встречается один илидва раза и отсеиваются на этапах фильтрации или кластеризации. Однако некоторыеошибочные словоформы могут войти в состав других парадигм, изменив тем самымрезультаты кластеризации не в лучшую сторону.
Кроме того, у многих авторовсуществуют так сказать «любимые» ошибки, когда одна и та же ошибка допускаетсямногократно в различных словоформах.117Однако даже небольшая автоматизация процесса предсказания парадигмнесловарных слов позволяет существенно повысить производительность трудалингвистов в ходе формирования словарей. Кроме того, в ряде задач можетиспользоваться не лемматизация, а, например, обсуждаемый ниже стемминг, в ходекоторого лексические параметры указываться не будут. В этом случае необходимосгенерировать (в том или ином виде) нормальную форму слова и указанные вышепроблемы окажутся неактуальны.
В этом случае возможно создание полностьюавтоматической процедуры пополнения словарей.§ 2.3.Методы бессловарного морфологического анализаБессловарные морфологические словари появились во времена, когдаоперативная память была существенно ограничена. Однако на данный моментнесколько мегабайт или даже десятков мегабайт оперативной памяти не составляютпроблемы, в связи с чем наибольшее распространение получили словарныеморфологии. Существенным плюсом бессловарных морфологий является то, что нимогут предсказать морфологические характеристики практически любого слова, еслиего парадигма изменения попадает под одну из хранимых.
Классическим примеромздесь является предложение «Глокая куздра штеко будланула бокра и курдячитбокрёнка», предложенное одним из основоположников отечетственного языкознанияакадемиком Л.В. Щербой еще около 1930 года при чтении курса лекций «Основыязыкознания». Из этого предложения мы можем понять, что «куздра» имеет женскийрод, единственное число, именительный падеж и т.д.
и разобрать синтаксиспредложения, при этом совершенно не понимая, о чем идет речь. С другой стороны,наша уверенность в том, что куздра имеет женский род во многом основывается нарезультатах неявно проводимого синтаксического анализа, который говорит о том,что «глокая» является прилагательным в женском роде и согласуется со словом«куздра».Бессловарные морфологии хранят парадигмы слов. При этом в парадигме вкачестве постфикса может храниться только окончание.
Часто в бессловарнойморфологии может храниться набор приставок и суффиксов и привязанная к нимсемантическая информация. Например, про суффиксы «-онок-» и «-ёнок-» будетнаписано, что их добавление обозначает детеныша животного, а приставка «при-»означает присоединение или приближение.Анализ и синтез в бессловарных морфологиях ведется так же, как и в словарных,но без поиска по дереву префиксов и с учетом возможности выделения несколькихпоследовательно идущих постфиксов.Однако такой подход часто приводит к существенным ошибкам. Так, например,«октябрёнок» может стать детенышем «октября» (что формально верно), «припевать»будет трактоваться как «приближение + певать» или «присоединение + певать», а«перебиваться» - возвратной несовершенной формой от «перебить», причем не ясноот какого из значений: прервать, уничтожить или прибить заново.
При этом также несовсем понятно, какой вид возвратной формы будет иметься ввиду: перебивать себяили перебивать самому. При этом на самом деле возвратная форма от «перебить»будет подразумевать совсем иное значение – «обойтись без чего-либо», хотя вариант«перебить себя» представляется маловероятным, но не невозможным.Для бессловарных морфологий существовали алгоритмы, позволявшие избегатьэтих ошибок.
Так, например, для сочетания «пере+бивать+ся» можно в явном виде118прописать значение слова. Но в итоге мы получаем словарную морфологию соспециальным алгоритмом архивирования базовых понятий, для которых нетисключений.Также выделяют системы на основе стемминга. В случае стемминга зачастуюотбрасывается вся морфологическая информация, а в качестве нормальной формыберется неизменяемая псевдооснова, называемая стем.
Так, для слова «мама» стемомбудет являться строка «мам». Именно эта основа и используется в дальнейшем дляидентификации слова во всех его формах. Неудобство состоит в том, что дляразличных слов может порождаться один и тот же стем, например, «люб-овь» и «любить». В случаях, когда необходимо различать эти понятия (например, при поиске словв тексте), возможен единственный вариант – хранить информацию о части речи. Впрямо противоположном случае, когда различать слова не обязательно, подобноесовпадение может сослужить добрую службу.
Однокоренные слова чаще всегоотносятся примерно к одному и тому же понятию («любить» означает«продуцировать любовь»). В связи с этим при сравнении текстов целиком такиепонятия не будут размываться, а скорее наоборот – будут давать совместный вклад врезультат сравнения. Однако в случае стемминга весьма вероятно смешениеразличных понятий. Так к стему глагола «люб-ить» будет отнесен и глагол «любоваться» (ведь у него есть форма «люб-уюсь»), что приводит к смешению различныхпонятий.Для слов, подверженных флексии, т.е. замене букв в корне слова, беретсянесколько стемов.
Так, например, для слова «шов» будет образовано два стема: «шов»и «шв», а для слова «идти» - «ид», «ше» и «шл». Это не позволяет идентифицироватьих как одно со всеми вытекающими последствиями. Для решения этой проблемысоздаются сложные парадигмы, объединяющие несколько стемов.Собственно анализ в подобных системах будет проводиться аналогичнымобразом с лексической морфологией. Однако здесь возможны два варианта.
В первомслучае мы храним как стемы, так и парадигмы изменения и алгоритм анализа исинтеза не претерпевает никаких изменений. Во втором случае хранится только наборпарадигм. В этом случае оставшаяся основа и будет являться искомым стемом. Измножества полученных стемов выбирается, например, самый короткий или самыйдлинный. Также применяется вариант, когда проводится анализ последнихнескольких букв стема: наречия, имеющие пустое окончание, заканчиваются на «-о»или «-е», некоторые глаголы на «-ова-» или «-ева-» и т.д. Это также помогает отсеятьряд результатов.Морфология на основе стемминга обладает рядом достоинств.
Так, например, засчет упрощения алгоритма и уменьшения объема выдаваемой информациисущественно (до нескольких раз) возрастает скорость анализа, а при использованиилишь массива парадигм сокращается объем хранимых баз. Главным достоинствомморфологии на основе стемминга является тот факт, что при отсутствии словаряоснов мы фактически получаем морфологическую базу неограниченного объема,настраиваемую непосредственно на имеющийся текст. Это очень удобно присоздании информационно-поисковых систем с нефиксированной лексикой. В этомслучае при индексировании текстов мы получаем некоторый набор стемов, которые изаносим в индекс. При этом морфология никогда не сообщает нам, что такого слованет в словаре.119Однако подобный подход не лишен недостатков.