Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 37

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 37 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 372017-12-212017-12-21СтудИзба

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 37)

Исключение можно делать для парадигм не изменяющихся слов(т.е. содержащих единственную позицию в парадигме).4. Псевдоосновы несловарных словоформ, объединяемых в рамках однойпарадигмы, должны содержать хотя бы один символ.После кластеризации проводится отсеивание полученных лексем по критериюмаксимальной встречаемости словоформ, вошедших в лексему. Т.е. для каждогослова определяется, сколько раз оно встретилось в тексте. Далее эти значениясуммируются по парадигмам и оставляются лишь парадигмы с максимальной сумой.Получаемые результаты будут существенно зависеть от типа используемойморфологии.

Для стемминга будут объединяться все слова, обладающие однойпсевдоосновой. Так, в одну парадигму в зависимости от алгоритма выделенияпсевдоосновымогутпопастьслова«компьютер»,«компьютерный»,«компьютеризация» и т.д. При использовании лемматизации результаты зависят отсписка используемых параметров. При полном отсутствии таковых словаобъединяются без образования альтернатив.

Однако полный набор параметровсоздает проблемы. Среди прочего, это связано с тем, что в русском языке встречаютсяпарадигмы, объединяющие один и тот же набор флексий, однако приписывающие имразличные наборы параметров. Так, для слова «админ» можно породить лексемы,показанные на Рис. 3.3. Здесь «-» означает пустой постфикс. В скобках написанысловарные представители парадигмы. Из приведенных примеров видно, что дажеодин и тот же набор словоформ может быть различным образом размещен вразличных парадигмах.Единственное числоим.род.вин.

дат.тв.пр.АДМИН (ТЕЛЕФОН) м.р., неодушАУОМЕАДМИН (ТОН) м.р., неодушАУОМЕАДМИН (БАЛ) м.р., неодушАУОМЕ/УАДМИН (АКТИВИСТ) м.р., одушААУОМЕАДМИН (ОПЕР) м.р., одушААУОМЕМножественное числоим.род.вин. дат.тв.пр.АДМИН (ТЕЛЕФОН) м.р., неодушЫОВЫАМ АМИАХАДМИН (ТОН) м.р., неодушА/ЫОВА/ЫАМ АМИАХАДМИН м.р., неодушЫОВЫАМ АМИАХАДМИН (АКТИВИСТ) м.р., одушЫОВОВАМ АМИАХАДМИН (ОПЕР) м.р., одушА/ЫОВОВАМ АМИАХРис. 3.3. Пример неоднозначности предсказания слова по всем егословоформамБольшое количество ошибок, встречающихся в любых текстах, зашумляет выходсистемы лемматизации и требует длительного ручного труда по отделениюкорректных вариантов от ошибочных.

К счастью, возможностей для ошибкипредоставляется очень много, и поэтому большинство ошибок встречается один илидва раза и отсеиваются на этапах фильтрации или кластеризации. Однако некоторыеошибочные словоформы могут войти в состав других парадигм, изменив тем самымрезультаты кластеризации не в лучшую сторону.

Кроме того, у многих авторовсуществуют так сказать «любимые» ошибки, когда одна и та же ошибка допускаетсямногократно в различных словоформах.117Однако даже небольшая автоматизация процесса предсказания парадигмнесловарных слов позволяет существенно повысить производительность трудалингвистов в ходе формирования словарей. Кроме того, в ряде задач можетиспользоваться не лемматизация, а, например, обсуждаемый ниже стемминг, в ходекоторого лексические параметры указываться не будут. В этом случае необходимосгенерировать (в том или ином виде) нормальную форму слова и указанные вышепроблемы окажутся неактуальны.

В этом случае возможно создание полностьюавтоматической процедуры пополнения словарей.§ 2.3.Методы бессловарного морфологического анализаБессловарные морфологические словари появились во времена, когдаоперативная память была существенно ограничена. Однако на данный моментнесколько мегабайт или даже десятков мегабайт оперативной памяти не составляютпроблемы, в связи с чем наибольшее распространение получили словарныеморфологии. Существенным плюсом бессловарных морфологий является то, что нимогут предсказать морфологические характеристики практически любого слова, еслиего парадигма изменения попадает под одну из хранимых.

Классическим примеромздесь является предложение «Глокая куздра штеко будланула бокра и курдячитбокрёнка», предложенное одним из основоположников отечетственного языкознанияакадемиком Л.В. Щербой еще около 1930 года при чтении курса лекций «Основыязыкознания». Из этого предложения мы можем понять, что «куздра» имеет женскийрод, единственное число, именительный падеж и т.д.

и разобрать синтаксиспредложения, при этом совершенно не понимая, о чем идет речь. С другой стороны,наша уверенность в том, что куздра имеет женский род во многом основывается нарезультатах неявно проводимого синтаксического анализа, который говорит о том,что «глокая» является прилагательным в женском роде и согласуется со словом«куздра».Бессловарные морфологии хранят парадигмы слов. При этом в парадигме вкачестве постфикса может храниться только окончание.

Часто в бессловарнойморфологии может храниться набор приставок и суффиксов и привязанная к нимсемантическая информация. Например, про суффиксы «-онок-» и «-ёнок-» будетнаписано, что их добавление обозначает детеныша животного, а приставка «при-»означает присоединение или приближение.Анализ и синтез в бессловарных морфологиях ведется так же, как и в словарных,но без поиска по дереву префиксов и с учетом возможности выделения несколькихпоследовательно идущих постфиксов.Однако такой подход часто приводит к существенным ошибкам. Так, например,«октябрёнок» может стать детенышем «октября» (что формально верно), «припевать»будет трактоваться как «приближение + певать» или «присоединение + певать», а«перебиваться» - возвратной несовершенной формой от «перебить», причем не ясноот какого из значений: прервать, уничтожить или прибить заново.

При этом также несовсем понятно, какой вид возвратной формы будет иметься ввиду: перебивать себяили перебивать самому. При этом на самом деле возвратная форма от «перебить»будет подразумевать совсем иное значение – «обойтись без чего-либо», хотя вариант«перебить себя» представляется маловероятным, но не невозможным.Для бессловарных морфологий существовали алгоритмы, позволявшие избегатьэтих ошибок.

Так, например, для сочетания «пере+бивать+ся» можно в явном виде118прописать значение слова. Но в итоге мы получаем словарную морфологию соспециальным алгоритмом архивирования базовых понятий, для которых нетисключений.Также выделяют системы на основе стемминга. В случае стемминга зачастуюотбрасывается вся морфологическая информация, а в качестве нормальной формыберется неизменяемая псевдооснова, называемая стем.

Так, для слова «мама» стемомбудет являться строка «мам». Именно эта основа и используется в дальнейшем дляидентификации слова во всех его формах. Неудобство состоит в том, что дляразличных слов может порождаться один и тот же стем, например, «люб-овь» и «любить». В случаях, когда необходимо различать эти понятия (например, при поиске словв тексте), возможен единственный вариант – хранить информацию о части речи. Впрямо противоположном случае, когда различать слова не обязательно, подобноесовпадение может сослужить добрую службу.

Однокоренные слова чаще всегоотносятся примерно к одному и тому же понятию («любить» означает«продуцировать любовь»). В связи с этим при сравнении текстов целиком такиепонятия не будут размываться, а скорее наоборот – будут давать совместный вклад врезультат сравнения. Однако в случае стемминга весьма вероятно смешениеразличных понятий. Так к стему глагола «люб-ить» будет отнесен и глагол «любоваться» (ведь у него есть форма «люб-уюсь»), что приводит к смешению различныхпонятий.Для слов, подверженных флексии, т.е. замене букв в корне слова, беретсянесколько стемов.

Так, например, для слова «шов» будет образовано два стема: «шов»и «шв», а для слова «идти» - «ид», «ше» и «шл». Это не позволяет идентифицироватьих как одно со всеми вытекающими последствиями. Для решения этой проблемысоздаются сложные парадигмы, объединяющие несколько стемов.Собственно анализ в подобных системах будет проводиться аналогичнымобразом с лексической морфологией. Однако здесь возможны два варианта.

В первомслучае мы храним как стемы, так и парадигмы изменения и алгоритм анализа исинтеза не претерпевает никаких изменений. Во втором случае хранится только наборпарадигм. В этом случае оставшаяся основа и будет являться искомым стемом. Измножества полученных стемов выбирается, например, самый короткий или самыйдлинный. Также применяется вариант, когда проводится анализ последнихнескольких букв стема: наречия, имеющие пустое окончание, заканчиваются на «-о»или «-е», некоторые глаголы на «-ова-» или «-ева-» и т.д. Это также помогает отсеятьряд результатов.Морфология на основе стемминга обладает рядом достоинств.

Так, например, засчет упрощения алгоритма и уменьшения объема выдаваемой информациисущественно (до нескольких раз) возрастает скорость анализа, а при использованиилишь массива парадигм сокращается объем хранимых баз. Главным достоинствомморфологии на основе стемминга является тот факт, что при отсутствии словаряоснов мы фактически получаем морфологическую базу неограниченного объема,настраиваемую непосредственно на имеющийся текст. Это очень удобно присоздании информационно-поисковых систем с нефиксированной лексикой. В этомслучае при индексировании текстов мы получаем некоторый набор стемов, которые изаносим в индекс. При этом морфология никогда не сообщает нам, что такого слованет в словаре.119Однако подобный подход не лишен недостатков.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Тип материала

Книга

Предмет

Системы автоматизированного проектирования (САПР)

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

bolshakova-e.i.-i-dr.-avtomaticheskaya-obrabotka-tekstov-na-estestvennom-yazyke-i-kompyuternaya-lingvistika-1206463058-1513861681.rar

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.