Главная » Просмотр файлов » Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014)

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 35

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 35 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 352020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 35)

Но эти вопросы не входят сейчасв наше рассмотрение.Кратко изложив последовательность этапов, в той или иной степенинеобходимых для обработки текста, рассмотрим теперь более подробно особенностиреализации каждого из этих этапов.108Глава 2.§ 2.1.Морфологический анализ и синтезСловарный морфологический анализ и синтезДля того чтобы подчеркнуть различия в употреблении слов люди придумалиформы слов или словоформы. Однако какова бы ни была словоформа, она выражаетодно и то же понятие. Обсуждая понятие само по себе, принято использовать егонормальную форму – просто одну из словоформ, выделенную для обозначенияпонятия.

Т.е., если у нас есть слово «мама», то для него существует несколько форм:мамы, маме, маму и т.д. К каждой форме приписывается ряд характеристик илипараметров (род, падеж, число), характеризующих данную словоформу. Такжекаждому слову приписывается часть речи, показывающая, какого рода понятием мыоперируем. В речи мы привыкли к тому, что в данном месте должно стоять слово сзаданной частью речи в определенной форме, но при машинной обработке подобныеинтуитивные рассуждения должны быть формализованы.

Кроме того, подобноеразнообразие вносит известные проблемы при анализе текста. Вместо того, чтобыработать с единственным словом, мы вынуждены обрабатывать все его словоформы.Для того чтобы избежать подобной ситуации были введены этапы морфологическогоанализа и синтеза.Задачей морфологического анализа является определение по словоформенормальной формы, от которой была образована данная словоформа, и наборапараметров, приписанных к данной словоформе. При этом может оказаться, чтоодной словоформе может быть сопоставлено несколько таких пар.Задача морфологического синтеза прямо противоположная. Здесь необходимопо нормальной форме и набору параметров получить словоформу.Дадим более формальные определения, необходимые для рассмотрения этихэтапов.Нормальная форма слова – это форма слова (строка), принятая для обозначенияпонятия, связанного с данным словом.

Обычно считается, что от нормальной формыобразуются все остальные формы слова. Однако в таких случаях, как «идти – шел»,связь между нормальной формой и словоформой не прослеживается. В связи с этимбудем считать, что нормальная форма всего лишь одна из словоформ данного слова,выделенная согласно традиции данного языка. Словоформа – это форма слова(строка), связанная с нормальной формой слова и указывающая на особенностиупотребления данного слова. Будем считать, что словоформа характеризуетсяпятеркой – строкой словоформы; частью речи; нормальной формой, от которой былаобразована данная словоформа; частью речи нормальной формы; наборомморфологических параметров, приписываемых к данной словоформе. Часть речинормальной формы нам необходима, так как, например, деепричастие удобно считатьформой глагола, а не выводить в отдельное слово.Список основных частей речи в целом уже устоялся, хотя различныеисследователи всё еще спорят о составе служебных частей речи.

При реализацииконкретного морфологического словаря важно с самого начала определиться с ихсписком, так как его изменение потом может оказаться дорогостоящей операцией.Для практических задач удобна любая из имеющихся логически обоснованныхсистем деления слов на части речи. В связи с этим мы не будем обсуждать здесьразличные подходы к классификации слов.109Морфологический параметр – это пара <имя параметра, значение параметра>.Именем параметра может служить род, число, время, склонение, краткость формыприлагательного и другие признаки слов, принятые в данном языке. Значениепараметра – это конкретное значение, которое может принимать данный признак.Так, например, падеж может быть именительным, родительным, местным,аккузативным; род может быть мужским, женским, средним; число – единственным,множественным, двойственным и т.д.Параметры равны между собой, если равны их имена и значения.

Параметрыравны по имени, если совпадают их имена.В ряде случаев значение параметра определить невозможно или в этом нетнеобходимости. Например, в русском языке существительным во множественномчисле не приписывают род. Также существуют слова, которые имеют только формумножественного числа. Если словам, обладающим единственным числом значениерода может быть приписано из единственного числа, то слова, не обладающиеединственным числом (очки, часы), такой информации лишены полностью. В этомслучае будем считать, что значение параметра принимает фиксированное значение,обозначаемое «0». Примем, что параметр со значением «0» равен другому параметру,если равны их имена.Подобный подход при хранении параметров может быть хорош в целом рядеслучаев.

Так, например, мы можем просто проверять наличие параметра с каким-либозначением. Это может пригодиться для того, чтобы убедиться, что параметр принялзначение, отличное от заданного. Кроме того, мы можем приписать параметр словудля того, чтобы как-то выделить его среди других слов.

В этом случае само наличиепараметра у слова будет нести важную информацию.Однако если нам необходимо просто провести морфологический анализ слов втексте, может использоваться другой подход. Мы можем составить полный переченьвсех значений параметров и дать им уникальные имена. В этом случае мы можемсэкономить место, так как хранится только имя параметра, сохраняя при этомразличительную силу параметров. Но так как имена обычно даются символьные, тостепень экономии зависит от фантазии разработчиков.Вместо символьных имен параметров может использоваться цифровоепредставление.

В этом случае мы можем создать справочник, в котором каждомусимвольному имени параметра будет сопоставлено некоторое уникальное число. Примашинной обработке подобный подход позволит сэкономить место в памяти иускорит процесс выдачи результатов. Заодно он объединит оба подхода, оставивлюдям уникальные и понятные для них символьные имена и предоставив компьютеруиметь дело с более удобным и компактным представлением.При различных подходах слово «мама» может быть записано следующимобразом.мамасущ., женск., одуш., единств., именит.мамасущ., род=женск., одуш=одуш., число=единств., падеж=именит.1234501 0202 0501 1101 1201В последнем случае должен иметься справочник, указывающий, чтосуществительному соответствует код 01, параметр род имеет код 02, а для негоженский род кодируется числом 02 и т.д.

Сопоставлением нормальной формы и еекода занимается сам морфологический словарь. Так, если на анализ подается строка,110то на выходе будет числовой идентификатор, тогда как в синтезе информацияпреобразуется в противоположную сторону: по идентификатору можно получитьстроковую запись слова.Набор параметров для частей речи фиксируется. Среди параметров словавыделяют словообразовательные и формообразовательные. Словообразовательныепараметры не изменяются при изменении слова по формам.

Так, например, слово«мама» остается женского рода в любой своей форме. Формообразовательныепараметры изменяются при изменении слова по формам. Для приведенного примерападеж будет являться формообразовательным параметром. Обычно разделение насловообразовательные и формообразовательные параметры задается для всех слов,принадлежащих одной части речи. При этом словообразовательные параметры дляодних частей речи могут являться формообразовательными для других. Например,параметр рода не меняется у существительных, однако будет образовывать формы уприлагательных и глаголов.

Отнесение части параметров является спорной.Например, переходность глаголов может относиться как к словообразовательным, таки к формообразовательным параметрам, в зависимости от предпочтенийразработчиков и их целей.Формально морфологическая омонимия – это ситуация, когда одной словоформеможно приписать несколько кортежей, содержащих нормальную форму, части речи инабор параметров. Ниже приведены примеры таких ситуаций.мамыМамасущ., ж.р., ед. ч., род. п., одуш.Мамасущ., ж.р., мн.

ч., им. п., одуш.стеклоСтеклосущ., ср.р., ед. ч., им. п., неодуш.Стекатьгл., ср. р., ед. ч., 3 л., нн.ф., пр. вр.дракондраконсущ., м.р., ед. ч., им. п., одуш.(животное)дракон (корабль)сущ., м.р., ед. ч., им. п., неодуш.замокзамок (зáмок)сущ., м.р., ед. ч., им. п., неодуш.замок (замóк)сущ., м.р., ед. ч., им. п., неодуш.Приведенные примеры показывают различные виды омонимии. Подобнаяситуация весьма распространена во многих языках, хотя и в разной мере. Отсутствиеданного явления изрядно сократило бы количество шуток. В [7] приводитсяследующее определение омонимии: «Омонимами (гр.

homos - одинаковый + onyma имя) называются слова, разные по значению, но одинаковые по звучанию инаписанию». При этом различают полные и неполные (частичные) омонимы. Приполной омонимии слова принадлежат к одному грамматическому классу (у них одначасть речи) и все их формы совпадают. Примерами полной омонимии являются слова«дракон» (животное vs корабль), «кошка» (одушевленная vs неодушевленная), «коса»(прическа, отмель, инструмент).

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6381
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее