Главная » Просмотр файлов » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 41

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 41 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 412017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 41)

Таким образом,сглаженная модель N-го порядка определяется рекурсивно как линейнаяинтерполяция между моделью максимального правдоподобия и сглаженной модельюпорядка N-1. Чтобы закончить рекурсию, можно взять в качестве сглаженной моделипервого порядка оценку максимального правдоподобия (выражение 3.4), простоесглаживание (выражение 3.5) или предположить равномерное распределениевероятности появления каждого слова:Punif ( wi ) =1V(3.8)Для каждой последовательности слов wесть свой набор весовыхкоэффициентов λw , вычисляемых оптимальным образом.

Последовательности слов,i −1i − n +1i−1i−n+1128которые наблюдались много раз в обучающем корпусе и те, которые встречалисьлишь несколько раз будут иметь разные коэффициенты λ. Чтобы не хранить наборпараметров для каждой последовательности слов и не затягивать процесс обучения,N-граммы объединяются в относительно небольшое число классов72, а коэффициентыλ вычисляются отдельно уже для этих классов.

В выражении (3.8) интерполяцияможет быть нелинейной и тогда общий вид выражения несколько изменится. Естьметоды сглаживания вероятностей, которые больше подходят для большойобучающей выборки, а есть которые подходят для относительно маленькой выборки.Для биграммной модели, обученной на большом корпусе метод сглаживания ChurchGale предпочтительнее, в то время как, сглаживание по методу Katz лучше применятьдля биграмм, полученных с небольшого обучающего корпуса.Для широкопопулярной триграммной модели, впервые описаниеэксперимента по применению взвешенной суммы вероятностей моделей первого ивторого порядка применил Frederick Jelinek в 1980 году. Сглаженная триграммнаямодель содержит линейные комбинации триграммных, биграммных и униграммныхбайесовских вероятностей:Psmooth( wi | wi − 2 * wi −1 ) = λ3 * P(wi | wi −2 * wi −1 ) + λ 2 * P(wi | wi −1 ) + λ1 * P( wi )(3.9), где сумма коэффициентов λ1 + λ2 + λ3 = 1, причем λ1 > 0, λ2 > 0, λ3 > 0.

Значениядля λ1, λ2, λ3, получены решением системы линейных уравнений. В публикацииЧешских исследователей за 1998 год была представлена точность около 93% дляобычного HMM тэггера, а с использованием сглаженной триграммной моделиточность разметки возросла до более чем 95%.Еще одним вариантом устранения омонимии является выделениесловосочетаний.

Входные правила для данного этапа также могут быть порожденыавтоматически. Для каждого слова на основе большого корпуса текстов (необязательно даже размеченного) можно посчитать частоту его встречаемости. Далеемы можем посчитать частоту встречаемости, например, пар слов.

Для тех пар,вероятность встретить которые выше, чем их совместная вероятность, можновысказать предположение, что они являются словосочетаниями. На практике, еслиполученная по анализу корпуса частота встречаемости превосходит в два разатеоретическую, то данная пара гарантированно является словосочетанием.Для словосочетаний большей длины не обязательно учитывать соответствующиекомбинации. Дело в том, что пара слов может оказаться началом многословногословосочетания. Таким образом, обнаружив все двухсловные комбинации мы такжевыделили и кандидатов на многословные.

Если сохранить их позиции в тексте, тоимеется возможность проверить следующие несколько слов на предмет совпадения.За счет этого снимается необходимость анализировать все возможные комбинациислов, количество которых будет существенно расти с ростом длины комбинаций.Применение неразмеченного корпуса требует дальнейшего проведения работ поприписыванию отдельным словам их лексических характеристик.

Во многомразметка будет определяться стоящими перед системой задачами. В некоторыхслучаях будет достаточно выделить сами словосочетания, которые потом будутиспользоваться как единые лексические единицы, например, для определениятематики текста. Для задач синтаксического анализа можно приписать каждомусловосочетанию готовое дерево зависимостей. При машинном переводе необходимо72В английском языке это называется bucketing ( от слова bucket – корзина).129сопоставить ему эквивалент в другом языке. И если первая задача может быть решенаавтоматически на размеченном корпусе со снятой омонимией, то вторая и третьяобычно решаются вручную.Приведенные методы позволяют сравнительно быстро получить высокиерезультаты при условии, что мы имеем доступ к размеченному корпусу текстов соснятой омонимией.

В связи с этим создание подобных корпусов является важнойнаучной и практической задачей. Наиболее полным размеченным корпусом в русскомязыке является Национальный корпус русского языка (www.ruscorpora.ru). Онсодержит в себе тексты различной направленности, для которых проведенморфологический анализ, т.е. каждому слову приписаны его лексическиехарактеристики. Для части корпуса снята омонимия, т.е.

проделана большая работапо выбору корректных наборов лексических параметров. Вообще, созданиепредставительногокорпусаявляетсяважнойнациональнойзадачей,подхлестывающей развитие исследований в области данного языка, егоиспользование. С практической точки зрения корпусом могут пользоваться,например, переводчики. При наличии сомнений о том, каким образом следуетперевести ту или иную фразу, можно задать запрос поисковой системе корпуса исравнить частоту употреблений имеющихся вариантов. При наличии разметки вкорпусе можно проверить корректность фразы с точки зрения синтаксиса. С научнойточки зрения корпус дает богатый материал для изучения структуры языка,используемых в нем слов и фраз, построения предложений, истории развития. Дляэтого корпус должен включать в себя тексты, написанные в разное время в различныхжанрах и относящихся к разным предметным областям.

Обычно в корпуса включаютне только письменные источники, но и живую речь.Но вернемся к разбору словосочетаний. Многие сочетания слов могут иметьнесколько вариантов употребления, в которых они будут или не будут являтьсясловосочетаниями. Так, например, сочетание «так сказать» в различных контекстахтрактуется по-разному. В фразе вида «это, так сказать, явление» оно будет являтьсясловосочетанием, определяющим наше отношение или вариативность произношения,но в предложении «Так сказать нельзя!» оно указывает на невозможностьпроизнесения определенного текста. В связи с этим метод требует обязательнойручной доработки результатов, полученных автоматически.Заметим, что в разобранном случае словосочетание будет трех- или дажечетырехсловным, включающим в себя еще одну или две запятые.

Та же самая фраза,но с внесенной в нее запятой («Так сказать, нельзя!») будет показывать, что мыпытаемся сформулировать запрет в другом виде («Всё это сделать весьма и весьмазатруднительно. Так сказать, нельзя!»). Таким образом, после выделения пар слов,претендующих на роль словосочетаний, необходимо анализировать контекст нетолько справа, но и слева от них. Кроме того, расширение контекста может привестик получению более однозначных словосочетаний за счет возможной потери болеекоротких и чаще встречающихся.§ 3.2.Постморфологический анализПредсинтаксический анализ необходим для выделения элементов текста,морфологического анализа этих элементов, разделения сложносоставных элементовна части, объединение простых связанных по смыслу элементов в группы, выделениефрагментов текста, которые могут разбираться самостоятельно.

Его название130показывает место предсинтаксического анализа в общей системе: передсинтаксическим анализом. Задачей предсинтаксического анализа является подготовкаданных для синтаксического анализа в наиболее удобной форме, максимальнооблегчающей выполнение задачи последнему.На вход системы поступает текст. В первую очередь необходимо определитьединицы этого текста: абзацы, предложения, отдельные слова и знаки препинания. Вотличие от систем машинного перевода, диалоговым системам нет необходимостивыделять заголовки, сноски, комментарии, врезки и прочие элементы текста,необходимые для сохранения форматирования. Подобное форматирование текстаможет понадобиться диалоговой системе только для приобретения новых знаний изсуществующих текстов, однако создание систем, способных на подобные экзерсизы –дело будущего.

Выделение всех описанных элементов текста (как слов, так и врезок)является задачей графематического анализа.Выделение абзацев в современных редакторах является тривиальной задачей. Вних уже существует разметка на абзацы. При полностью текстовом вводе абзацызачастую отмечаются символом перевода строки. В начале абзаца часто ставят два иболее пробела или пробельную строку. В случае, когда каждая строка текстаоканчивается символами конца строки, задача выделения абзаца может потребоватьспециальных знаний о структуре данного текста.Задача выделения предложений менее тривиальна.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее