Главная » Просмотр файлов » Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014)

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 41

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 41 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 412020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 41)

Другими словами, требуется, чтобы системапринимала решения при неполной информации.Прежде чем привести вид сглаженной Марковской модели напомним, что такоеоценка максимального правдоподобия для биграммной модели:PML ( wi | wi −1 ) =P( wi | wi −1 ) c( wi −1 | wi ) / Nw c( wi −1 | wi )==P( wi )c( wi −1 ) / Nwc( wi −1 )(3.4), где Nw – число слов в обучающей выборке, c(wi-1) и c(wi-1 | wi) – число раз,которое встречается строка wi-1 и wi-1 | wi в обучающем корпусе. Нулевая вероятностьбиграммы может привести к ошибкам при распознавании речи. При снятиинеоднозначности с помощью N-граммных моделей высокого порядка можнополучить относительно высокий процент ошибок при низком покрытии текста.Таким образом, чтобы получать более точные оценки вероятностей применяютсяразличные виды сглаживания моделей. Пример самого простого сглаживания этоприбавить единицу к частоте появления биграммы:c(wi −1 | wi ) + 1PML+1 (wi | wi−1 ) =(3.5)c(wi −1 ) + V, где V – размер словаря.Сглаживание биграммнойследующим образом:моделиспомощьюуниграммнойвыглядитPint erp ( w i | w i −1 ) = λ PML ( w i | wi −1 ) + (1 − λ ) PML ( w i )(3.6), где λ – положительной весовой коэффициент.В общем виде выражение для сглаженной Марковской модели N-го порядкаможно записать в следующей форме:Pint erp ( w i | w ii−−1n +1 ) = λ w i −1 PML ( w i | w ii−−1n +1 ) + (1 − λ w i −1 ) Pint erp ( w i | w ii−−1n + 2 )i − n +1i − n +1(3.7), где PML – оценка максимального правдоподобия для модели предыдущегопорядка (порядка N-1), λ – положительные весовые коэффициенты.

Таким образом,сглаженная модель N-го порядка определяется рекурсивно как линейнаяинтерполяция между моделью максимального правдоподобия и сглаженной модельюпорядка N-1. Чтобы закончить рекурсию, можно взять в качестве сглаженной моделипервого порядка оценку максимального правдоподобия (выражение 3.4), простоесглаживание (выражение 3.5) или предположить равномерное распределениевероятности появления каждого слова:Punif ( wi ) =1V(3.8)Для каждой последовательности слов wесть свой набор весовыхкоэффициентов λw , вычисляемых оптимальным образом. Последовательности слов,i −1i − n +1i−1i−n+1128которые наблюдались много раз в обучающем корпусе и те, которые встречалисьлишь несколько раз будут иметь разные коэффициенты λ. Чтобы не хранить наборпараметров для каждой последовательности слов и не затягивать процесс обучения,N-граммы объединяются в относительно небольшое число классов72, а коэффициентыλ вычисляются отдельно уже для этих классов.

В выражении (3.8) интерполяцияможет быть нелинейной и тогда общий вид выражения несколько изменится. Естьметоды сглаживания вероятностей, которые больше подходят для большойобучающей выборки, а есть которые подходят для относительно маленькой выборки.Для биграммной модели, обученной на большом корпусе метод сглаживания ChurchGale предпочтительнее, в то время как, сглаживание по методу Katz лучше применятьдля биграмм, полученных с небольшого обучающего корпуса.Для широкопопулярной триграммной модели, впервые описаниеэксперимента по применению взвешенной суммы вероятностей моделей первого ивторого порядка применил Frederick Jelinek в 1980 году.

Сглаженная триграммнаямодель содержит линейные комбинации триграммных, биграммных и униграммныхбайесовских вероятностей:Psmooth( wi | wi − 2 * wi −1 ) = λ3 * P(wi | wi −2 * wi −1 ) + λ 2 * P(wi | wi −1 ) + λ1 * P( wi )(3.9), где сумма коэффициентов λ1 + λ2 + λ3 = 1, причем λ1 > 0, λ2 > 0, λ3 > 0. Значениядля λ1, λ2, λ3, получены решением системы линейных уравнений. В публикацииЧешских исследователей за 1998 год была представлена точность около 93% дляобычного HMM тэггера, а с использованием сглаженной триграммной моделиточность разметки возросла до более чем 95%.Еще одним вариантом устранения омонимии является выделениесловосочетаний.

Входные правила для данного этапа также могут быть порожденыавтоматически. Для каждого слова на основе большого корпуса текстов (необязательно даже размеченного) можно посчитать частоту его встречаемости. Далеемы можем посчитать частоту встречаемости, например, пар слов. Для тех пар,вероятность встретить которые выше, чем их совместная вероятность, можновысказать предположение, что они являются словосочетаниями. На практике, еслиполученная по анализу корпуса частота встречаемости превосходит в два разатеоретическую, то данная пара гарантированно является словосочетанием.Для словосочетаний большей длины не обязательно учитывать соответствующиекомбинации.

Дело в том, что пара слов может оказаться началом многословногословосочетания. Таким образом, обнаружив все двухсловные комбинации мы такжевыделили и кандидатов на многословные. Если сохранить их позиции в тексте, тоимеется возможность проверить следующие несколько слов на предмет совпадения.За счет этого снимается необходимость анализировать все возможные комбинациислов, количество которых будет существенно расти с ростом длины комбинаций.Применение неразмеченного корпуса требует дальнейшего проведения работ поприписыванию отдельным словам их лексических характеристик.

Во многомразметка будет определяться стоящими перед системой задачами. В некоторыхслучаях будет достаточно выделить сами словосочетания, которые потом будутиспользоваться как единые лексические единицы, например, для определениятематики текста. Для задач синтаксического анализа можно приписать каждомусловосочетанию готовое дерево зависимостей. При машинном переводе необходимо72В английском языке это называется bucketing ( от слова bucket – корзина).129сопоставить ему эквивалент в другом языке.

И если первая задача может быть решенаавтоматически на размеченном корпусе со снятой омонимией, то вторая и третьяобычно решаются вручную.Приведенные методы позволяют сравнительно быстро получить высокиерезультаты при условии, что мы имеем доступ к размеченному корпусу текстов соснятой омонимией. В связи с этим создание подобных корпусов является важнойнаучной и практической задачей. Наиболее полным размеченным корпусом в русскомязыке является Национальный корпус русского языка (www.ruscorpora.ru). Онсодержит в себе тексты различной направленности, для которых проведенморфологический анализ, т.е.

каждому слову приписаны его лексическиехарактеристики. Для части корпуса снята омонимия, т.е. проделана большая работапо выбору корректных наборов лексических параметров. Вообще, созданиепредставительногокорпусаявляетсяважнойнациональнойзадачей,подхлестывающей развитие исследований в области данного языка, егоиспользование. С практической точки зрения корпусом могут пользоваться,например, переводчики. При наличии сомнений о том, каким образом следуетперевести ту или иную фразу, можно задать запрос поисковой системе корпуса исравнить частоту употреблений имеющихся вариантов.

При наличии разметки вкорпусе можно проверить корректность фразы с точки зрения синтаксиса. С научнойточки зрения корпус дает богатый материал для изучения структуры языка,используемых в нем слов и фраз, построения предложений, истории развития. Дляэтого корпус должен включать в себя тексты, написанные в разное время в различныхжанрах и относящихся к разным предметным областям. Обычно в корпуса включаютне только письменные источники, но и живую речь.Но вернемся к разбору словосочетаний.

Многие сочетания слов могут иметьнесколько вариантов употребления, в которых они будут или не будут являтьсясловосочетаниями. Так, например, сочетание «так сказать» в различных контекстахтрактуется по-разному. В фразе вида «это, так сказать, явление» оно будет являтьсясловосочетанием, определяющим наше отношение или вариативность произношения,но в предложении «Так сказать нельзя!» оно указывает на невозможностьпроизнесения определенного текста. В связи с этим метод требует обязательнойручной доработки результатов, полученных автоматически.Заметим, что в разобранном случае словосочетание будет трех- или дажечетырехсловным, включающим в себя еще одну или две запятые.

Та же самая фраза,но с внесенной в нее запятой («Так сказать, нельзя!») будет показывать, что мыпытаемся сформулировать запрет в другом виде («Всё это сделать весьма и весьмазатруднительно. Так сказать, нельзя!»). Таким образом, после выделения пар слов,претендующих на роль словосочетаний, необходимо анализировать контекст нетолько справа, но и слева от них. Кроме того, расширение контекста может привестик получению более однозначных словосочетаний за счет возможной потери болеекоротких и чаще встречающихся.§ 3.2.Постморфологический анализПредсинтаксический анализ необходим для выделения элементов текста,морфологического анализа этих элементов, разделения сложносоставных элементовна части, объединение простых связанных по смыслу элементов в группы, выделениефрагментов текста, которые могут разбираться самостоятельно.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее