Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 40

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 40 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 402020-08-252020-08-25СтудИзба

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 40)

Так, если в корпусе текстовнам ни разу не встретилась определенная комбинация слов, то можно считать, что онавообще не должна встречаться в текстах. Таким образом, если мы встретили ее вреальном тексте, то часть входящих в нее омонимов может быть отброшена.Значение n обычно принимается равным трем, так как биграммы обладаютслишком малой историей и в дальнейшем не дают хороших результатов, а 4-граммыпорождают слишком большое количество вариантов. При порождении n-граммколичество вариантов может быть уменьшено последующей их обработкой. Так,например, может оказаться, что для некоторой пары слов, стоящей в началетриграммы, существует полный набор вариантов для третьего слова, причемвероятность их появления примерно равна.

Это будет означать, что первые два словане определяют третье, и весь набор троек может быть удален как неинформативный.Подобный подход работает лишь в ситуации, когда мы выбираем наиболее вероятныйвариант. При отсеивании наименее вероятных омонимов сам факт наличия подобныхтроек в базе будет означать, что у третьего слова не может быть удалено ни одногоомонима.Приведенный метод позволяет учитывать согласование параметров слов. Длякаждой триграммы можно хранить лишь те значения лексических параметров,которые совпадают у отдельных комбинаций или всех слов в n-грамме. В методеследует различать знаки препинания, не сводя их, например, к одной части речи, таккак роли, например, запятой и двоеточия в предложениях существенно различны.Описанный метод позволяет получить точность снятия омонимии до 95% привыборе единственного наиболее вероятного варианта (при полном снятии омонимии)и порядка 99% (в зависимости от степени снятия) при отсеивании наименеевероятных вариантов (при частичном снятии омонимии).Существует несколько методов, применяющих информацию об n-граммах.Наивный классификатор Байеса – это наиболее простой вид теггера (программыморфологической разметки, возможно, совмещенной со снятием омонимии),обучающегося на эталонном корпусе, который применяется для снятия омонимии с125помощью лексических параметров соседних слов, используя варьируемое окноконтекста.

Классификатор Байеса основывается на том предположении, что всепараметры статистистически не зависимы между собой. В задаче снятия омонимииконтекст, в котором появляется омонимичное слово представляется наборомпараметров (F1;F2; … ; Fn), а значение самого омонимичного слова представляетсяклассом (S). Параметры Fi могут быть бинарными и представлять, появляется или неткакое-либо омонимичное слово с некоторым набором слов слева и справа от него.Для наивного Байесовского классификатора суммарная вероятность появлениякомбинации контекстных параметров с данным словом описывается следующимобразом (более подробно теория по данному вопросу изложена в Часть V.§ 1.3):nP(F1 , F2 ,..., Fn , S ) = P(S )∏ P(Fi | S )(3.1)i =1Любой из параметров, который равен нулю, говорит о том, что наше словоникогда не появляется с определенным значением.

Забегая несколько вперёд, скажем,что такие значения сглаживаются путём присвоения им по умолчанию оченьмаленькой вероятности. В общем случае, каждый параметр Fi может входить ссоответствующим весовым коэффициентом в выражение 3.1. Знаки препинания могутучитываться или нет, в зависимости от конкретной реализации системыавтоматической обработки текста. В системах автоматической обработки тестакапитализация слов, как правило, никогда не учитывается. Окно контекста можетохватывать только левых, только правых или сразу левых и правых соседей слова.Выбор размера окна контекста оптимальным образом - это отдельная задача.Как уже было отмечено, статистическое моделирование естественного языкапредназначено для морфологической разметки текста с помощью закономерностей,которые не могут быть получены в явной аналитической форме.

Здесь возникаетпроблема выбора наиболее подходящей статистической модели q(x), которая быучитывала все особенности обучающей выборки. Таким образом, сама обучающаявыборка является ограничениями, которые накладываются на q(x). Обратимся ктакому понятию как энтропия, которое является основным для теории информации.Энтропия - это мера априорной неопределенности системы.

Энтропия обладаетследующими полезными свойствами: обращается в ноль, когда одно состояниесистемы достоверно, а другие невозможны; при заданном числе состоянийобращается в максимум, когда эти состояния равновероятны68. Согласно принципумаксимальной энтропии, вид модели q(x) подбирается таким образом, чтобымаксимизировать предмет энтропии H(q), не делая никаких дополнительныхпредположений для последовательности из N слов, не представленных в обучающейвыборке.

Принцип максимальной энтропии записывается в следующем виде:H (q) = −∑x q( x) log q( x)(3.2)Средний показатель энтропии для английских текстов составляет 6-10 бит наслово, который может зависеть от вида N-граммной модели и жанра текста. В рамкахзадачи по разметке текста, энтропия – это среднее число бит, нужное, чтобыопределить значение слова в данной обучающей выборке. Показатель связанности(perplexity) – это среднее геометрическое количество слов, которое может оказыватьВ случае N-граммной модели это означает, что вероятность появления N-граммы вычисляется по методумаксимального правдоподобия.68126влияние на неизвестное слово.

Это еще одна стандартная мера для сравнения моделейязыка, которая выражается следующей формулой:PP = 2H(q)(3.3)Следует подчеркнуть, что энтропия это некоторая функция, котораяхарактеризует как саму модель естественного языка, так и имеющуюся обучающуювыборку. Среди двух вероятностных моделей, имеющих одинаковый уровень ошибокпредпочтительнее та, у которой энтропия меньше. Вообще же, количество ошибок иэнтропия не однозначно связаны между собой.В соответствии с принципом максимальной энтропии у нас есть возможностьвыбрать наиболее оптимальную базовую вероятностную модель естественного языка.Но эта базовая модель основана на принципе максимального правдоподобия, которыйне позволяет учитывать неравномерности в обучающей выборке и делать разметкупри неполной информации.69 Разумеется, что от системы по автоматическойобработке текста требуется, чтобы она обрабатывала как можно более широкий кругтекстов, а не только тот, что был представлен в обучающей выборке70. Такимобразом, сглаживание используется, а зачастую просто необходимо, в том случае,когда для обучения доступен небольшой корпус, и есть возможность получитьнулевые вероятности для последовательности слов, не представленных в обучающейвыборке.

Цель сглаживания сделать распределение более равномерным, другимисловами, повысить вероятности для последовательностей слов, которые встречаютсяредко или вообще не встречаются и, соответственно, несколько снизить вероятностидля комбинаций слов, которые часто встречаются. Как правило, методы сглаживанияпозволяют повысить качество работы триграммных тэггеров и, тем более, тэггеров наоснове скрытых марковских моделей высоких порядков.Различные методы сглаживания N-граммной вероятностной модели позволяютподобрать оптимальную71 статистическую модель естественного языка. Проблемувыбора оптимального тэггера попробуем обрисовать на следующем примере.Предположим, что у нас есть обучающее множество X = {x1,x2,…,xN} и нам нужнополучить распределение вероятностей q(x).

В самом простом случае, мы используеммаксимум правдоподобия иполагаем, что q(x) совпадает с эмпирическимраспределением p`(x) = c(x) / N, где c(x) – число раз, которое встречалось слово x, а N– размерность обучающей выборки. Но в таком случае, мы придём к переобучениюмодели и не сможем разбирать N-граммы, не представленные в обучающей выборке.Другими словами, необходимо чтобы q(x) соответствовала только наиболее значимымсвойствам распределения p`(x).Для наглядности, приведем примеры. Предположим, что x = (w1; w2), где w1 иw2 английские слова, которые появляются в некотором большом корпусе английскихтекстов. Таким образом, задача сводится к оценке частоты появления биграмм, вданном случае, в английском языке.

Предположим биграмму, которая не появляется вобучающем множестве – «PIG DOG». Имеем, p(PIG DOG) = 0 , но интуитивно мыхотим, чтобы p(PIG DOG) > 0, т.к. эта биграмма имеет некий шанс появиться. ЕщеТакая модель плохо размечает или вообще не размечает последовать из N слов, не представленных вобучающей выборке.70Теоретически, при наличии представительной обучающей выборки, по предельной теореме перейдем отчастот появления N-грамм к вероятности их появления, и с помощью принципа максимального правдоподобияполучим наиболее оптимальную вероятностную модель автоматической обработки текста.

Имеющимисясовременными средствами на практике такое не достижимо.71Строго говоря, на практике обычно подбирается субоптимальная модель естественного языка.69127один пример, предположим, что слово «Mateo» может появляться только после слова«San» в обучающем корпусе (биграмма «San Mateo»). Таким образом, имеем, что p(w1 Mateo) = 0 для всех w1 ≠ San, но интуитивно, мы хотим, чтобы p(x) > 0 для всех w1,а не только для w1 = San. Мы хотим, чтобы наша модель максимально хорошоразбирала случаи, представленные в обучающей выборке и, также максимальнохорошо разбирала неизвестные случаи.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

avt.-obrabotka-tekstov-na-estestvennom-jazyke-i-komp.-lingvistika.-bolshakova-2014.pdf.rar

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.