Лекции-2016 (1126938), страница 13

Файл №1126938 Лекции-2016 (Лекции 2016 года) 13 страницаЛекции-2016 (1126938) страница 132019-05-112019-05-11СтудИзба

Лекции 2016 года

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 13)

1993]• Предлагает простую генерирующуюмодель для получения F из E=e1, e2, …eI– Выбрать длину J предложения F=f1, f2, …fJ– Выбрать выравнивание A=a1, a2, …aJ–Получить F из EОбработка текстовПример0NULL123456Mary didn’t slap the green witch.Maria no dió una bofetada a la bruja verde.123330 465Обработка текстовПодсчет P(F|E)• Обозначения–Длина предложения на языке E равна I–Длина предложения на языке F равна J–Вероятность длины предложения в F равнаP(J|E)• Model 1: Предположим что всевыравнивания A равновероятныJ(их (I + 1) )• Тогда условная вероятность(выравниваний):Обработка текстовПодсчет P(F|E)• Пусть t(fx,ey) вероятность перевода словаey в слово fx• Определим P(F|E)Обработка текстовДекодирование• Цель: найти наиболее вероятноевыравнивание• Так как различные переводы для каждой позиции jнезависимы, максимум произведения достигаетсяпри максимуме каждого терминаОбработка текстовТренировка моделейвыравнивания• Если есть выровненный вручную корпус, томожно оценить параметры модели IBM 1через метод максимальногоправдоподобия• Часто такого корпуса нет.

В этом случаеприменяют EM-алгоритмОбработка текстовEM-алгоритм для выравнивания• Выбираем начальные параметры• Пока не сойдется выполняем:–E-шаг: Вычисляем вероятность всехвыравниваний с помощью текущей модели–M-шаг: Используем эти вероятности дляпереоценки значений всех параметров моделиДля сокращения времени работы используетсяалгоритм динамического программированияОбработка текстовПримерthe housela casaТренировочный green housecasa verdeкорпусverdeВероятностипереводаВычисляемвероятностивыравниванияP(A, F | E)casagreen 1/3house 1/31/31/31/31/3the 1/31/31/3green housecasa verdegreen housecasa verdeПредполагаем начальныевероятности равнымиthe housela casathe housela casa1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9НормализуемP(A | F, E)P (A|E, F ) =laP (A, F |E)A P (A, F |E)Обработка текстовПримерgreen housecasa verde1/2green housecasa verde1/2verdeСчитаемвесапереводовcasalagreen 1/2house 1/21/20the 01/21/2casalagreen 1/2house 1/41/201/21/4the 01/21/2verdeНормализуеми получаемP(f | e)the housela casa1/21/2 + 1/2 1/2the housela casa1/2Обработка текстовПримерverdeВероятностипереводаcasalagreen 1/2house 1/41/201/21/4the 01/21/2Пересчитываем green houseвероятностиcasa verdeвыравнивания 1/2 X 1/4=1/8P(A, F | E)green housethe housethe housecasa verdela casala casa1/2 X 1/2=1/4 1/2 X 1/2=1/4 1/2 X 1/4=1/8JP (A, F |E) =j=1t(fj |eaj )Нормализуеми получаемP(A | F, E)Продолжаем алгоритм до сходимостиили ограниченное число шаговОбработка текстовВыравнивание фраз• Мы обсудили как выравнивать слова ипереводить текст по словам• Теперь перейдем к фразамОбработка текстовВыравнивание фразОбработка текстовВыравнивание фраз• Существует несколько эвристическихметодов выравнивания фраз по матрицепересеченийОбработка текстовИзвлечение фразGoogle (Slav Petrov, SYRCoDIS’11):Выбираем все консистентные выравниванияОбработка текстовДекодирование• Аналог Витерби: выбрать предложение eмаксимизирующее P(e) x P( f | e )Обработка текстовОценка моделей• Оценка людьми– плавность– достоверность• адекватность (по фиксированной шкале)• информативность (ответ на вопрос по переводу)• Автоматическая оценка– сравнение с одним или несколькими экспертнымипереводами– Меры качества• BLEU (Bilingual evaluation understudy)• NIST• TER• METEORОбработка текстовОценка моделей: BLEU• Определить число N-грамм из машинногоперевода в экспертных переводах• Вычислить модифицированную меруточностиОбработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch greenCand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 1 точность по 1-граммам: 5/6Обработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 1 точность по 2-граммам: 1/5Обработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Для каждой N-граммы счетчик не долженпревышать максимального количества этойn-граммы в любом предложенииCand 2 точность 1-грамм: 7/10Обработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 2 точность 2-грамм: 4/9Обработка текстовМодифицированная точность• Среднее геометрическое всех N-граммам(обычно N < 5)Cand 1:Cand 2:Обработка текстовШтраф за краткость• Сложно посчитать полноту (recall) из-занескольких экспертных мнений• Вместо этого используется штраф закраткость• Пусть r - длина экспертного предложенияс наибольшим количеством совпадающихN-грамм.

Пусть с - длина машинногопереводаОбработка текстовПодсчет BLEU• В итоге: BLEU = BP x pCand 1: Mary no slap the witch green.Best Ref: Mary did not slap the green witch.Cand 2: Mary did not give a smack to a green witch.Best Ref: Mary did not smack the green witch.Обработка текстовЛучшие данные - много данныхby GoogleОбработка текстовЛучшие данные - много данныхby GoogleОбработка текстовЛучшие данные - много данныхby GoogleОбработка текстовЗаключение• Трудность перевода заключается в существенныхразличиях между языками• Классические подходы: прямой перевод,преобразование, интерлингва• Для статистического машинного переводаприменяется модель зашумленного канала,комбинирующая модель перевода и языковуюмодель• Для выравнивания слов в двуязычных корпусахприменяются формальные модели, например, IBMModel 1• Для оценки систем используются различныеметрики: BLEU, TER, METEOR.Обработка текстовСледующая лекция• Тематическое моделированиеОбработка текстовОсновы обработки текстовЛекция 12 Тематическое моделированиеОбработка текстовТематическое моделирование(Topic Modelling)• Тематическая модель коллекциитекстовых документов определяет к какимтемам относится каждый документ и какиеслова (термины) образуют каждую тему• Тема - набор терминов, неслучайно частовстречающихся вместе в относительноузком подмножестве документовОбработка текстовЗадача тематическогомоделирования• Вход– D - коллекция текстовых документов• Задача– Для каждого документа определить к какимтемам и в какой степени он принадлежит– Для каждого слова определить к каким темами в какой степени это слово принадлежит• Задача мягкой кластеризации• Тематическую модель можноиспользовать как языковую модельОбработка текстовПрименение• Кластеризация документов• Определение близости и рекомендательныесистемы– Определить насколько похожи интересыпользователей Твиттера на основе их постов• Уменьшение размерности– Возможность решать задачу классификации впространстве меньшей размерности• Семантический поиск• Анализ и агрегирование новостных потоков• Поиск научной информации и фронтаисследованийОбработка текстовОсновные предположения• Порядок документов в коллекции не важен• Порядок слов в документе не важен• Предварительная обработка– Лемматизация или стемминг– Выделение терминов и словосочетаний– Удаление стоп-слов и слишком редкихсловОбработка текстовВероятностная формализация• Для каждой темы t и документа d зададимвероятность темы в документе p(t|d)• То же самое сделаем для слов и тем:p(w|t) - вероятность встретить слово w втеме t• Предположим что слова в документезависят только от темы p(w|d, t) = p(w|t)• Вероятностная модель порождениядокументаp(w|d) =Xt2Tp(w|d, t)p(t|d) =Xt2Tp(w|t)p(t|d)Обработка текстовГенерация документов• Пусть мы хотим сгенерировать документ в 100 слов.Документ написан про футбол (на 0.7), про пиво (на 0.2)и про космические ракеты (на 0.1)1.

Выбираем тему t для первого слова (каждая тема t выбирается свероятностью p(t|d))2. Из этой темы выбираем слово w (слово w выбирается свероятностью p(w|t))3. Повторяем шаги 1 и 2 для остальных 99 слов• Как видим, слова генерируются независимо друг от другаОбработка текстовПримерОбработка текстовПринцип максимума правдоподобия• Правдоподобие - плотность распределения выборкиnYY Yndwp(D) =p(di , wi ) =p(d, w)i=1d2D w2d– ndw - число вхождений термина w в документ d• Обозначим– wt - распределение терминов по темам– ✓td - распределение тем по документам• Задача: найти максимум (логарифма) правдоподобияXXXL( , ⇥) =ndw lnwt ✓td ! maxd2D w2dt2Tс ограничениями8tXwp(w|t) = 1, 8d8t, w p(w|t)Xtp(t|d) = 10, 8d, t p(t|d)0Обработка текстовПринцип максимума правдоподобия• Правдоподобие - плотность распределения выборкиnYY Yndwp(D) =p(di , wi ) =p(d, w)i=1d2D w2d– ndw - число вхождений термина w в документ d• Обозначим– wt - распределение терминов по темам– ✓td - распределение тем по документам• Задача: найти максимум (логарифма) правдоподобияXXXL( , ⇥) =ndw lnwt ✓td ! maxd2D w2dt2T8tXp(w|t) = 1, 8dXКудас ограничениямиделся множитель p(d)?w8t, w p(w|t)tp(t|d) = 10, 8d, t p(t|d)0Обработка текстовНекоторые постановки задачи• Можно не делать предположение обаприорном распределении слов по темам итем по документам (PLSA: вероятностныйлатентный семантический анализ)• Можно предполагать, что распределенияслов по темам и тем по документамполучены из распределения Дирихле (LDA:скрытое размещение Дирихле)• Можно учитывать редкие и общие слова(Robust PLSA)Обработка текстовPLSA• PLSA не делает никаких предположенийотносительно распределений• Параметры будем оценивать с помощьюEM-алгоритма–Оцениваем число слов в документе d,порожденных темой t–Уточняем распределения документов по темам–Уточняем распределение тем по словам• По правилу Байесаp(w|t)p(t|d)wt ✓tdp(t|d, w) ==Pp(w|d)s2T ws ✓sdОбработка текстовУточнение распределениятем по документам• Е-шаг: Оценка числа слов из темы– Оцениваем число слов документа d, порожденных изтемы tntd =Xwnwd Pwt ✓tdtwt ✓td• М-шаг: Оценка вероятности темы в документе✓tdntd= p(t|d) =ndОбработка текстовУточнение распределенияслов по темам• Е-шаг: Оценка числа слов из темы–Оцениваем число слов в теме tnwt =Xdnwd Pwt ✓tdtwt ✓td• М-шаг: Оценка вероятности темы в документеwtnwt= p(w|t) =ntОбработка текстовНедостатки PLSA• PLSA переобучается, т.к.

Характеристики

Тип файла

PDF-файл

Размер

7,46 Mb

Материал

Лекции 2016 года

Тип материала

Лекции

Предмет

Основы обработки текстов

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов лекций

Лекции 2016 года

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.