Лекции-2016 (1126938), страница 13
Текст из файла (страница 13)
1993]• Предлагает простую генерирующуюмодель для получения F из E=e1, e2, …eI– Выбрать длину J предложения F=f1, f2, …fJ– Выбрать выравнивание A=a1, a2, …aJ–Получить F из EОбработка текстовПример0NULL123456Mary didn’t slap the green witch.Maria no dió una bofetada a la bruja verde.123330 465Обработка текстовПодсчет P(F|E)• Обозначения–Длина предложения на языке E равна I–Длина предложения на языке F равна J–Вероятность длины предложения в F равнаP(J|E)• Model 1: Предположим что всевыравнивания A равновероятныJ(их (I + 1) )• Тогда условная вероятность(выравниваний):Обработка текстовПодсчет P(F|E)• Пусть t(fx,ey) вероятность перевода словаey в слово fx• Определим P(F|E)Обработка текстовДекодирование• Цель: найти наиболее вероятноевыравнивание• Так как различные переводы для каждой позиции jнезависимы, максимум произведения достигаетсяпри максимуме каждого терминаОбработка текстовТренировка моделейвыравнивания• Если есть выровненный вручную корпус, томожно оценить параметры модели IBM 1через метод максимальногоправдоподобия• Часто такого корпуса нет.
В этом случаеприменяют EM-алгоритмОбработка текстовEM-алгоритм для выравнивания• Выбираем начальные параметры• Пока не сойдется выполняем:–E-шаг: Вычисляем вероятность всехвыравниваний с помощью текущей модели–M-шаг: Используем эти вероятности дляпереоценки значений всех параметров моделиДля сокращения времени работы используетсяалгоритм динамического программированияОбработка текстовПримерthe housela casaТренировочный green housecasa verdeкорпусverdeВероятностипереводаВычисляемвероятностивыравниванияP(A, F | E)casagreen 1/3house 1/31/31/31/31/3the 1/31/31/3green housecasa verdegreen housecasa verdeПредполагаем начальныевероятности равнымиthe housela casathe housela casa1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9НормализуемP(A | F, E)P (A|E, F ) =laP (A, F |E)A P (A, F |E)Обработка текстовПримерgreen housecasa verde1/2green housecasa verde1/2verdeСчитаемвесапереводовcasalagreen 1/2house 1/21/20the 01/21/2casalagreen 1/2house 1/41/201/21/4the 01/21/2verdeНормализуеми получаемP(f | e)the housela casa1/21/2 + 1/2 1/2the housela casa1/2Обработка текстовПримерverdeВероятностипереводаcasalagreen 1/2house 1/41/201/21/4the 01/21/2Пересчитываем green houseвероятностиcasa verdeвыравнивания 1/2 X 1/4=1/8P(A, F | E)green housethe housethe housecasa verdela casala casa1/2 X 1/2=1/4 1/2 X 1/2=1/4 1/2 X 1/4=1/8JP (A, F |E) =j=1t(fj |eaj )Нормализуеми получаемP(A | F, E)Продолжаем алгоритм до сходимостиили ограниченное число шаговОбработка текстовВыравнивание фраз• Мы обсудили как выравнивать слова ипереводить текст по словам• Теперь перейдем к фразамОбработка текстовВыравнивание фразОбработка текстовВыравнивание фраз• Существует несколько эвристическихметодов выравнивания фраз по матрицепересеченийОбработка текстовИзвлечение фразGoogle (Slav Petrov, SYRCoDIS’11):Выбираем все консистентные выравниванияОбработка текстовДекодирование• Аналог Витерби: выбрать предложение eмаксимизирующее P(e) x P( f | e )Обработка текстовОценка моделей• Оценка людьми– плавность– достоверность• адекватность (по фиксированной шкале)• информативность (ответ на вопрос по переводу)• Автоматическая оценка– сравнение с одним или несколькими экспертнымипереводами– Меры качества• BLEU (Bilingual evaluation understudy)• NIST• TER• METEORОбработка текстовОценка моделей: BLEU• Определить число N-грамм из машинногоперевода в экспертных переводах• Вычислить модифицированную меруточностиОбработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch greenCand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 1 точность по 1-граммам: 5/6Обработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 1 точность по 2-граммам: 1/5Обработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Для каждой N-граммы счетчик не долженпревышать максимального количества этойn-граммы в любом предложенииCand 2 точность 1-грамм: 7/10Обработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 2 точность 2-грамм: 4/9Обработка текстовМодифицированная точность• Среднее геометрическое всех N-граммам(обычно N < 5)Cand 1:Cand 2:Обработка текстовШтраф за краткость• Сложно посчитать полноту (recall) из-занескольких экспертных мнений• Вместо этого используется штраф закраткость• Пусть r - длина экспертного предложенияс наибольшим количеством совпадающихN-грамм.
Пусть с - длина машинногопереводаОбработка текстовПодсчет BLEU• В итоге: BLEU = BP x pCand 1: Mary no slap the witch green.Best Ref: Mary did not slap the green witch.Cand 2: Mary did not give a smack to a green witch.Best Ref: Mary did not smack the green witch.Обработка текстовЛучшие данные - много данныхby GoogleОбработка текстовЛучшие данные - много данныхby GoogleОбработка текстовЛучшие данные - много данныхby GoogleОбработка текстовЗаключение• Трудность перевода заключается в существенныхразличиях между языками• Классические подходы: прямой перевод,преобразование, интерлингва• Для статистического машинного переводаприменяется модель зашумленного канала,комбинирующая модель перевода и языковуюмодель• Для выравнивания слов в двуязычных корпусахприменяются формальные модели, например, IBMModel 1• Для оценки систем используются различныеметрики: BLEU, TER, METEOR.Обработка текстовСледующая лекция• Тематическое моделированиеОбработка текстовОсновы обработки текстовЛекция 12 Тематическое моделированиеОбработка текстовТематическое моделирование(Topic Modelling)• Тематическая модель коллекциитекстовых документов определяет к какимтемам относится каждый документ и какиеслова (термины) образуют каждую тему• Тема - набор терминов, неслучайно частовстречающихся вместе в относительноузком подмножестве документовОбработка текстовЗадача тематическогомоделирования• Вход– D - коллекция текстовых документов• Задача– Для каждого документа определить к какимтемам и в какой степени он принадлежит– Для каждого слова определить к каким темами в какой степени это слово принадлежит• Задача мягкой кластеризации• Тематическую модель можноиспользовать как языковую модельОбработка текстовПрименение• Кластеризация документов• Определение близости и рекомендательныесистемы– Определить насколько похожи интересыпользователей Твиттера на основе их постов• Уменьшение размерности– Возможность решать задачу классификации впространстве меньшей размерности• Семантический поиск• Анализ и агрегирование новостных потоков• Поиск научной информации и фронтаисследованийОбработка текстовОсновные предположения• Порядок документов в коллекции не важен• Порядок слов в документе не важен• Предварительная обработка– Лемматизация или стемминг– Выделение терминов и словосочетаний– Удаление стоп-слов и слишком редкихсловОбработка текстовВероятностная формализация• Для каждой темы t и документа d зададимвероятность темы в документе p(t|d)• То же самое сделаем для слов и тем:p(w|t) - вероятность встретить слово w втеме t• Предположим что слова в документезависят только от темы p(w|d, t) = p(w|t)• Вероятностная модель порождениядокументаp(w|d) =Xt2Tp(w|d, t)p(t|d) =Xt2Tp(w|t)p(t|d)Обработка текстовГенерация документов• Пусть мы хотим сгенерировать документ в 100 слов.Документ написан про футбол (на 0.7), про пиво (на 0.2)и про космические ракеты (на 0.1)1.
Выбираем тему t для первого слова (каждая тема t выбирается свероятностью p(t|d))2. Из этой темы выбираем слово w (слово w выбирается свероятностью p(w|t))3. Повторяем шаги 1 и 2 для остальных 99 слов• Как видим, слова генерируются независимо друг от другаОбработка текстовПримерОбработка текстовПринцип максимума правдоподобия• Правдоподобие - плотность распределения выборкиnYY Yndwp(D) =p(di , wi ) =p(d, w)i=1d2D w2d– ndw - число вхождений термина w в документ d• Обозначим– wt - распределение терминов по темам– ✓td - распределение тем по документам• Задача: найти максимум (логарифма) правдоподобияXXXL( , ⇥) =ndw lnwt ✓td ! maxd2D w2dt2Tс ограничениями8tXwp(w|t) = 1, 8d8t, w p(w|t)Xtp(t|d) = 10, 8d, t p(t|d)0Обработка текстовПринцип максимума правдоподобия• Правдоподобие - плотность распределения выборкиnYY Yndwp(D) =p(di , wi ) =p(d, w)i=1d2D w2d– ndw - число вхождений термина w в документ d• Обозначим– wt - распределение терминов по темам– ✓td - распределение тем по документам• Задача: найти максимум (логарифма) правдоподобияXXXL( , ⇥) =ndw lnwt ✓td ! maxd2D w2dt2T8tXp(w|t) = 1, 8dXКудас ограничениямиделся множитель p(d)?w8t, w p(w|t)tp(t|d) = 10, 8d, t p(t|d)0Обработка текстовНекоторые постановки задачи• Можно не делать предположение обаприорном распределении слов по темам итем по документам (PLSA: вероятностныйлатентный семантический анализ)• Можно предполагать, что распределенияслов по темам и тем по документамполучены из распределения Дирихле (LDA:скрытое размещение Дирихле)• Можно учитывать редкие и общие слова(Robust PLSA)Обработка текстовPLSA• PLSA не делает никаких предположенийотносительно распределений• Параметры будем оценивать с помощьюEM-алгоритма–Оцениваем число слов в документе d,порожденных темой t–Уточняем распределения документов по темам–Уточняем распределение тем по словам• По правилу Байесаp(w|t)p(t|d)wt ✓tdp(t|d, w) ==Pp(w|d)s2T ws ✓sdОбработка текстовУточнение распределениятем по документам• Е-шаг: Оценка числа слов из темы– Оцениваем число слов документа d, порожденных изтемы tntd =Xwnwd Pwt ✓tdtwt ✓td• М-шаг: Оценка вероятности темы в документе✓tdntd= p(t|d) =ndОбработка текстовУточнение распределенияслов по темам• Е-шаг: Оценка числа слов из темы–Оцениваем число слов в теме tnwt =Xdnwd Pwt ✓tdtwt ✓td• М-шаг: Оценка вероятности темы в документеwtnwt= p(w|t) =ntОбработка текстовНедостатки PLSA• PLSA переобучается, т.к.