lecture10-2015 (1126929), страница 3
Текст из файла (страница 3)
В этом случаеприменяют EM-алгоритмОбработка текстовEM-алгоритм для выравнивания• Выбираем начальные параметры• Пока не сойдется выполняем:–E-шаг: Вычисляем вероятность всехвыравниваний с помощью текущей модели–M-шаг: Используем эти вероятности дляпереоценки значений всех параметров моделиДля сокращения времени работы используетсяалгоритм динамического программированияОбработка текстовПримерthe housela casaТренировочный green housecasa verdeкорпусverdeВероятностипереводаВычисляемвероятностивыравниванияP(A, F | E)casagreen 1/3house 1/31/31/31/31/3the 1/31/31/3green housecasa verdegreen housecasa verdeПредполагаем начальныевероятности равнымиthe housela casathe housela casa1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9НормализуемP(A | F, E)P (A|E, F ) =laP (A, F |E)A P (A, F |E)Обработка текстовПримерgreen housecasa verde1/2green housecasa verde1/2verdeСчитаемвесапереводовcasalagreen 1/2house 1/21/20the 01/21/2casalagreen 1/2house 1/41/201/21/4the 01/21/2verdeНормализуеми получаемP(f | e)the housela casa1/21/2 + 1/2 1/2the housela casa1/2Обработка текстовПримерverdeВероятностипереводаcasalagreen 1/2house 1/41/201/21/4the 01/21/2Пересчитываем green houseвероятностиcasa verdeвыравнивания1/2 X 1/4=1/8P(A, F | E)green housethe housethe housecasa verdela casala casa1/2 X 1/2=1/4 1/2 X 1/2=1/4 1/2 X 1/4=1/8JP (A, F |E) =j=1t(fj |eaj )Нормализуеми получаемP(A | F, E)Продолжаем алгоритм до сходимостиили ограниченное число шаговОбработка текстовВыравнивание фраз• Мы обсудили как выравнивать слова ипереводить текст по словам• Теперь перейдем к фразамОбработка текстовВыравнивание фразОбработка текстовВыравнивание фраз• Существует несколько эвристическихметодов выравнивания фраз по матрицепересеченийОбработка текстовИзвлечение фразGoogle (Slav Petrov, SYRCoDIS’11):Выбираем все консистентные выравниванияОбработка текстовДекодирование• Аналог Витерби: выбрать предложение eмаксимизирующее P(e) x P( f | e )Обработка текстовОценка моделей• Оценка людьми– плавность– достоверность• адекватность (по фиксированной шкале)• информативность (ответ на вопрос по переводу)• Автоматическая оценка– сравнение с одним или несколькими экспертнымипереводами– Меры качества• BLUE• NIST• TER• METEORОбработка текстовОценка моделей: BLEU• Определить число N-грамм из машинногоперевода в экспертных переводах• Вычислить модифицированную меруточностиОбработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch greenCand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 1 точность по 1-граммам: 5/6Обработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 1 точность по 2-граммам: 1/5Обработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Для каждой N-граммы счетчик не долженпревышать максимального количества этойn-граммы в любом предложенииCand 2 точность 1-грамм: 7/10Обработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 2 точность 2-грамм: 4/9Обработка текстовМодифицированная точность• Среднее геометрическое всех N-граммам(обычно N < 5)Cand 1:Cand 2:Обработка текстовШтраф за краткость• Сложно посчитать полноту (recall) из-занескольких экспертных мнений• Вместо этого используется штраф закраткость• Пусть r - длина экспертного предложенияс наибольшим количеством совпадающихN-грамм.
Пусть с - длина машинногопереводаОбработка текстовПодсчет BLUE• В итоге: BLUE = BP x pCand 1: Mary no slap the witch green.Best Ref: Mary did not slap the green witch.Cand 2: Mary did not give a smack to a green witch.Best Ref: Mary did not smack the green witch.Обработка текстовЛучшие данные - много данныхby GoogleОбработка текстовЛучшие данные - много данныхby GoogleОбработка текстовЛучшие данные - много данныхby GoogleОбработка текстовЗаключение• Трудность перевода заключается в существенныхразличиях между языками• Классические подходы: прямой перевод,преобразование, интерлингва• Для статистического машинного переводаприменяется модель зашумленного канала,комбинирующая модель перевода и языковуюмодель• Для выравнивания слов в двуязычных корпусахприменяются формальные модели, например, IBMModel 1• Для оценки систем используются различныеметрики: BLEU, TER, METEOR.Обработка текстовСледующая лекция• Тематическое моделирование.