Слайды со всех лекций (1126919), страница 10
Текст из файла (страница 10)
В этом случаеприменяют EM-алгоритм2 декабря 2011 г.EM-алгоритм для выравнивания• Выбираем начальные параметры• Пока не сойдется выполняем:–E-шаг: Вычисляем вероятность всехвыравниваний с помощью текущей модели–M-шаг: Используем эти вероятности дляпереоценки значений всех параметров моделиДля сокращения времени работы используетсяалгоритм динамического программирования2 декабря 2011 г.Примерthe housela casaТренировочный green housecasa verdeкорпусverdeВероятностипереводаВычисляемвероятностивыравниванияP(A, F | E)casagreen 1/3house 1/31/31/31/31/3the 1/31/31/3green housecasa verdegreen housecasa verdeПредполагаем начальныевероятнсти равнымиthe housela casathe housela casa1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9НормализуемP(A | F, E)2 декабря 2011 г.laP (A, F |E)P (A|E, F ) = !A P (A, F |E)Примерgreen housecasa verde1/2green housecasa verde1/2verdeСчитаемвесапереводовcasalagreen 1/2house 1/21/20the 01/21/2casalagreen 1/2house 1/41/201/21/4the 01/21/2verdeНормализуеми получаемP(f | e)2 декабря 2011 г.the housela casa1/21/2 + 1/2 1/2the housela casa1/2ПримерverdeВероятностипереводаcasalagreen 1/2house 1/41/201/21/4the 01/21/2Пересчитываем green houseвероятностиcasa verdeвыравнивания1/2 X 1/4=1/8P(A, F | E)green housethe housethe housecasa verdela casala casa1/2 X 1/2=1/4 1/2 X 1/2=1/4 1/2 X 1/4=1/8J!P (A, F |E) =Нормализуеми получаемP(A | F, E)j=1t(fj |eaj )Продолжаем алгоритм до сходимости2 декабря 2011 г.Выравнивание фраз2 декабря 2011 г.Выравнивание фраз2 декабря 2011 г.Извлечение фраз2 декабря 2011 г.Декодирование• Аналог Витерби: выбрать предложение eмаксимизирующее P(e) x P( f | e )2 декабря 2011 г.Декодирование• Аналог Витерби: выбрать предложение eмаксимизирующее P(e) x P( f | e )2 декабря 2011 г.Оценка моделей• Оценка людьми– плавность– достоверность• адекватность (по фиксированной шкале)• информативность (ответ на вопрос по переводу)• Автоматическая оценка– сравнение с одним или несколькими экспертнымипереводами– Меры качества• BLUE• NIST• TER• METEOR2 декабря 2011 г.Оценка моделей: BLEU• Определить число N-грамм из машинногоперевода в экспертных переводах• Вычислить модифицированную меруточности2 декабря 2011 г.Оценка моделей: BLEUCand 1: Mary no slap the witch greenCand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 1 точность по 1-граммам: 5/62 декабря 2011 г.Оценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 1 точность по 2-граммам: 1/52 декабря 2011 г.Оценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Для каждой N-граммы счетчик не долженпревышать максимального количества этойn-граммы в любом предложенииCand 2 точность 1-грамм: 7/102 декабря 2011 г.Оценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 2 точность 2-грамм: 4/92 декабря 2011 г.Модифицированая точность• Среднее геометрическое всех N-граммам(обычно N < 5)Cand 1:Cand 2:2 декабря 2011 г.Штраф за краткость• Сложно посичтать полноту из занескольких экспертных мнений• Вместо этого используется штраф закраткость• Пусть r - длина экспертного предложенияс наибольшим количеством совпадающихN-грамм.
Пусть с - длина машинногоперевода2 декабря 2011 г.Подсчет BLUE• В итоге: BLUE = BP x pCand 1: Mary no slap the witch green.Best Ref: Mary did not slap the green witch.Cand 2: Mary did not give a smack to a green witch.Best Ref: Mary did not smack the green witch.2 декабря 2011 г.Лучшие данные - много данныхДанные от Google2 декабря 2011 г.Лучшие данные - много данныхДанные от Google2 декабря 2011 г.Лучшие данные - много данныхДанные от Google2 декабря 2011 г.Заключение• Трудность первода заключается в существенныхразличиях между языками• Классические подходы: прямой перевод,преобразование, интерлингва• Для статистического машинного переводаприменяется модель зашумленного канала,комбинирующая модель перевода и языковуюмодель• Для выравнивания слов в двуязычных корпусахпрменяются модели, такие как модель IBM Model 1• Для оценки систем используются различныеметрики: BLEU, TER, METEOR.2 декабря 2011 г..