dsmts-diploma-presentation (Статистическая система машинного перевода)
Описание файла
Файл "dsmts-diploma-presentation" внутри архива находится в следующих папках: Статистическая система машинного перевода, pres. PDF-файл из архива "Статистическая система машинного перевода", который расположен в категории "". Всё это находится в предмете "дипломы и вкр" из 12 семестр (4 семестр магистратуры), которые можно найти в файловом архиве МАИ. Не смотря на прямую связь этого архива с МАИ, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "диплом, выпускная квалификационная работа, диссертация магистра" в общих файлах.
Просмотр PDF-файла онлайн
Текст из PDF
Введение Принципы Архитектура Оценка Перспективы +МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ(национальный исследовательский университет)Распределенноепрограммно-информационноеобеспечение статистической моделиперевода естественных языковВыполнил студент группы 08-606Никитин Илья КонстантиновичНаучный руководительассистент кафедры 806Гаврилов Евгений Сергеевич19 января 2012 г.: И. К. НикитинСтатистический машинный переводВведение Принципы Архитектура Оценка Перспективы +CодержаниеВведениеЗачемМетодыПринципыМодель ШеннонаМодель языкаМодель переводаДекодерАрхитектураОбзорОбучениеДекодеривание19 января 2012 г.: И. К. НикитинОценкаПримерыBLEUСкоростьПерспективыРезультатыРазвитиеРезультаты+Модель языкаМодель переводаДекодерBLEU#2 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Зачем МетодыДля чего нужен машинный перевод?Iбытовой перевод:IIIIIкниги,переписка;поиск в Интернете на разных языках (внутри поисковыхалгоритмов и дополнительная функция для пользователя);перевод научных публикаций c других языков;применения достижений в других областях:IIIавтоматическое реферирование,распознавание речи,распознавание последовательностей аминокислот (ДНК).19 января 2012 г.: И.
К. Никитин#3 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Зачем МетодыОсновные методы машинного перевода.. перевод.Машинный..Правила..Пословные..Данные..Интерлингвистические..Трансферные19 января 2012 г.: И. К. Никитин.Основанные .на примерах..Статистические#4 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель Шеннона Модель языка Модель перевода ДекодерМодель зашумленного канала (1)..Источник(R).Шум...Передачик..Приемник.Цель.
(E)1. Пусть ϕr — фраза оригинала (русская).2. Требуется найти ϕe — фразу перевода (английскую).Максимизировать P(ϕe |ϕr ).P(ϕe |ϕr ) =(P(ϕe ) · P(ϕr |ϕe ))⇒P(ϕr )ϕeg = arg max P(ϕe |ϕr ) = arg max (P(ϕe ) · P(ϕr |ϕe ))∪ϕe19 января 2012 г.: И. К. Никитин∪ϕe#5 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель Шеннона Модель языка Модель перевода Декодер.Статистическая система. машинного перевода.Модель языка.P(ϕe ).Модель перевода.P(ϕr |ϕe )arg max P(ϕe |ϕr ) = arg max (P(ϕe ) · P(ϕr |ϕe ))∪ϕeII∪ϕeϕe — фраза перевода (английская);ϕr — фраза оригинала (русская).19 января 2012 г.: И.
К. Никитин#6 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель Шеннона Модель языка Модель перевода Декодер.Статистическая система. машинного перевода.Модель языка.P(ϕe ).Модель перевода.P(ϕr |ϕe )Декодер..arg max (P(ϕe ) · P(ϕr |ϕe ))∪ϕe19 января 2012 г.: И. К. Никитин#7 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель Шеннона Модель языка Модель перевода Декодер.Статистическая система. машинного перевода.Модель языка.P(ϕe ).Модель перевода.P(ϕr |ϕe )Декодер..arg max (P(ϕe ) · P(ϕr |ϕe ))∪ϕe.Корпус текста.на языке ϕe .19 января 2012 г.: И.
К. Никитин.Параллельныйкорпус .текстана языках ϕe и ϕr .#8 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель Шеннона Модель языка Модель перевода ДекодерМодель языкаIПравильный порядок слов.IВычисляется с помощью n-грамм слов. Пример для 3-грамм:(ω1 ,ω2 ,ω3 ); (ω2 ,ω3 ,ω4 );ϕ = (ω1 , ω2 , ω3 , ω4 , . . . , ωl ) ⇒.........(ωl−2 , ωl−1 , ωl ).IВычисляется по формуле:P(ϕ) = P(ω1 . . . ωl ) =i=l+n−1∏P0 (ωi |ωi−1 . .
. ωi−n+1 ).i=019 января 2012 г.: И. К. Никитин#9 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель Шеннона Модель языка Модель перевода ДекодерМодель перевода (1)IВводим выравнивание для пары предложений Πe , Πr .IДля выравнивания нужны вероятности лексическогоперевода ωe → ωr .IДля вероятности лексического перевода нужнывыравнивания.IПроблема «курицы и яйца».19 января 2012 г.: И. К. Никитин#10 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель Шеннона Модель языка Модель перевода ДекодерМодель перевода (2)Для оценки вероятности лексического перевода −→EM-алгоритм (Витерби):Iинициализируем параметры модели (одинаковымизначениями, на первой итерации);Iоценим вероятности отсутствующей информации;Iоценим параметры модели на основании новой информации;Iперейдем к следующей итерации.19 января 2012 г.: И.
К. Никитин#11 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель Шеннона Модель языка Модель перевода Декодер∃ Отличия от других системСистема используется для перевода научно-технической литературы..Слова → n-грамы.....⇐ Устойчивые формальные выражения в научных текстах.....Выравнивание по круппным группам n-грам...⇐ прямой порядок слов;..⇐ стереотипная структура предложений.....Модели низких порядков...⇐ важность локального порядка слов;.19 января 2012 г.: И. К.
Никитин#12 6 37 | Статистический машинный перевод.⇐ фертильности и вероятностной грамматики могут его разрушить....Введение Принципы Архитектура Оценка Перспективы +Модель Шеннона Модель языка Модель перевода ДекодерДекодер.Среди всех возможных вариантовперевода выбрать правильный:Iполный перебор;IA*:II.Исходная фразаϕ.rМодельперевода.P(ϕr |ϕe )жадный инкрементный поиск;Iсведение к обобщенной задачекоммивояжера.19 января 2012 г.: И. К. НикитинМодельязыка.P(ϕe )Декодер..стековый поиск,многостековый поиск;I..Перевод исходной фразыarg max (P(ϕe ) · P(ϕr |ϕe ))ϕe#13 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель Шеннона Модель языка Модель перевода ДекодерЖадный инкрементный поискIIIпростой и быстрый поиск;«плохой» вариант перевода получаем сразу;последовательно применяя набор операций можемулучшить перевод;IIIIIизменить перевод слова (группы слов, n-граммы),удалить слово (группу слов, n-грамму),поменять слова местами (группы слов, n-граммы);можно делать отсечку по времени;можем сразу оценить модель языка большой фразы.19 января 2012 г.: И.
К. Никитин#14 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Обзор Обучение Декодеривание∃ Из чего состоит система.Корпус .En, Ru... ЧитательB ErlangI Набор приложений.I Могут быть удаленыдруг от друга.I Распределеныгде это возможно..ПРС-СМПданных... БазаB Redis.. ДекодерB Erlang.Веб..интерфейсы.Консоль...
ОбработчикB Erlang.19 января 2012 г.: И. К. Никитин#15 6 37 | Статистический машинный перевод.Rest.Введение Принципы Архитектура Оценка Перспективы +.Читатель..Обзор Обучение Декодеривание.Обработчик.....19 января 2012 г.: И. К. Никитин...#16 6 37 | Статистический машинный перевод......Nчит. < Nобр.Введение Принципы Архитектура Оценка Перспективы +Обзор Обучение Декодеривание.Декодер...Iжадный инкрементныйпоиск;Iдва режима работы:II.19 января 2012 г.: И.
К. НикитинIпошаговый веб-интерфейс;Iпотоковый RESTful-сервис;Iпошаговый консольныйинтерфейс.....перевода,улучшения.#17 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Примеры BLEU Скорость∃ Примеры (1)Оригинал... adopted at the 81st plenary meeting ...Переводчик... принята на 81-м пленарном заседании ...Система... принята без голосования на 81 пленарном заседаниив Брюсселе ...19 января 2012 г.: И. К. Никитин#18 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Примеры BLEU Скорость∃ Примеры (2)ОригиналIt will be instructive to exhibit Euclid’s algorithm here.ПереводчикДумаю, имеет смысл привести здесь описание этого алгоритма.СистемаБудет поучительно выставить алгоритм Евклида здесь.19 января 2012 г.: И. К.
Никитин#19 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Примеры BLEU Скорость∃ Примеры (3)ОригиналMany years have passed since the author wrote most of thecomments above ...ПереводчикСо времени первого написания автором большинстваприведенных выше комментариев утекло много воды ...СистемаМного лет прошло с тех пор, автор написал большую частькомментариев выше ...19 января 2012 г.: И. К. Никитин#20 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Примеры BLEU СкоростьОценка перевода с использованием метрики BLEUIBLEU — Bilingual Evaluation UnderstudyIЧисленная оценка качества перевода.IНужен перевод, выполненный человеком.IПоказывает величину близостик «человеческому» переводу.IЧем меньше величина, тем лучше.IСравнивались:IIСистемаПРС-СМП (1)ПРС-СМП (100)Moses (IBM 3)Moses (IBM 5)ПРС-СМП;cистемы построенная на основеMoses.19 января 2012 г.: И.
К. Никитин#21 6 37 | Статистический машинный переводBLEU0.2430.2090.2010.173Введение Принципы Архитектура Оценка Перспективы +Примеры BLEU СкоростьОценка скорости обученияПроцессор: Intel Core2 Duo, 1 ядро 64 бит, ОП 4Гб, ФС:ext4СистемаПРС-СМП (1)Moses (GIZA++)Chaski (MGIZA++)Время, ч≈5≈ 25≈ 26Процессор: Intel Xeon E5506, 8 ядер 64 бит, ОП 10Гб, ФС:xfsСистемаПРС-СМП (1)Moses (GIZA++)Chaski (MGIZA++)19 января 2012 г.: И.
К. НикитинВремя, ч≈1≈ 22≈3#22 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Примеры BLEU СкоростьОценка скорости декодированияПроцессор: Intel Core2 Duo, 1 ядро 64 бит, ОП 4Гб, ФС:ext4СистемаПРС-СМП (1)ПРС-СМП (100)Moses (IBM 3)Moses (IBM 5)Время, мкс11327108124≈ 10000000≈ 30000000Процессор: Intel Xeon E5506, 8 ядер 64 бит, ОП 10Гб, ФС:xfsСистемаПРС-СМП (1)ПРС-СМП (100)Moses (IBM 3)Moses (IBM 5)19 января 2012 г.: И. К.
НикитинВремя, мкс10121119024≈ 5000000≈ 6000000#23 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Результаты Развитие РезультатыРезультатыIРазработан подход:IIбыстрого обучения модели перевода для научных текстов.Реализована система машинного перевода:IIIIмногопроцессорная, распределенная;только научно-техническая литература;быстрое обучение;быстрое (пошаговое) декодирование.19 января 2012 г.: И. К. Никитин#24 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Результаты Развитие РезультатыДальнейшее развитиеМатематика:Архитектура и реализация:Iполноценный фразовый перевод;Iсинтаксический перевод;Iсмешанная система перевода:IIIпара русский-английский,морфологический анализ.Iиспользовать пословное сжатиепри хранении в БД;Iпереписать обработчика на Cи сlibevent;Ilibevent для RESTful-сервисадекодера:опробовать более точные методыпоиска.II19 января 2012 г.: И.