dsmts-diploma-presentation (Статистическая система машинного перевода), страница 2
Описание файла
Файл "dsmts-diploma-presentation" внутри архива находится в следующих папках: Статистическая система машинного перевода, pres. PDF-файл из архива "Статистическая система машинного перевода", который расположен в категории "". Всё это находится в предмете "дипломы и вкр" из 12 семестр (4 семестр магистратуры), которые можно найти в файловом архиве МАИ. Не смотря на прямую связь этого архива с МАИ, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "диплом, выпускная квалификационная работа, диссертация магистра" в общих файлах.
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
К. Никитин1 млн. одновременныхсоединенийпопробовать Redis → leveldb.#25 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Результаты Развитие РезультатыРезультатыIРазработан подход:IIбыстрого обучения модели перевода для научных текстов.Реализована система машинного перевода:IIIIмногопроцессорная, распределенная;только научно-техническая литература;быстрое обучение;быстрое (пошаговое) декодирование.19 января 2012 г.: И.
К. Никитин#26 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUПриложения-подробностиинтересные слайды,которые не вошли в саму презентацию19 января 2012 г.: И. К. Никитин#27 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUМодель языкаВычисляется с помощью n-грамм слов.P(ω1 . . . ωl ) =i=l+n−1∏P0 (ωi |ωi−1 .
. . ωi−n+1 )i=0IP0 (ωm |ω1 . . . ωm−1 ) = Kn · P(ωm |ω1 . . . ωm−1 ) + . . . + K1 · P(ω1 ) + K0 ;IP(ω1 ) =IP(ωm |ω1 . . . ωm−1 ) =IKi — коэффициенты сглаживания Ki > Ki+1 ичастота (ω1 );|Θ|частота (ω1 . . . ωm−1 ωm );частота (ω1 . . . ωm−1 )i=n∑Ki = 1.0.i=019 января 2012 г.: И. К. Никитин#28 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUМодель языка (адаптивные модели)P(ω1 . .
. ωl ) =i=l+n−1∏P0 (ωi |ωi−1 . . . ωi−n+1 )i=0P0 можно вычислить иначе, используя адаптивный метод сглаживанияδ + частота (ω1 . . . ωm )) =P0 (ωm |ω1 . . . ωm−1 ) = ∑ (δ + частота (ω1j . . . ωmj )i=δ + частота (ω1 . . . ωm ))∑(частота (ω1j . . . ωmj )δ·V+iIV — количество всех n-грамм в используемом корпусе;Iδ = 1 — метод сглаживания Лапласа;Iδ 6= 1 ⇒ методы Гуда-Тьюринга, Катца, Кнезера-Нейя.19 января 2012 г.: И. К. Никитин#29 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUВведем обозначенияIIΘe — «английский» текст (множество предложений);Θr — «русский» текст;IΠe — «английское» предложение (последовательностьслов);IIΠr — «русское» предложение;ωe — «английское» слово;Iωr — «русское» слово;19 января 2012 г.: И.
К. Никитин#30 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUМодель перевода (1)Пусть P(Πe |Πr ) — вероятность некоторой строки (предложения) из e,при гипотезе перевода из r.∑P(Πe |Πr ) =P(Πe , a|Πr );aa — выравнивание между отдельными словами в паре предложений.Вероятность перевода:P(Πe , a|Πr ) =le∏εt(ωej |ωra(j) )(lr + 1)lej=1t — это вероятность слова оригинала в позиции j при соответствующемему слове перевода ωra(j) , определенном выравниванием a.19 января 2012 г.: И.
К. Никитин#31 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUМодель перевода (2)P(Πe , a|Πr )P(a|Πe , Πr ) = ∑P(Πe , a|Πr )aИмея набор выравниваний с определенными вероятностями, мы можемподсчитать частоты каждой пары слов,counts(ωe |ωr )counts(ωe |ωr )t(ωe |ωr ) = ∑=;counts(ωe |ωr )total(ωr )ωeТребуется оценить вероятности лексического перевода t(ωe |ωr ) Ночтобы сделать это нужно вычислить a, которой у нас нет.19 января 2012 г.: И. К.
Никитин#32 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUМодель перевода (3)Для оценки параметров −→ EM-алгоритм (Витерби).Iинициализируем параметры модели (одинаковымизначениями, на первой итерации);Iоценим вероятности отсутствующей информации;Iоценим параметры модели на основании новой информации;Iперейдем к следующей итерации.19 января 2012 г.: И. К. Никитин#33 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUБазовый-алгоритм(Θe , Θr )1 ∀ ωe ∈ Πe ∈ Θe :2∀ωr ∈ Πr ∈ Θr :3t(ωe |ωr ) ← u, u ∈ R;4 Инициализируем таблицу t(ωe |ωr ) одинаковыми значениями.5 пока не сойдется :6∀ ωe ∈ Πe ∈ Θe : Инициализируем остальные таблицы.7∀ωr ∈ Πr ∈ Θr :8counts(ωe |ωr ) ← 0; total(ωr ) ← 0;9∀ Πe , Πr ∈ Θe , Θr : Вычисляем нормализациию.10∀ ωe ∈ Π e :11stotal(ωe ) ← 0;12∀ ωr ∈ Π r :13stotal(ωe ) ← stotal(ωe ) + t(ωe |ωr );14∀ ωe ∈ Πe : Собираем подсчеты.15∀ ωr ∈ Π r :t(ωe |ωr )16counts(ωe |ωr ) ← counts(ωe |ωr ) +;stotal(ωe )t(ωe |ωr )17total(ωr ) ← total(ωr ) +;stotal(ωe )18∀ ωe ∈ Θe : Оцениваем вероятность.19∀ωr ∈ Θr :counts(ωe |ωr )20t(ωe |ωr ) ←;total(ωr )19 января 2012 г.: И.
К. Никитин#34 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEU∃ Детали работы декодера (1)IВ первом режиме работы принимается исходный текст.IПоследовательно разбивается на n-граммы.In-граммы ищутся в базе данных.IIIIIСначала наибольшего размера.Если нашли, выбираем наиболее вероятную.Если нет, берем n-грамму меньшего размера, слова (1-граммы)возвращаем как есть.Вычисляем величину неопределенности.Во втором режиме работы на вход принимается:IIIисходный текст (ИТ);переводной текст (ПТ) c предыдущей итерациивеличина неопределенности (ВН).19 января 2012 г.: И.
К. Никитин#35 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEU∃ Детали работы декодера (2)(−ВН = 21SηeSηe∑i=11log2 P(ηe i )+ SωSωe∑e j=1)log2 P(ωr j |ωe j )Iηe — n-граммы найденные в созданном тексте;ISηe — количество таких n-грамм;IP(ηe ) — вероятность n-грамм согласно языковой модели(вычисляется как указано раннее);Iωe — n-граммы (слова) как результат перевода согласномодели перевода;ISωe — количество таких n-грамм (слов);IP(ωrj |ωej ) — вероятность перевода фразы ωej на ωrj .19 января 2012 г.: И.
К. Никитин#36 6 37 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUBLEU — Bilingual Evaluation Understudy(BLEU = Bp · e{Bp =lc > lh ;1,e()l1− lhc,lc 6 lh .I Sc — множество кандидатов на перевод;I C — кандидат на перевод;I ηc — n-грамма кандидата на перевод;I lc — длинна кандидата перевода;I lh — длинна экспертного перевода(выполненного человеком);1I Wn =— вес;NI N = 4, n-граммность оценки.19 января 2012 г.: И. К.
НикитиниN∑n=1)Wn log(pn )∑ ∑pn =числосреза (ηc )∑ ∑число(ηc )C∈Sc ηc ∈CC∈Sc ηc ∈CСистемаПРС-СМП (1)ПРС-СМП (100)Moses (IBM 3)Moses (IBM 5)BLEU0.2430.2090.2010.173#37 6 37 | Статистический машинный перевод.