dsmts-2 (1015706), страница 2

Файл №1015706 dsmts-2 (Статистическая система машинного перевода) 2 страницаdsmts-2 (1015706) страница 22017-06-18СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 2)

Никитин#23 6 36 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Результаты Развитие РезультатыДальнейшее развитиеМатематика:Архитектура и реализация:Iполноценный фразовый перевод;Iсинтаксический перевод;Iсмешанная система перевода:IIIпара русский-английский,морфологический анализ.Iиспользовать пословное сжатиепри хранении в БД;Iпереписать обработчика на Cи сlibevent;Ilibevent для RESTful-сервисадекодера:опробовать более точные методыпоиска.II17 января 2012 г.: И.

К. Никитин1 млн. одновременныхсоединенийпопробовать Redis → leveldb.#24 6 36 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Результаты Развитие РезультатыРезультатыIРазработан подход:IIбыстрого обучения модели перевода для научных текстов.Реализована система машинного перевода:IIIIмногопроцессорная, распределенная;только научно-техническая литература;быстрое обучение;быстрое (пошаговое) декодирование.17 января 2012 г.: И. К. Никитин#25 6 36 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUПриложения-подробностиинтересные слайды,которые не вошли в саму презентацию17 января 2012 г.: И.

К. Никитин#26 6 36 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUМодель языкаВычисляется с помощью n-грамм слов.P(ω1 . . . ωl ) =i=l+n−1∏P0 (ωi |ωi−1 . . . ωi−n+1 )i=0IP0 (ωm |ω1 . . . ωm−1 ) = Kn · P(ωm |ω1 . . . ωm−1 ) + . . . + K1 · P(ω1 ) + K0 ;IP(ω1 ) =IP(ωm |ω1 . . . ωm−1 ) =IKi — коэффициенты сглаживания Ki > Ki+1 ичастота (ω1 );|Θ|частота (ω1 . .

. ωm−1 ωm );частота (ω1 . . . ωm−1 )i=n∑Ki = 1.0.i=017 января 2012 г.: И. К. Никитин#27 6 36 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUМодель языка (адаптивные модели)P(ω1 . . . ωl ) =i=l+n−1∏P0 (ωi |ωi−1 . . . ωi−n+1 )i=0P0 можно вычислить иначе, используя адаптивный метод сглаживанияδ + частота (ω1 .

. . ωm )) =P0 (ωm |ω1 . . . ωm−1 ) = ∑ (δ + частота (ω1j . . . ωmj )i=δ + частота (ω1 . . . ωm ))∑(частота (ω1j . . . ωmj )δ·V+iIV — количество всех n-грамм в используемом корпусе;Iδ = 1 — метод сглаживания Лапласа;Iδ 6= 1 ⇒ методы Гуда-Тьюринга, Катца, Кнезера-Нейя.17 января 2012 г.: И. К. Никитин#28 6 36 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUВведем обозначенияIIΘe — «английский» текст (множество предложений);Θr — «русский» текст;IΠe — «английское» предложение (последовательностьслов);IIΠr — «русское» предложение;ωe — «английское» слово;Iωr — «русское» слово;17 января 2012 г.: И. К. Никитин#29 6 36 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUМодель перевода (1)Пусть P(Πe |Πr ) — вероятность некоторой строки (предложения) из e,при гипотезе перевода из r.∑P(Πe |Πr ) =P(Πe , a|Πr );aa — выравнивание между отдельными словами в паре предложений.Вероятность перевода:P(Πe , a|Πr ) =le∏εt(ωej |ωra(j) )(lr + 1)lej=1t — это вероятность слова оригинала в позиции j при соответствующемему слове перевода ωra(j) , определенном выравниванием a.17 января 2012 г.: И.

К. Никитин#30 6 36 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUМодель перевода (2)P(Πe , a|Πr )P(a|Πe , Πr ) = ∑P(Πe , a|Πr )aИмея набор выравниваний с определенными вероятностями, мы можемподсчитать частоты каждой пары слов,counts(ωe |ωr )counts(ωe |ωr )t(ωe |ωr ) = ∑=;counts(ωe |ωr )total(ωr )ωeТребуется оценить вероятности лексического перевода t(ωe |ωr ) Ночтобы сделать это нужно вычислить a, которой у нас нет.17 января 2012 г.: И. К. Никитин#31 6 36 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUМодель перевода (3)Для оценки параметров −→ EM-алгоритм (Витерби).Iинициализируем параметры модели (одинаковымизначениями, на первой итерации);Iоценим вероятности отсутствующей информации;Iоценим параметры модели на основании новой информации;Iперейдем к следующей итерации.17 января 2012 г.: И.

К. Никитин#32 6 36 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUБазовый-алгоритм(Θe , Θr )1 ∀ ωe ∈ Πe ∈ Θe :2∀ωr ∈ Πr ∈ Θr :3t(ωe |ωr ) ← u, u ∈ R;4 Инициализируем таблицу t(ωe |ωr ) одинаковыми значениями.5 пока не сойдется :6∀ ωe ∈ Πe ∈ Θe : Инициализируем остальные таблицы.7∀ωr ∈ Πr ∈ Θr :8counts(ωe |ωr ) ← 0; total(ωr ) ← 0;9∀ Πe , Πr ∈ Θe , Θr : Вычисляем нормализациию.10∀ ωe ∈ Π e :11stotal(ωe ) ← 0;12∀ ωr ∈ Π r :13stotal(ωe ) ← stotal(ωe ) + t(ωe |ωr );14∀ ωe ∈ Πe : Собираем подсчеты.15∀ ωr ∈ Π r :t(ωe |ωr )16counts(ωe |ωr ) ← counts(ωe |ωr ) +;stotal(ωe )t(ωe |ωr )17total(ωr ) ← total(ωr ) +;stotal(ωe )18∀ ωe ∈ Θe : Оцениваем вероятность.19∀ωr ∈ Θr :counts(ωe |ωr )20t(ωe |ωr ) ←;total(ωr )17 января 2012 г.: И.

К. Никитин#33 6 36 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEU∃ Детали работы декодера (1)В первом режиме работы на вход принимается исходный текст.Далее ищется ее наиболее вероятный эквивалент,последовательным разбиением фразы на n-граммы наибольшегоразмера (аналогично алгоритму системы перевода основаннойна примерах в приложении), и параллельным поиском их в базеданных.17 января 2012 г.: И. К. Никитин#34 6 36 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEU∃ Детали работы декодера (2)− S 1ВН = 2Sηe∑ηei=1log2 P(ηe i )+ S 1Sωe∑ωej=1log2 P(ωr j |ωe j )I ηe — n-граммы высокого порядка найденные в созданном тексте;I Sηe — количество таких n-грамм;I P(ηe ) — вероятность n-грамм согласно языковой модели (вычисляется какуказано раннее);I ωe — n-граммы (слова) как результат перевода согласно модели перевода;I Sωe — количество таких n-грамм (слов);I P(ωr j |ωe j ) — вероятность перевода фразы ωe j на ωr j .Во втором режиме работы на вход принимается исходный текст (ИТ), переводнойтекст (ПТ) c предыдущей итерации и величина неопределенности (ВН).17 января 2012 г.: И.

К. Никитин#35 6 36 | Статистический машинный переводВведение Принципы Архитектура Оценка Перспективы +Модель языка Модель перевода Декодер BLEUBLEU — Bilingual Evaluation Understudy(BLEU = Bp · e{Bp =lc > lh ;1,e()l1− lhc,lc 6 lh .I Sc — множество кандидатов на перевод;I C — кандидат на перевод;I ηc — n-грамма кандидата на перевод;I lc — длинна кандидата перевода;I lh — длинна экспертного перевода(выполненного человеком);1I Wn =— вес;NI N = 4, n-грамность оценки.17 января 2012 г.: И. К.

НикитиниN∑n=1)Wn log(pn )∑ ∑pn =числосреза (ηc )∑ ∑число(ηc )C∈Sc ηc ∈CC∈Sc ηc ∈CСистемаПРС-СМП (1)ПРС-СМП (100)Moses (IBM 3)Moses (IBM 5)BLEU0.2430.2090.2010.173#36 6 36 | Статистический машинный перевод.

Характеристики

Тип файла
PDF-файл
Размер
451,12 Kb
Высшее учебное заведение

Список файлов ВКР

Статистическая система машинного перевода
pres
sources
src
appendix
bleu.tex
commons.tex
cover.tex
decoder.tex
language-model.tex
shannon.tex
translation-model.tex
arhitechture
common.tex
common.tex.1
decoding.tex
training.tex
evaluation
blue.tex
economics.tex
examples.tex
speed.tex
intro
titlepage.tex
toc.tex
outro
results.tex
todo.tex
principles
decoder.tex
language-model.tex
Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
7027
Авторов
на СтудИзбе
260
Средний доход
с одного платного файла
Обучение Подробнее