diploma-3 (1015783), страница 3

Файл №1015783 diploma-3 (Статистическая система машинного перевода) 3 страницаdiploma-3 (1015783) страница 32017-06-18СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 3)

Аналогично, письменная речь, тоже избыточна, и при переводе этим можно воспользоваться.Если предложение в целом понятно, но есть несколько незнакомых слов, тообычно не трудно догадаться об их значении.Таким образом, для перевода текста необходимо найти способ декодирования, использующий естественную избыточность, в связи с чем декодирование должно быть вероятностным.

Задача такого декодирования заключаетсяв том, чтобы, при данном сообщении найти исходное сообщение, которомусоответствует наибольшая вероятность. Для этого же необходимо для любыхдвух сообщений уметь находить условную вероятность того, что переведенное сообщение, пройдя через канал с шумом, преобразуется в исходное сообщение. В данном случае нужна модель источника (модель языка) и модельканала (модель перевода). Модель языка дает оценку вероятности фразам переводного языка, а модель перевода оценивает вероятность исходной фразыпри условии фразы на переводном языке. Если нам нужно перевести фразу срусского на английский, то мы должны знать, что именно обычно говорят поанглийски и как английские фразы искажаются до состояния русского языка.Сам по себе перевод превращается в процесс поиска такой английской фразы, которая максимизировала бы произведения безусловной вероятности английской фразы и вероятности русской фразы-оригинала при условии даннойанглийской фразы.max P (ϕe |ϕr ) = max (P (ϕe ) · P (ϕr |ϕe )) , гдеϕeϕe• ϕe — фраза перевода (английская);• ϕe — фраза оригинала (русская).16В системах статистического перевода, в качестве модели языка используются варианты n-граммной модели (например, в переводчике Google, использутеся 5-граммная модель).

Согласно этой модели, правильность выборатого или иного слова зависит только от предшествующих (n − 1) слов. Самойпростой статистической моделью перевода является модель пословного перевода. В этой модели, известной как Модель IBM №1, предполагается, чтодля перевода предложения с одного языка на другой достаточно перевестивсе слова, а расстановку их в правильном порядке обеспечит модель языка.Единственным массивом данных, которым оперирует Модель №1, является таблица вероятностей парных переводных соответствий слов двух языков [55]. Обычно используются более сложные модели перевода.Работа статистических систем, так же как и систем основанных на примерах происходит в двух режимах: обучения и эксплуатации. В режиме обучения просматриваются параллельные корпуса текста и вычисляются вероятности переводных соответствий.

Строится модель языка перевода. Тут жеопределяются вероятности каждой n-граммы. В режиме эксплуатации, дляфразы из исходного текста ищется фраза переводного текста, так, чтобы максимизировать произведение вероятностей.171.2.5. СРАВНЕНИЕ РАЗЛИЧНЫХ ТИПОВ СМП.. перевод.Машинный..Правила..Пословные..Данные..Интерлингвистические..Трансферные.Основанные .на примерах..СтатистическиеРис.

1.2. Классификация систем машинного перевода.Рассмотрим кратко преимущества и недостатки существующих систем.СИСТЕМЫ ПОСЛОВНОГО ПЕРЕВОДАСистемы пословного перевода на данный момент используются толькодля составления подстрочечника, как отмечалось ранее.Преимущества:• простота;• высокая скорость работы;• не требовательные к ресурсам.Недостатки:• низкое качество перевода.Ярких представителей на рынке нет, в данном случае удобнее создавать новую систему под конкретную задачу.18ТРАНСФЕРНЫЕ СИСТЕМЫТрансферные системы распространены очень широко. Наиболее известными представителями являются ImTranslator, PROMPT.

Все подобные системы имеют сходные преимущества и недостатки.Преимущества:• высокое качество перевода (при наличие нужных словарей и правил);• выбор тематики текста, который повышает качество перевода;• возможно уточнение перевода, благодаря внесению изменений в базуданных переводчика (таким образом, пользователь получает потенциально бесконечное множество терминов, с которыми можно свободнооперировать, и можно достигнуть «бесконечного» качества перевода).Недостатки:• высокая стоимость и время разработки;• для добавления нового языка, приходиться переделывать систему заново;• нужна команда квалифицированных лингвистов, для описания каждогоисходного и каждого переводного языка;• требовательность к ресурсам на этапе составления базы.ИНТЕРЛИНГВИСТИЧЕСКИЕ СИСТЕМЫИнтерлингвистические системы перевода так и не были доведеныдо уровня промышленных систем.

Предполагаемые преимущества:• высокое качество перевода, независимо от выбора языка;• выделение смысла из исходного текста происходит один раз и потом записывается на любой язык, в том числе исходный (получаем «пересказтекста»);• низкая стоимость трудозатрат на добавления нового языка в систему.19Недостатки:• спорность потенциальной возможности;• высокая сложность разработки;• системы не масштабируются.СМП, ОСНОВАННЫЕ НА ПРИМЕРАХСМП, основанные на примерах, так же не имеют ярких представителей.Существующие прототипы используются в академической среде для иллюстрации самого метода.

Часто они поставляются не в виде готового продукта, а в виде набора библиотек: Marclator – СМП Дублинского Университета,Cunei � гибридная СМП, основанная на переводе по аналогии и на статистическом переводе.Преимущества:• высокое качество перевода (при наличие достаточно долгой тренировки системы);• хорошо справляется со многими контекстными задачами (фразовыеглаголы);• квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;• логическая простота устройства;• возможно обучение системы во время ее эксплуатации.Недостатки:• для обучения системы нужны большие параллельные корпуса текста,размеченные определенным образом;• качество перевода зависит от исходных корпусов;• продолжительное время обучения;• требовательность к ресурсам на этапе обучения.20ССМПССМП активно разрабатывались (и разрабатываются) компанией IBM.Благодаря ее разработкам, были созданы модели перевода IBM Model 1-5.

Нонаибольшую известность этот метод приобрел благодаря компании Google.Кроме переводчика Google существует еще ряд систем и библиотек, использующих статистический подход.Преимущества:• высокое качество перевода:– для фраз, которые целиком помещаются в n-граммную модель– при наличии достаточно долгой тренировке системы.– при наличии качественных корпусов текста;• квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;• труд человека минимизирован для создания таких систем;• не требуется перестраивать систему при добавлении нового языка;• возможно обучение системы во время ее эксплуатации.Недостатки:• для обучения нужны большие параллельные корпуса текста;• сложный математический аппарат;• качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель;• качество перевода зависит от исходных корпусов;• при добавлении нового языка приходится анализировать большие объемы данных;• продолжительное время обучения;• требовательность к ресурсам на этапе обучения.211.3.

МАТЕМАТИЧЕСКАЯ БАЗА ССМППусть ϕr — фраза оригинала, русская. Требуется найти ϕe — фразу перевода, английскую. Нужно максимизировать P (ϕe |ϕr ). Если вспомнить модель зашумленного канала (модель Шеннона), то получаем:P (ϕe |ϕr ) =(P (ϕe ) · P (ϕr |ϕe ))⇒P (ϕr )ϕeg = arg max P (ϕe |ϕr ) = arg max (P (ϕe ) · P (ϕr |ϕe ))∪ϕe∪ϕeP (ϕr ) — нам известна, ее не учитываем. Величина P (ϕe ) называется моделью языка. P (ϕr |ϕe ) — модель перевода. Работа любой статистической системы перевода состоит из двух этапов:• обучения — вычисляются модели языка и перевода;• эксплуатации — вычисляется величина arg max P (ϕe |ϕr ) при данной ϕr∪ϕe(процесс вычисления называют декодированием).1.3.1.

ОБУЧЕНИЕ ССМПВЫЧИСЛЕНИЕ ЯЗЫКОВОЙ МОДЕЛИВ качестве модели языка в системах статистического перевода используются преимущественно различные модификации n-граммной модели, утверждающей, что «грамматичность» выбора очередного слова при формировании текста определяется только тем, какие (n–1) слов идут перед ним. Вероятность каждого n-грамма определяется по его встречаемости в тренировочном корпусе [55].P (ω1 . . . ωl ) =i=l+n−1∏i=0n — n-граммность модели.P 0 (ωi |ωi−1 . . . ωi−n+1 )22P 0 (ωm |ω1 .

. . ωm−1 ) = Kn · P (ωm |ω1 . . . ωm−1 )++Km−1 · P (ωm−1 |ω1 . . . ωm−2 )++K2 · P (ω2 |ω1 ) + K1 · P (ω1 ) + K0 ;P (ω1 ) =частота (ω1 );|Θ|P (ωm |ω1 . . . ωm−1 ) =частота (ω1 . . . ωm−1 ωm );частота (ω1 . . . ωm−1 )Ki — коэффициенты сглаживания. Они могут быть выбраны различнымиспособами. Чаще всего используется линейная интерполяция.Ki > Ki+1 ;i=n∑Ki = 1.0;i=0В этом случае придется подбирать и экспериментально, например для трехграммной модели K3 = 0.8, K2 = 0.15, K1 = 0.049, K0 = 0.001 [34]P 0 можно вычислить иначе, используя адаптивный метод сглаживанияδ + частота (ω1 .

Характеристики

Тип файла
PDF-файл
Размер
798,92 Kb
Высшее учебное заведение

Список файлов ВКР

Статистическая система машинного перевода
pres
sources
src
appendix
bleu.tex
commons.tex
cover.tex
decoder.tex
language-model.tex
shannon.tex
translation-model.tex
arhitechture
common.tex
common.tex.1
decoding.tex
training.tex
evaluation
blue.tex
economics.tex
examples.tex
speed.tex
intro
titlepage.tex
toc.tex
outro
results.tex
todo.tex
principles
decoder.tex
language-model.tex
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
7041
Авторов
на СтудИзбе
260
Средний доход
с одного платного файла
Обучение Подробнее