diploma-2 (1015782), страница 3

Файл №1015782 diploma-2 (Статистическая система машинного перевода) 3 страницаdiploma-2 (1015782) страница 32017-06-182017-06-18СтудИзба

Статистическая система машинного перевода

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

При таком подходе становится понятно почему, чем«дальше» языки, тем лучше работает статистический метод, по сравнению склассическими подходами.МОДЕЛЬ ШЕННОНА. (R).Источник...Передачик.Шум..Приемник.Цель. (E)Рис. 1.1. Модель зашумленного канала.Модель состоит из пяти элементов: источника информации, передатчика, канала передачи, приемника и конечной цели, расположенных линейно.Передатчик кодирует информацию, полученную от источника, и передает еена канал.

По каналу передачи, на который действует шум — помехи любого рода, искажающие информацию, данные поступают в приемник, где онидекодируется и передаются к конечной цели.15Из-за шума полученная приемником информация в общем случае не совпадает с информацией, отправленной передатчиком. Однако, согласно модели Шеннона, создавая избыточную информацию, исходные данные можновосстановить со сколь угодно высокой вероятностью.

Для обнаружения ошибок используются контрольные суммы, для их исправления — специальныекорректирующие коды, при условии, что степень шума не превосходит некоторой границы. Стоит отметить, что любая информация в некотором роде избыточна [20]. Человеческая речь избыточна — чтобы уловить смысл предложения, зачастую необязательно слышать его полностью. Аналогично, письменная речь, тоже избыточна, и при переводе этим можно воспользоваться.Если предложение в целом понятно, но есть несколько незнакомых слов, тообычно не трудно догадаться об их значении.Таким образом, для перевода текста необходимо найти способ декодирования, использующий естественную избыточность, в связи с чем декодирование должно быть вероятностным.

Задача такого декодирования заключаетсяв том, чтобы, при данном сообщении найти исходное сообщение, которомусоответствует наибольшая вероятность. Для этого же необходимо для любыхдвух сообщений уметь находить условную вероятность того, что переведенное сообщение, пройдя через канал с шумом, преобразуется в исходное сообщение. В данном случае нужна модель источника (модель языка) и модельканала (модель перевода).

Модель языка дает оценку вероятности фразам переводного языка, а модель перевода оценивает вероятность исходной фразыпри условии фразы на переводном языке. Если нам нужно перевести фразу срусского на английский, то мы должны знать, что именно обычно говорят поанглийски и как английские фразы искажаются до состояния русского языка.Сам по себе перевод превращается в процесс поиска такой английской фразы, которая максимизировала бы произведения безусловной вероятности английской фразы и вероятности русской фразы-оригинала при условии даннойанглийской фразы.max P (ϕe |ϕr ) = max (P (ϕe ) · P (ϕr |ϕe )) , гдеϕeϕe• ϕe — фраза перевода (английская);• ϕe — фраза оригинала (русская).16В системах статистического перевода, в качестве модели языка используются варианты n-граммной модели (например, в переводчике Google, использутеся 5-граммная модель).

Согласно этой модели, правильность выборатого или иного слова зависит только от предшествующих (n − 1) слов. Самойпростой статистической моделью перевода является модель пословного перевода. В этой модели, известной как Модель IBM №1, предполагается, чтодля перевода предложения с одного языка на другой достаточно перевестивсе слова, а расстановку их в правильном порядке обеспечит модель языка.Единственным массивом данных, которым оперирует Модель №1, является таблица вероятностей парных переводных соответствий слов двух языков[55]. Обычно используются более сложные модели перевода.Работа статистических систем, так же как и систем основанных на примерах происходит в двух режимах: обучения и эксплуатации.

В режиме обучения просматриваются параллельные корпуса текста и вычисляются вероятности переводных соответствий. Строится модель языка перевода. Тут жеопределяются вероятности каждой n-граммы. В режиме эксплуатации, дляфразы из исходного текста ищется фраза переводного текста, так, чтобы максимизировать произведение вероятностей.171.2.5. СРАВНЕНИЕ РАЗЛИЧНЫХ ТИПОВ СМП. перевод..Машинный..Правила..Пословные..Данные..Интерлингвистические..Трансферные.Основанные .на примерах..СтатистическиеРис.

1.2. Классификация систем машинного перевода.Рассмотрим кратко преимущества и недостатки существующих систем.СИСТЕМЫ ПОСЛОВНОГО ПЕРЕВОДАСистемы пословного перевода на данный момент используются толькодля составления подстрочечника, как отмечалось ранее.Преимущества:• простота;• высокая скорость работы;• не требовательные к ресурсам.Недостатки:• низкое качество перевода.Ярких представителей на рынке нет, в данном случае удобнее создавать новую систему под конкретную задачу.18ТРАНСФЕРТНЫЕ СИСТЕМЫТрансфертные системы распространены очень широко. Наиболее известными представителями являются ImTranslator, PROMPT.

Все подобные системы имеют сходные преимущества и недостатки.Преимущества:• высокое качество перевода (при наличие нужных словарей и правил);• выбор тематики текста, который повышает качество перевода;• возможно уточнение перевода, благодаря внесению изменений в базуданных переводчика (таким образом, пользователь получает потенциально бесконечное множество терминов, с которыми можно свободнооперировать, и можно достигнуть «бесконечного» качества перевода).Недостатки:• высокая стоимость и время разработки;• для добавления нового языка, приходиться переделывать систему заново;• нужна команда квалифицированных лингвистов, для описания каждогоисходного и каждого переводного языка;• требовательность к ресурсам на этапе составления базы.ИНТЕРЛИНГВИСТИЧЕСКИЕ СИСТЕМЫИнтерлингвистические системы перевода так и не были доведеныдо уровня промышленных систем. Предполагаемые преимущества:• высокое качество перевода, независимо от выбора языка;• выделение смысла из исходного текста происходит один раз и потом записывается на любой язык, в том числе исходный (получаем «пересказтекста»);• низкая стоимость трудозатрат на добавления нового языка в систему.19Недостатки:• спорность потенциальной возможности;• высокая сложность разработки;• системы не масштабируются.СМП, ОСНОВАННЫЕ НА ПРИМЕРАХСМП, основанные на примерах, так же не имеют ярких представителей.Существующие прототипы используются в академической среде для иллюстрации самого метода.

Часто они поставляются не в виде готового продукта, а в виде набора библиотек: Marclator – СМП Дублинского Университета,Cunei � гибридная СМП, основанная на переводе по аналогии и на статистическом переводе.Преимущества:• высокое качество перевода (при наличие достаточно долгой тренировкесистемы);• хорошо справляется со многими контекстными задачами (фразовыеглаголы);• квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;• логическая простота устройства;• возможно обучение системы во время ее эксплуатации.Недостатки:• для обучения системы нужны большие параллельные корпуса текста,размеченные определенным образом;• качество перевода зависит от исходных корпусов;• продолжительное время обучения;• требовательность к ресурсам на этапе обучения.20ССМПССМП активно разрабатывались (и разрабатываются) компанией IBM.Благодаря ее разработкам, были созданы модели перевода IBM Model 1-5.

Нонаибольшую известность этот метод приобрел благодаря компании Google.Кроме переводчика Google существует еще ряд систем и библиотек, использующих статистический подход.Преимущества:• высокое качество перевода:– для фраз, которые целиком помещаются в n-граммную модель– при наличии достаточно долгой тренировке системы.– при наличии качественных корпусов текста;• квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;• труд человека минимизирован для создания таких систем;• не требуется перестраивать систему при добавлении нового языка;• возможно обучение системы во время ее эксплуатации.Недостатки:• для обучения нужны большие параллельные корпуса текста;• сложный математический аппарат;• качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель;• качество перевода зависит от исходных корпусов;• при добавлении нового языка приходится анализировать большие объемы данных;• продолжительное время обучения;• требовательность к ресурсам на этапе обучения.211.3.

МАТЕМАТИЧЕСКАЯ БАЗА ССМППусть ϕr — фраза оригинала, русская. Требуется найти ϕe — фразу перевода, английскую. Нужно максимизировать P (ϕe |ϕr ). Если вспомнить модель зашумленного канала (модель Шеннона), то получаем:P (ϕe |ϕr ) =(P (ϕe ) · P (ϕr |ϕe ))⇒P (ϕr )ϕeg = arg max P (ϕe |ϕr ) = arg max (P (ϕe ) · P (ϕr |ϕe ))∪ϕe∪ϕeP (ϕr ) — нам известна, ее не учитываем. Величина P (ϕe ) называется моделью языка.

P (ϕr |ϕe ) — модель перевода. Работа любой статистической системы перевода состоит из двух этапов:• обучения — вычисляются модели языка и перевода;• эксплуатации — вычисляется величина arg max P (ϕe |ϕr ) при данной ϕr∪ϕe(процесс вычисления называют декодированием).1.3.1. ОБУЧЕНИЕ ССМПВЫЧИСЛЕНИЕ ЯЗЫКОВОЙ МОДЕЛИВ качестве модели языка в системах статистического перевода используются преимущественно различные модификации n-граммной модели, утверждающей, что «грамматичность» выбора очередного слова при формировании текста определяется только тем, какие (n–1) слов идут перед ним. Вероятность каждого n-грамма определяется по его встречаемости в тренировочном корпусе [55].P (ω1 .

Характеристики

Тип файла

PDF-файл

Размер

795,94 Kb

Материал

Статистическая система машинного перевода

Тип материала

Выпускная квалификационная работа (ВКР)

Предмет

Дипломы и ВКР

Высшее учебное заведение

МАИ

Список файлов ВКР

statisticheskaya-sistema-mashinnogo-perevoda-535534734-1497775675.rar

Статистическая система машинного перевода

pres

sources

src

appendix

bleu.tex

commons.tex

cover.tex

decoder.tex

language-model.tex

shannon.tex

translation-model.tex

arhitechture

common.tex

common.tex.1

decoding.tex

training.tex

evaluation

blue.tex

economics.tex

examples.tex

speed.tex

intro

titlepage.tex

toc.tex

outro

results.tex

todo.tex

principles

decoder.tex

language-model.tex

Полное содержание архива

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.