diploma-2 (1015782), страница 13

Файл №1015782 diploma-2 (Статистическая система машинного перевода) 13 страницаdiploma-2 (1015782) страница 132017-06-182017-06-18СтудИзба

Статистическая система машинного перевода

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 13)

Автоматизация процесса построения и пополнения двуязычных специализированных словарей / A.В. Липатов, А. А. Мальцев,В. В. Шило // Труды конференции «Диалог». — М.: 2005.42. Максименко, О. И. Формальные методы оценки эффективности системавтоматической обработки текста: Диссертация доктора филологическихнаук: 10.02.21 / Москва. — М., 2003.43. Максименко, О. И. Машинный семантический анализ русского языкаи его применения: Диссертация доктора физико-математических наук:9505.13.11 / Санкт-Петербургский государственный университет.

— СПб.,2006.44. Марчук, Ю. Н. Основы компьютерной лингвистики / Ю. Н. Марчук;МПУ. — Издание 2-е дополненное изд. — М.: Изд-во «Народный учитель», 2000.45. Марчук, Ю. Н. Модели перевода / Ю. Н. Марчук. — М.: Изадтельскийцентр «Академия», 2011.46. Мельчук, И. A.

Опыт теории лингвистических моделей «смысл-текст» /И. A. Мельчук. — М.: Наука, 1974.47. Мельчук, И. A. Русский язык в модели «смысл-текст» / И. A. Мельчук;Школа: «Языки русской культуры». — Москва-Вена, 1995.48. Моисеева, Н. К. Управление маркетингом: теория, практика, информационные технологии / Н. К. Моисеева, М. В. Конышева. — М.: Финансы истатистика, 2002.49. Ньюэл, М. В.

Управление проектами для профессионалов. Руководство ксдаче сертификационных экзаменов / М. В. Ньюэл. — М.: Кудиц-Пресс,2008.50. Пиотровский, Р. Г. Текст, машина, человек / Р. Г. Пиотровский. — Л.:Наука, 1975.51. Потемкин, C. Б. Автоматическая оценка качества машинного переводана основе семантической метрики / C. Б. Потемкин, Г. Е. Кедрова // Труды ΙΙ Международной научно-практической конференции, посвященнойЕвропейскому Дню языков. — Луганск: 2005.52. Потемкин, C. Б. Использование корпуса параллельных текстов для пополнения специализированного двуязычного словаря / C. Б. Потемкин,Г.

Е. Кедрова // III Международный конгресс исследователей русскогоязыка «Русский язык: исторические судьбы и современность». — М.:2007.9653. Пумпянский, A. Л. Информационная роль порядка слов в научной и технической литературе / A. Л. Пумпянский. — Мн.: ТетраСистемс, 2001.54. Рассел, С. Искусственный интеллект: современный подход / С. Рассел,П. Норвиг. — 2-е изд. изд.

— М.: Издательский дом «Вильямc», 2006.55. Рахимбердиев, Б. Н. Эволюция семантики экономической терминологии русского языка в XX веке: Диссертация канд. филологических наук:10.02.21 / Москва. — М., 2003.56. Реформатский, A. A. Введение в языковедение / A. A. Реформатский; Подред. В. A. Виноградов. — М.: Аспект Пресс, 1996.57. Рецкер, Я. И. О закономерных соответствиях при переводе на роднойязык / Я. И. Рецкер. — М.: Наука, 1950.58. Романов, А.С. Подходы к идентификации авторства текста на основе nграмм и нейронных сетей / А.С.

Романов // Молодежь и современныеинформационные технологии: Сб. тр. VI Всерос. науч.-практ. конф. студентов, аспирантов и молодых ученых. — Томск: Изд-во ТПУ, 2008.59. Романов, А.С. Структура программного комплекса для исследования подходов к идентификации авторства текстов / А.С.

Романов // Докл. Том.гос. ун-та систем управления и радиоэлектроники. — 2(18). — Томск:Изд-во ТПУ, 2008.60. Хорошилов, A. A. Теоретические основы и методы построения системфразеологического машинного перевода: Диссертация доктора технических наук: 05.13.17 / Москва. — М., 2006.61. Хроменков, П. Н. Анализ и оценка эффективности современных системмашинного перевода: Диссертация канд. филологических наук :10.02.21 /Москва. — М., 2000.62. Швейцер, А. Д. Теория перевода / А. Д.

Швейцер. — М.: Наука, 1988.63. Шевелев, О.Г. Методы автоматической классификации текстов на естественном языке / О.Г. Шевелев. — Томск: ТМЛ-Пресс, 2007.97ПРИЛОЖЕНИЕ 1. ПРОСТЕЙШАЯ СМП,ОСНОВАННАЯ НА ПРИМЕРАХ1 −module(simple_ebmt_decoder).2 −export([decode/1]).34 %% Простой фразовый декодировщик для системы машинного перевода основанной на примерах5 decode(Input_string) −>6Word_list = words:list(Input_string),%% Разбиваем входную строку на слова.78Decoded_word_list = decode_word_list(Word_list, 6), %% Переводим список слов.make_sentence(Decoded_word_list).%% Формируем из него предложение.910 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%11 %%% Декодирование1213%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%141516%% Переводит список слов Word_list с учетом размера фразы Phrase_Size.decode_word_list(Word_list, Phrase_Size) −>%% decode_word_list(Word_list, Size, MaxSize)1718decode_word_list(Word_list, Phrase_Size, Phrase_Size).192021decode_word_list([], _, _) −> [];%% Если входной список слов пуст, значит переводить больше нечего.2223decode_word_list([ Unknown_word | Rest_word_list], 0, MaxSize) −>%% Если текущий размер рассматриваемой фразы, значитмы, не можем перевести эту фразу с начала.24252627282930313233%% Попробуем начать со второго слова.

А первое слово текущей фразы признаем неизвестным.[[Unknown_word] | decode_word_list(Rest_word_list, MaxSize, MaxSize)];decode_word_list(Word_list, Size, MaxSize)−>%% Разбиваем список слов на 2 части.%% Первая − фраза, которую хотим перевести. Вторая − остаток предляжения.case Size < erlang:length(Word_list) oftrue −>{First_Ngram, Rest_word_list } = lists:split(Size, Word_list);false −>343536end,3738%% Пытаемяc перевести фразу.case try_to_translate(First_Ngram) of3940414243First_Ngram = Word_list,Rest_word_list = []{no} −> %% Если не удалось, возьмем фразу поменьшеdecode_word_list(Word_list, Size−1, MaxSize);Val −> %% Если удалось, переводим дальше.[ Val | decode_word_list(Rest_word_list, Size, MaxSize)]end.9844454647try_to_translate(Ngram) −>case Ngram of % Таблица соотвествий слов.[”i”, ”have”, ”a”, ”big”, ”fat”, ”cat”] −>484950[”u”, ”menja”, ”est’”, ”bolshoj”, ”zhirnij”, ”kot”];[”i”, ”have”, ”a”, ”big”, ”fat”, ”rat”] −>[”u”, ”menja”, ”est’”, ”bolshoj”, ”zhirnij”, ”krys”];5152[”i”, ”have”] −> [”ja”, ”imeju”];[”have”, ”a”] −> [”imet’”];535455[”a”, ”big”] −> [”bolshoj”];[”big”, ”fat”] −> [”ochen’”, ”zhirnij”];[”fat”, ”cat”] −> [”zhirnij”, ”kot”];5657[”i”] −> [”ja”];[”have”] −> [”imet’”];585960[”big”] −> [”bolshoj”];[”fat”] −> [”zhirnij”];[”cat”] −> [”kot”];6162636465[”rat”] −> [”krysa”];% −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−Val −> {no}end.6667%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% Формирование предложения686970%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%7172make_sentence(List) −>string:join(join_phrases(List), [32]).737475join_phrases([]) −> [];join_phrases([Phrase|Tail] = List) −>[join_phrase(Phrase) | join_phrases(Tail)].7677join_phrase(Phrase) −>78string:join(Phrase, [32]).99ПРИЛОЖЕНИЕ 2.

EM АЛГОРИТМEM-алгоритм (expectation-maximization) - алгоритм, используемый в математической статистике для нахождения оценок максимального правдоподобия параметров вероятностных моделей, в случае, когда модель зависитот некоторых скрытых переменных. Каждая итерация алгоритма состоит издвух шагов. На E-шаге (expectation) вычисляется ожидаемое значение функции правдоподобия, при этом скрытые переменные рассматриваются как наблюдаемые.

На M-шаге (maximization) вычисляется оценка максимального правдоподобия, таким образом увеличивается ожидаемое правдоподобие,вычисляемое на E-шаге. Затем это значение используется для E-шага на следующей итерации. Алгоритм выполняется до сходимости.EXPECTATIONP (a|Πe , Πr ) =P (Πe , a|Πr )P (Πe , Πr )Числитель:le∏εP (Πe , a|Πr ) =t(ωej |ωra(j) )(lr + 1)le j=1Знаменатель:P (Πe , Πr ) =∑P (Πe , a|Πr ) =a=lr∑a(1)=0...lr∑a(le )=0le∏εt(ωej |ωra(j) ) =(lr + 1)le j=1lrlrle∑∑∏ε...t(ωej |ωra(j) ) ==(lr + 1)lej=1a(1)=0a(le )=0100le ∑lr∏εt(ωej |ωri );=(lr + 1)le j=1 i=0Таким образом:P (A|Πe , Πr ) =P (Πe , A|Πr )=P (Πe , Πr )le∏εt(ωej |ωra(j) )(lr + 1)le j=1lrle ∑∏εt(ωej |ωri )(lr + 1)le j=1 i=0;et(ωej |ωra(j) )P (Πe , A|Πr ) ∏=;P (A|Πe , Πr ) =lrP (Πe , Πr )∑j=1t(ωej |ωri )li=0MAXIMIZATIONcounts(ωe |ωr ; Πe , Πr ) =∑P (a|Πe , Πr ) ·aδ(ωe , ωej ) · δ(ωr , ωra(j) );j=1t(ωe |ωr )counts(ωe |ωr ; Πe , Πr ) =le∑le∑t(ωe |ωra(j) )·le∑δ(ωe , ωej ) ·j=1i=0j=1∑counts(ωe |ωr ; Πe , Πr )Πe ,Πrt(ωe |ωr ; Πe , Πr ) = ∑ ∑ωr Πe ,Πrcounts(ωe |ωr ; Πe , Πr )le∑;δ(ωr , ωri );101ПРИЛОЖЕНИЕ 3.

МОДЕЛЬ IBM 1Обучить-Модель-IBM-1 (t(ωe |ωr ), Θe , Θr )1 ∀ ωe ∈ Πe ∈ Θe :2∀ωr ∈ Πr ∈ Θr :3t(ωe |ωr ) ← u, u ∈ R;4 Инициализируем таблицу t(ωe |ωr ) одинаковыми значениями.5 пока не сойдется :6∀ ωe ∈ Πe ∈ Θe : Инициализируем остальные таблицы.7∀ωr ∈ Πr ∈ Θr :8counts(ωe |ωr ) ← 0; total(ωr ) ← 0;9∀ Πe , Πr ∈ Θe , Θr : Вычисляем нормализациию.10∀ ω e ∈ Πe :11stotal(ωe ) ← 0;12∀ ω r ∈ Πr :13stotal(ωe ) ← stotal(ωe ) + t(ωe |ωr );14∀ ωe ∈ Πe : Собираем подсчеты.15∀ ω r ∈ Πr :t(ωe |ωr )16counts(ωe |ωr ) ← counts(ωe |ωr ) +;stotal(ωe )t(ωe |ωr )17total(ωr ) ← total(ωr ) +;stotal(ωe )18∀ ωe ∈ Πe ∈ Θe : Оцениваем вероятность.19∀ωr ∈ Πr ∈ Θr :counts(ωe |ωr )20t(ωe |ωr ) ←;total(ωr )21102ПРИЛОЖЕНИЕ 4.

МОДЕЛЬ IBM 2Обучить-Модель-IBM-2 (t(ωe |ωr ), Θe , Θr )1 ∀ ωe ∈ Πe ∈ Θe :2∀ωr ∈ Πr ∈ Θr :3t(ωe |ωr ) ← u1 , u1 ∈ R;4α(πωe |πωr , lr , le ) = u2 , u2 ∈ R;5 пока не сойдется :6∀ ωe ∈ Πe ∈ Θe : Инициализируем остальные таблицы.7∀ωr ∈ Πr ∈ Θr :counts(ωe |ωr ) ← 0;total(ωr ) ← 0;8countsd (πωe |πωr , le , lr ) ← 0; totald (πωr , le , lr ) ← 0;9∀ Πe , Πr ∈ Θe , Θr : Вычисляем нормализациию.10∀ ωe ∈ Πe :11stotal(ωe ) ← 0;12∀ ωr ∈ Πr :13stotal(ωe ) ← stotal(ωe ) + t(ωe |ωr ) · α(πωe |πωr , lr , le );14∀ ωe ∈ Πe : Собираем подсчеты.15∀ ωr ∈ Πr :t(ωe |ωr ) · α(πωe |πωr , lr , le )16c←stotal(ωe )17counts(ωe |ωr ) ← counts(ωe |ωr ) + c;18total(ωr ) ← total(ωr ) + c;19countsd (πωe |πωr , le , lr ) ← countsd (πωe |πωr , le , lr ) + c;20totald (πωr , le , lr ) ← totald (ωr , le , lr ) + c;21сгладить-искажения (countsd , totald );22∀ ωe ∈ Πe ∈ Θe : Оцениваем вероятность.23∀ωr ∈ Πr ∈ Θr :counts(ωe |ωr )24t(ωe |ωr ) ←;total(ωr )25∀ (πωe , πωr , le , lr ) ∈ countsd :countsd (πωe |πωr , le , lr )26α(πωe |πωr , lr , le ) ←;totald (πωr , le , lr )27103cгладить-искажения (countsd , totald )λ ← 1.0∀ (πωe , πωr , le , lr ) ∈ countsd :v ← countsd (πωe |πωr , le , lr );если ( 0 < v < λ) :λ ← v;λ6λ← ;27 ∀ (πωe , πωr , le , lr ) ∈ countsd :8countsd (πωe |πωr , le , lr ) ← countsd (πωe |πωr , le , lr ) + λ;9 ∀ (πωr , le , lr ) ∈ totald :10totald (πωr , le , lr ) ← totald (ωr , le , lr ) · lr ;1112345.

Характеристики

Тип файла

PDF-файл

Размер

795,94 Kb

Материал

Статистическая система машинного перевода

Тип материала

Выпускная квалификационная работа (ВКР)

Предмет

Дипломы и ВКР

Высшее учебное заведение

МАИ

Список файлов ВКР

statisticheskaya-sistema-mashinnogo-perevoda-535534734-1497775675.rar

Статистическая система машинного перевода

pres

sources

src

appendix

bleu.tex

commons.tex

cover.tex

decoder.tex

language-model.tex

shannon.tex

translation-model.tex

arhitechture

common.tex

common.tex.1

decoding.tex

training.tex

evaluation

blue.tex

economics.tex

examples.tex

speed.tex

intro

titlepage.tex

toc.tex

outro

results.tex

todo.tex

principles

decoder.tex

language-model.tex

Полное содержание архива

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.