diploma-2 (1015782), страница 13
Текст из файла (страница 13)
Автоматизация процесса построения и пополнения двуязычных специализированных словарей / A.В. Липатов, А. А. Мальцев,В. В. Шило // Труды конференции «Диалог». — М.: 2005.42. Максименко, О. И. Формальные методы оценки эффективности системавтоматической обработки текста: Диссертация доктора филологическихнаук: 10.02.21 / Москва. — М., 2003.43. Максименко, О. И. Машинный семантический анализ русского языкаи его применения: Диссертация доктора физико-математических наук:9505.13.11 / Санкт-Петербургский государственный университет.
— СПб.,2006.44. Марчук, Ю. Н. Основы компьютерной лингвистики / Ю. Н. Марчук;МПУ. — Издание 2-е дополненное изд. — М.: Изд-во «Народный учитель», 2000.45. Марчук, Ю. Н. Модели перевода / Ю. Н. Марчук. — М.: Изадтельскийцентр «Академия», 2011.46. Мельчук, И. A.
Опыт теории лингвистических моделей «смысл-текст» /И. A. Мельчук. — М.: Наука, 1974.47. Мельчук, И. A. Русский язык в модели «смысл-текст» / И. A. Мельчук;Школа: «Языки русской культуры». — Москва-Вена, 1995.48. Моисеева, Н. К. Управление маркетингом: теория, практика, информационные технологии / Н. К. Моисеева, М. В. Конышева. — М.: Финансы истатистика, 2002.49. Ньюэл, М. В.
Управление проектами для профессионалов. Руководство ксдаче сертификационных экзаменов / М. В. Ньюэл. — М.: Кудиц-Пресс,2008.50. Пиотровский, Р. Г. Текст, машина, человек / Р. Г. Пиотровский. — Л.:Наука, 1975.51. Потемкин, C. Б. Автоматическая оценка качества машинного переводана основе семантической метрики / C. Б. Потемкин, Г. Е. Кедрова // Труды ΙΙ Международной научно-практической конференции, посвященнойЕвропейскому Дню языков. — Луганск: 2005.52. Потемкин, C. Б. Использование корпуса параллельных текстов для пополнения специализированного двуязычного словаря / C. Б. Потемкин,Г.
Е. Кедрова // III Международный конгресс исследователей русскогоязыка «Русский язык: исторические судьбы и современность». — М.:2007.9653. Пумпянский, A. Л. Информационная роль порядка слов в научной и технической литературе / A. Л. Пумпянский. — Мн.: ТетраСистемс, 2001.54. Рассел, С. Искусственный интеллект: современный подход / С. Рассел,П. Норвиг. — 2-е изд. изд.
— М.: Издательский дом «Вильямc», 2006.55. Рахимбердиев, Б. Н. Эволюция семантики экономической терминологии русского языка в XX веке: Диссертация канд. филологических наук:10.02.21 / Москва. — М., 2003.56. Реформатский, A. A. Введение в языковедение / A. A. Реформатский; Подред. В. A. Виноградов. — М.: Аспект Пресс, 1996.57. Рецкер, Я. И. О закономерных соответствиях при переводе на роднойязык / Я. И. Рецкер. — М.: Наука, 1950.58. Романов, А.С. Подходы к идентификации авторства текста на основе nграмм и нейронных сетей / А.С.
Романов // Молодежь и современныеинформационные технологии: Сб. тр. VI Всерос. науч.-практ. конф. студентов, аспирантов и молодых ученых. — Томск: Изд-во ТПУ, 2008.59. Романов, А.С. Структура программного комплекса для исследования подходов к идентификации авторства текстов / А.С.
Романов // Докл. Том.гос. ун-та систем управления и радиоэлектроники. — 2(18). — Томск:Изд-во ТПУ, 2008.60. Хорошилов, A. A. Теоретические основы и методы построения системфразеологического машинного перевода: Диссертация доктора технических наук: 05.13.17 / Москва. — М., 2006.61. Хроменков, П. Н. Анализ и оценка эффективности современных системмашинного перевода: Диссертация канд. филологических наук :10.02.21 /Москва. — М., 2000.62. Швейцер, А. Д. Теория перевода / А. Д.
Швейцер. — М.: Наука, 1988.63. Шевелев, О.Г. Методы автоматической классификации текстов на естественном языке / О.Г. Шевелев. — Томск: ТМЛ-Пресс, 2007.97ПРИЛОЖЕНИЕ 1. ПРОСТЕЙШАЯ СМП,ОСНОВАННАЯ НА ПРИМЕРАХ1 −module(simple_ebmt_decoder).2 −export([decode/1]).34 %% Простой фразовый декодировщик для системы машинного перевода основанной на примерах5 decode(Input_string) −>6Word_list = words:list(Input_string),%% Разбиваем входную строку на слова.78Decoded_word_list = decode_word_list(Word_list, 6), %% Переводим список слов.make_sentence(Decoded_word_list).%% Формируем из него предложение.910 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%11 %%% Декодирование1213%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%141516%% Переводит список слов Word_list с учетом размера фразы Phrase_Size.decode_word_list(Word_list, Phrase_Size) −>%% decode_word_list(Word_list, Size, MaxSize)1718decode_word_list(Word_list, Phrase_Size, Phrase_Size).192021decode_word_list([], _, _) −> [];%% Если входной список слов пуст, значит переводить больше нечего.2223decode_word_list([ Unknown_word | Rest_word_list], 0, MaxSize) −>%% Если текущий размер рассматриваемой фразы, значитмы, не можем перевести эту фразу с начала.24252627282930313233%% Попробуем начать со второго слова.
А первое слово текущей фразы признаем неизвестным.[[Unknown_word] | decode_word_list(Rest_word_list, MaxSize, MaxSize)];decode_word_list(Word_list, Size, MaxSize)−>%% Разбиваем список слов на 2 части.%% Первая − фраза, которую хотим перевести. Вторая − остаток предляжения.case Size < erlang:length(Word_list) oftrue −>{First_Ngram, Rest_word_list } = lists:split(Size, Word_list);false −>343536end,3738%% Пытаемяc перевести фразу.case try_to_translate(First_Ngram) of3940414243First_Ngram = Word_list,Rest_word_list = []{no} −> %% Если не удалось, возьмем фразу поменьшеdecode_word_list(Word_list, Size−1, MaxSize);Val −> %% Если удалось, переводим дальше.[ Val | decode_word_list(Rest_word_list, Size, MaxSize)]end.9844454647try_to_translate(Ngram) −>case Ngram of % Таблица соотвествий слов.[”i”, ”have”, ”a”, ”big”, ”fat”, ”cat”] −>484950[”u”, ”menja”, ”est’”, ”bolshoj”, ”zhirnij”, ”kot”];[”i”, ”have”, ”a”, ”big”, ”fat”, ”rat”] −>[”u”, ”menja”, ”est’”, ”bolshoj”, ”zhirnij”, ”krys”];5152[”i”, ”have”] −> [”ja”, ”imeju”];[”have”, ”a”] −> [”imet’”];535455[”a”, ”big”] −> [”bolshoj”];[”big”, ”fat”] −> [”ochen’”, ”zhirnij”];[”fat”, ”cat”] −> [”zhirnij”, ”kot”];5657[”i”] −> [”ja”];[”have”] −> [”imet’”];585960[”big”] −> [”bolshoj”];[”fat”] −> [”zhirnij”];[”cat”] −> [”kot”];6162636465[”rat”] −> [”krysa”];% −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−Val −> {no}end.6667%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% Формирование предложения686970%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%7172make_sentence(List) −>string:join(join_phrases(List), [32]).737475join_phrases([]) −> [];join_phrases([Phrase|Tail] = List) −>[join_phrase(Phrase) | join_phrases(Tail)].7677join_phrase(Phrase) −>78string:join(Phrase, [32]).99ПРИЛОЖЕНИЕ 2.
EM АЛГОРИТМEM-алгоритм (expectation-maximization) - алгоритм, используемый в математической статистике для нахождения оценок максимального правдоподобия параметров вероятностных моделей, в случае, когда модель зависитот некоторых скрытых переменных. Каждая итерация алгоритма состоит издвух шагов. На E-шаге (expectation) вычисляется ожидаемое значение функции правдоподобия, при этом скрытые переменные рассматриваются как наблюдаемые.
На M-шаге (maximization) вычисляется оценка максимального правдоподобия, таким образом увеличивается ожидаемое правдоподобие,вычисляемое на E-шаге. Затем это значение используется для E-шага на следующей итерации. Алгоритм выполняется до сходимости.EXPECTATIONP (a|Πe , Πr ) =P (Πe , a|Πr )P (Πe , Πr )Числитель:le∏εP (Πe , a|Πr ) =t(ωej |ωra(j) )(lr + 1)le j=1Знаменатель:P (Πe , Πr ) =∑P (Πe , a|Πr ) =a=lr∑a(1)=0...lr∑a(le )=0le∏εt(ωej |ωra(j) ) =(lr + 1)le j=1lrlrle∑∑∏ε...t(ωej |ωra(j) ) ==(lr + 1)lej=1a(1)=0a(le )=0100le ∑lr∏εt(ωej |ωri );=(lr + 1)le j=1 i=0Таким образом:P (A|Πe , Πr ) =P (Πe , A|Πr )=P (Πe , Πr )le∏εt(ωej |ωra(j) )(lr + 1)le j=1lrle ∑∏εt(ωej |ωri )(lr + 1)le j=1 i=0;et(ωej |ωra(j) )P (Πe , A|Πr ) ∏=;P (A|Πe , Πr ) =lrP (Πe , Πr )∑j=1t(ωej |ωri )li=0MAXIMIZATIONcounts(ωe |ωr ; Πe , Πr ) =∑P (a|Πe , Πr ) ·aδ(ωe , ωej ) · δ(ωr , ωra(j) );j=1t(ωe |ωr )counts(ωe |ωr ; Πe , Πr ) =le∑le∑t(ωe |ωra(j) )·le∑δ(ωe , ωej ) ·j=1i=0j=1∑counts(ωe |ωr ; Πe , Πr )Πe ,Πrt(ωe |ωr ; Πe , Πr ) = ∑ ∑ωr Πe ,Πrcounts(ωe |ωr ; Πe , Πr )le∑;δ(ωr , ωri );101ПРИЛОЖЕНИЕ 3.
МОДЕЛЬ IBM 1Обучить-Модель-IBM-1 (t(ωe |ωr ), Θe , Θr )1 ∀ ωe ∈ Πe ∈ Θe :2∀ωr ∈ Πr ∈ Θr :3t(ωe |ωr ) ← u, u ∈ R;4 Инициализируем таблицу t(ωe |ωr ) одинаковыми значениями.5 пока не сойдется :6∀ ωe ∈ Πe ∈ Θe : Инициализируем остальные таблицы.7∀ωr ∈ Πr ∈ Θr :8counts(ωe |ωr ) ← 0; total(ωr ) ← 0;9∀ Πe , Πr ∈ Θe , Θr : Вычисляем нормализациию.10∀ ω e ∈ Πe :11stotal(ωe ) ← 0;12∀ ω r ∈ Πr :13stotal(ωe ) ← stotal(ωe ) + t(ωe |ωr );14∀ ωe ∈ Πe : Собираем подсчеты.15∀ ω r ∈ Πr :t(ωe |ωr )16counts(ωe |ωr ) ← counts(ωe |ωr ) +;stotal(ωe )t(ωe |ωr )17total(ωr ) ← total(ωr ) +;stotal(ωe )18∀ ωe ∈ Πe ∈ Θe : Оцениваем вероятность.19∀ωr ∈ Πr ∈ Θr :counts(ωe |ωr )20t(ωe |ωr ) ←;total(ωr )21102ПРИЛОЖЕНИЕ 4.
МОДЕЛЬ IBM 2Обучить-Модель-IBM-2 (t(ωe |ωr ), Θe , Θr )1 ∀ ωe ∈ Πe ∈ Θe :2∀ωr ∈ Πr ∈ Θr :3t(ωe |ωr ) ← u1 , u1 ∈ R;4α(πωe |πωr , lr , le ) = u2 , u2 ∈ R;5 пока не сойдется :6∀ ωe ∈ Πe ∈ Θe : Инициализируем остальные таблицы.7∀ωr ∈ Πr ∈ Θr :counts(ωe |ωr ) ← 0;total(ωr ) ← 0;8countsd (πωe |πωr , le , lr ) ← 0; totald (πωr , le , lr ) ← 0;9∀ Πe , Πr ∈ Θe , Θr : Вычисляем нормализациию.10∀ ωe ∈ Πe :11stotal(ωe ) ← 0;12∀ ωr ∈ Πr :13stotal(ωe ) ← stotal(ωe ) + t(ωe |ωr ) · α(πωe |πωr , lr , le );14∀ ωe ∈ Πe : Собираем подсчеты.15∀ ωr ∈ Πr :t(ωe |ωr ) · α(πωe |πωr , lr , le )16c←stotal(ωe )17counts(ωe |ωr ) ← counts(ωe |ωr ) + c;18total(ωr ) ← total(ωr ) + c;19countsd (πωe |πωr , le , lr ) ← countsd (πωe |πωr , le , lr ) + c;20totald (πωr , le , lr ) ← totald (ωr , le , lr ) + c;21сгладить-искажения (countsd , totald );22∀ ωe ∈ Πe ∈ Θe : Оцениваем вероятность.23∀ωr ∈ Πr ∈ Θr :counts(ωe |ωr )24t(ωe |ωr ) ←;total(ωr )25∀ (πωe , πωr , le , lr ) ∈ countsd :countsd (πωe |πωr , le , lr )26α(πωe |πωr , lr , le ) ←;totald (πωr , le , lr )27103cгладить-искажения (countsd , totald )λ ← 1.0∀ (πωe , πωr , le , lr ) ∈ countsd :v ← countsd (πωe |πωr , le , lr );если ( 0 < v < λ) :λ ← v;λ6λ← ;27 ∀ (πωe , πωr , le , lr ) ∈ countsd :8countsd (πωe |πωr , le , lr ) ← countsd (πωe |πωr , le , lr ) + λ;9 ∀ (πωr , le , lr ) ∈ totald :10totald (πωr , le , lr ) ← totald (ωr , le , lr ) · lr ;1112345.















