diploma-1 (1015781), страница 13
Текст из файла (страница 13)
Кормалев, Д.А. Основы теории автоматической обработки текста /Д.А Кормалев, Е.А. Сулейманова; Университет города ПереславльЗалесский. — Переславль-Залесский, 2005.41. Липатов, A.В. Автоматизация процесса построения и пополнения двуязычных специализированных словарей / A.В. Липатов, А. А. Мальцев,В. В. Шило // Труды конференции «Диалог». — М.: 2005.42. Максименко, О.
И. Формальные методы оценки эффективности системавтоматической обработки текста: Диссертация доктора филологическихнаук: 10.02.21 / Москва. — М., 2003.43. Максименко, О. И. Машинный семантический анализ русского языкаи его применения: Диссертация доктора физико-математических наук:9505.13.11 / Санкт-Петербургский государственный университет. — СПб.,2006.44. Марчук, Ю. Н. Основы компьютерной лингвистики / Ю. Н. Марчук;МПУ. — Издание 2-е дополненное изд.
— М.: Изд-во «Народный учитель», 2000.45. Марчук, Ю. Н. Модели перевода / Ю. Н. Марчук. — М.: Изадтельскийцентр «Академия», 2011.46. Мельчук, И. A. Опыт теории лингвистических моделей «смысл-текст» /И. A. Мельчук. — М.: Наука, 1974.47. Мельчук, И. A. Русский язык в модели «смысл-текст» / И. A. Мельчук;Школа: «Языки русской культуры». — Москва-Вена, 1995.48. Моисеева, Н. К. Управление маркетингом: теория, практика, информационные технологии / Н.
К. Моисеева, М. В. Конышева. — М.: Финансы истатистика, 2002.49. Ньюэл, М. В. Управление проектами для профессионалов. Руководство ксдаче сертификационных экзаменов / М. В. Ньюэл. — М.: Кудиц-Пресс,2008.50. Пиотровский, Р. Г. Текст, машина, человек / Р.
Г. Пиотровский. — Л.:Наука, 1975.51. Потемкин, C. Б. Автоматическая оценка качества машинного переводана основе семантической метрики / C. Б. Потемкин, Г. Е. Кедрова // Труды ΙΙ Международной научно-практической конференции, посвященнойЕвропейскому Дню языков. — Луганск: 2005.52. Потемкин, C. Б. Использование корпуса параллельных текстов для пополнения специализированного двуязычного словаря / C. Б. Потемкин,Г.
Е. Кедрова // III Международный конгресс исследователей русскогоязыка «Русский язык: исторические судьбы и современность». — М.:2007.9653. Пумпянский, A. Л. Информационная роль порядка слов в научной и технической литературе / A. Л. Пумпянский. — Мн.: ТетраСистемс, 2001.54. Рассел, С. Искусственный интеллект: современный подход / С. Рассел,П.
Норвиг. — 2-е изд. изд. — М.: Издательский дом «Вильямc», 2006.55. Рахимбердиев, Б. Н. Эволюция семантики экономической терминологии русского языка в XX веке: Диссертация канд. филологических наук:10.02.21 / Москва. — М., 2003.56. Реформатский, A. A. Введение в языковедение / A. A. Реформатский; Подред. В. A. Виноградов. — М.: Аспект Пресс, 1996.57. Рецкер, Я. И. О закономерных соответствиях при переводе на роднойязык / Я. И. Рецкер.
— М.: Наука, 1950.58. Романов, А.С. Подходы к идентификации авторства текста на основе nграмм и нейронных сетей / А.С. Романов // Молодежь и современныеинформационные технологии: Сб. тр. VI Всерос. науч.-практ. конф. студентов, аспирантов и молодых ученых. — Томск: Изд-во ТПУ, 2008.59. Романов, А.С.
Структура программного комплекса для исследования подходов к идентификации авторства текстов / А.С. Романов // Докл. Том.гос. ун-та систем управления и радиоэлектроники. — 2(18). — Томск:Изд-во ТПУ, 2008.60. Хорошилов, A. A. Теоретические основы и методы построения системфразеологического машинного перевода: Диссертация доктора технических наук: 05.13.17 / Москва. — М., 2006.61. Хроменков, П. Н. Анализ и оценка эффективности современных системмашинного перевода: Диссертация канд.
филологических наук :10.02.21 /Москва. — М., 2000.62. Швейцер, А. Д. Теория перевода / А. Д. Швейцер. — М.: Наука, 1988.63. Шевелев, О.Г. Методы автоматической классификации текстов на естественном языке / О.Г. Шевелев. — Томск: ТМЛ-Пресс, 2007.97ПРИЛОЖЕНИЕ 1. ПРОСТЕЙШАЯ СМПОСНОВАННАЯ НА ПРИМЕРАХ1 −module(simple_ebmt_decoder).2 −export([decode/1]).34 %% Простой фразовый декодировщик для системы машинного перевода основанной на примерах5 decode(Input_string) −>6Word_list = words:list(Input_string),%% Разбиваем входную строку на слова.78Decoded_word_list = decode_word_list(Word_list, 6), %% Переводим список слов.make_sentence(Decoded_word_list).%% Формируем из него предложение.910 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%11 %%% Декодирование1213%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%141516%% Переводит список слов Word_list с учетом размера фразы Phrase_Size.decode_word_list(Word_list, Phrase_Size) −>%% decode_word_list(Word_list, Size, MaxSize)1718decode_word_list(Word_list, Phrase_Size, Phrase_Size).192021decode_word_list([], _, _) −> [];%% Если входной список слов пуст, значит переводить больше нечего.2223decode_word_list([ Unknown_word | Rest_word_list], 0, MaxSize) −>%% Если текущий размер рассматриваемой фразы, значитмы, не можем перевести эту фразу с начала.24252627282930313233%% Попробуем начать со второго слова.
А первое слово текущей фразы признаем неизвестным.[[Unknown_word] | decode_word_list(Rest_word_list, MaxSize, MaxSize)];decode_word_list(Word_list, Size, MaxSize)−>%% Разбиваем список слов на 2 части.%% Первая − фраза, которую хотим перевести. Вторая − остаток предляжения.case Size < erlang:length(Word_list) oftrue −>{First_Ngram, Rest_word_list } = lists:split(Size, Word_list);false −>343536end,3738%% Пытаемяc перевести фразу.case try_to_translate(First_Ngram) of3940414243First_Ngram = Word_list,Rest_word_list = []{no} −> %% Если не удалось, возьмем фразу поменьшеdecode_word_list(Word_list, Size−1, MaxSize);Val −> %% Если удалось, переводим дальше.[ Val | decode_word_list(Rest_word_list, Size, MaxSize)]end.9844454647try_to_translate(Ngram) −>case Ngram of % Таблица соотвествий слов.[”i”, ”have”, ”a”, ”big”, ”fat”, ”cat”] −>484950[”u”, ”menja”, ”est’”, ”bolshoj”, ”zhirnij”, ”kot”];[”i”, ”have”, ”a”, ”big”, ”fat”, ”rat”] −>[”u”, ”menja”, ”est’”, ”bolshoj”, ”zhirnij”, ”krys”];5152[”i”, ”have”] −> [”ja”, ”imeju”];[”have”, ”a”] −> [”imet’”];535455[”a”, ”big”] −> [”bolshoj”];[”big”, ”fat”] −> [”ochen’”, ”zhirnij”];[”fat”, ”cat”] −> [”zhirnij”, ”kot”];5657[”i”] −> [”ja”];[”have”] −> [”imet’”];585960[”big”] −> [”bolshoj”];[”fat”] −> [”zhirnij”];[”cat”] −> [”kot”];6162636465[”rat”] −> [”krysa”];% −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−Val −> {no}end.6667%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% Формирование предложения686970%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%7172make_sentence(List) −>string:join(join_phrases(List), [32]).737475join_phrases([]) −> [];join_phrases([Phrase|Tail] = List) −>[join_phrase(Phrase) | join_phrases(Tail)].7677join_phrase(Phrase) −>78string:join(Phrase, [32]).99ПРИЛОЖЕНИЕ 2.
EM АЛГОРИТМEM-алгоритм (expectation-maximization) - алгоритм, используемый в математической статистике для нахождения оценок максимального правдоподобия параметров вероятностных моделей, в случае, когда модель зависитот некоторых скрытых переменных. Каждая итерация алгоритма состоит издвух шагов. На E-шаге (expectation) вычисляется ожидаемое значение функции правдоподобия, при этом скрытые переменные рассматриваются как наблюдаемые.
На M-шаге (maximization) вычисляется оценка максимального правдоподобия, таким образом увеличивается ожидаемое правдоподобие,вычисляемое на E-шаге. Затем это значение используется для E-шага на следующей итерации. Алгоритм выполняется до сходимости.EXPECTATIONP (a|Πe , Πr ) =P (Πe , a|Πr )P (Πe , Πr )Числитель:le∏εP (Πe , a|Πr ) =t(ωej |ωra(j) )(lr + 1)le j=1Знаменатель:P (Πe , Πr ) =∑P (Πe , a|Πr ) =a=lr∑a(1)=0...lr∑a(le )=0le∏εt(ωej |ωra(j) ) =(lr + 1)le j=1lrlrle∑∑∏ε...t(ωej |ωra(j) ) ==(lr + 1)lej=1a(1)=0a(le )=0100le ∑lr∏εt(ωej |ωri );=(lr + 1)le j=1 i=0Таким образом:P (A|Πe , Πr ) =P (Πe , A|Πr )=P (Πe , Πr )le∏εt(ωej |ωra(j) )(lr + 1)le j=1lrle ∑∏εt(ωej |ωri )(lr + 1)le j=1 i=0;et(ωej |ωra(j) )P (Πe , A|Πr ) ∏=;P (A|Πe , Πr ) =lrP (Πe , Πr )∑j=1t(ωej |ωri )li=0MAXIMIZATIONcounts(ωe |ωr ; Πe , Πr ) =∑P (a|Πe , Πr ) ·aδ(ωe , ωej ) · δ(ωr , ωra(j) );j=1t(ωe |ωr )counts(ωe |ωr ; Πe , Πr ) =le∑le∑t(ωe |ωra(j) )·le∑δ(ωe , ωej ) ·j=1i=0j=1∑counts(ωe |ωr ; Πe , Πr )Πe ,Πrt(ωe |ωr ; Πe , Πr ) = ∑ ∑ωr Πe ,Πrcounts(ωe |ωr ; Πe , Πr )le∑;δ(ωr , ωri );101ПРИЛОЖЕНИЕ 3.
МОДЕЛЬ IBM 1Обучить-Модель-IBM-1 (t(ωe |ωr ), Θe , Θr )1 ∀ ωe ∈ Πe ∈ Θe :2∀ωr ∈ Πr ∈ Θr :3t(ωe |ωr ) ← u, u ∈ R;4 Инициализируем таблицу t(ωe |ωr ) одинаковыми значениями.5 пока не сойдется :6∀ ωe ∈ Πe ∈ Θe : Инициализируем остальные таблицы.7∀ωr ∈ Πr ∈ Θr :8counts(ωe |ωr ) ← 0; total(ωr ) ← 0;9∀ Πe , Πr ∈ Θe , Θr : Вычисляем нормализациию.10∀ ω e ∈ Πe :11stotal(ωe ) ← 0;12∀ ω r ∈ Πr :13stotal(ωe ) ← stotal(ωe ) + t(ωe |ωr );14∀ ωe ∈ Πe : Собираем подсчеты.15∀ ω r ∈ Πr :t(ωe |ωr )16counts(ωe |ωr ) ← counts(ωe |ωr ) +;stotal(ωe )t(ωe |ωr )17total(ωr ) ← total(ωr ) +;stotal(ωe )18∀ ωe ∈ Πe ∈ Θe : Оцениваем вероятность.19∀ωr ∈ Πr ∈ Θr :counts(ωe |ωr )20t(ωe |ωr ) ←;total(ωr )21102ПРИЛОЖЕНИЕ 4.















