diploma-2 (1015782)
Текст из файла
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ«МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ(национальный исследовательский университет)» (МАИ)Факультет №8Прикладная математика и физикаРаспространяется:на правах рукописи.ОТЧЕТо дипломной работепо теме:Распределенное программно-информационное обеспечениестатистической модели перевода естественных языковРуководитель работы:Консультант по специальной части:Исполнитель студент:Москва 2012 г.Е. C. ГавриловО.
И. ДенисоваИ. К. Никитин1ОТ АВТОРАТекущая сборка документа: 19 января 2012 г. 4:36Техника в жизни человека играет значительную роль и машинный переводне стал исключением. Для облегчения и упрощения перевода была сделанапопытка разработать распределенную статистическую систему машинногоперевода.Работа сверстана c использованием XELaTEX. Документ оформлен по требованиям Московского Авиационного Института, не всегда эти требованиясоответствуют принятым государственным или мировым стандартам, да издравому смыслу.
Так что, уважаемые читатели, — не взыщите. При обнаружении опечаток и ошибок, пожалуйста, обращайтесь по адресу: w@w-495.ru.Версия документа собрана специально для Евгения Сергеевича Гаврилова,ассистента кафедры 806 МАИ.2РЕФЕРАТДипломная работа содержит 104 страницы, 13 рисунков, 21 таблицу,4 приложения. Список использованных источников содержит 63 позиции.Ключевые слова:N-ГРАММЫ, ДЕКОДИРОВАНИЕ, ДЕРЕВО СУПЕРВИЗИИ, ЖАДНЫЙИНКРЕМЕНТНЫЙ ПОИСК, МАШИННОЕ ОБУЧЕНИЕ, МОДЕЛЬ ПЕРЕВОДА, МОДЕЛЬ ЯЗЫКА, НАУЧНЫЙ ТЕКСТ, ОСОБЕННОСТИНАУЧНО-ТЕХНИЧЕСКОЙ ЛИТЕРАТУРЫ, ОТКРЫТАЯ ТЕЛЕКОММУНИКАЦИОННАЯ ПЛАТФОРМА, ПАРАЛЛЕЛЬНЫЙ КОРПУС, ПЕРЕВОД,ПОДХОДЫ К МАШИННОМУ ПЕРЕВОДУ, ПОИСК ПО ПЕРВОМУНАИЛУЧШЕМУ СОВПАДЕНИЮ, РАСПРЕДЕЛЕННЫЕ ВЫЧИСЛЕНИЯ,СИСТЕМА МАШИННОГО ПЕРЕВОДА, СИСТЕМА СТАТИСТИЧЕСКОГО МАШИННОГО ПЕРЕВОДА, СТАТИСТИЧЕСКИЙ МАШИННЫЙПЕРЕВОД, СУПЕРВИЗОР, ТРАНСФЕРНАЯ СИСТЕМА МАШИННОГОПЕРЕВОДА, ТЕКСТОВЫЙ КОРПУС, ЯЗЫКОВАЯ ПАРА.Работа посвящена разработке распределенной статистической системыперевода естественных языков.
Актуальность темы оправдана появлениембольшого количества научно-технических документов и необходимостьюоперативного их перевода на другие языки. В работе проведен краткий обзорсуществующих типов систем машинного перевода, описана теоретическаябаза статистических систем машинного перевода, изложен нетрадиционный подход к созданию таких систем. В результате работы было созданораспределенное программно-информационное обеспечение статистическоймодели перевода научно-технических текстов на примере русского и английского языков.
Система представляет набор приложений взаимодействующихс общей базой данных. Набор приложений можно разделить на два класса:а) приложения необходимые для обучения системы по уже имеющимсяпереводам, которые выполнены человеком;б) приложения осуществляющие подбор наиболее подходящих переводных эквивалентов.3Алгоритмы обучения системы были разработаны c учетом особенностей научных текстов и слабо применимы для других стилей литературы. За неимением текстов нужного объема и качества, в рамках данной работы обучение системы проводилось на комбинированном наборе переводов, состоящим преимущественно из официально-делового и публицистического стилей литературы. Для подбора наиболее подходящих переводных эквивалентов используется жадный инкрементный поиск.
Его основным преимуществом является высокая скорость работы, что может оказаться важным дляоперативного перевода. Качество перевода разработанной системы несколько уступает существующим аналогам. Это объясняется особенностями исходных данных и характером используемых алгоритмов. Скорость работысистемы в несколько раз превосходит скорости доступных систем подобного класса. Для сравнения систем использовался одинаковый набор данных.В экономической части проведен расчет стоимости разработанной стемы.В разделе посвященном охране труда и окружающей среды описано какихпоследствий можно избежать при использовании созданной системы.4СОДЕРЖАНИЕСписок терминов и их сокращений .
. . . . . . . . . . . . . . . . . .51. Основная часть . . . . . . . . . . . . . . . . . . .1.1. Введение . . . . . . . . . . . . . . . . . . .1.2. К проблеме машинного перевода . . . . . .1.3. Математическая база ССМП . . . . . . .
.1.4. Предлагаемый подход к разработке ССМП1.5. Реализация ССМП . . . . . . . . . . . . . .1.6. Тестирование разработанной ССМП . . . ..............................................................................679213043532. Экономическая часть . . . . . . . . . . . . .2.1. Введение . . . . . . . . . . . . . . . . .2.2. Построение сетевой модели . . .
. . .2.3. Расчет затрат на разработку . . . . . . .2.4. Целесообразность применения системы.......................................................58595966713. Охрана труда и окружающей среды . . . . . . . . . . . . . . . . . .3.1. Введение . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .3.2. Основная часть . . . . . . . . . . . . . . . . . . . . . . . . . . .757677Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .88Список использованных источников . . . . . . . . . . . . . . . . . .91Приложение 1. Простейшая СМП, основанная на примерах . .
. .97Приложение 2. EM алгоритм . . . . . . . . . . . . . . . . . . . . . . .99..........Приложение 3. Модель IBM 1 . . . . . . . . . . . . . . . . . . . . . . . 101Приложение 4. Модель IBM 2 . . . . . . . . . . . . . . . . . . . . . . . 1025СПИСОК ТЕРМИНОВ И ИХ СОКРАЩЕНИЙCMП — система машинного перевода.CCMП — статистическая система машинного перевода.Корпус (лингвистический корпус) — называют совокупность текстов, собранных в соответствии с определенном принципами, размеченных поопределенному стандарту, в этой работе корпусом называют совокупность предложений на конкретном языке, разделенных символом перевода строки.n-грамма — подпоследовательность из n элементов из данной последовательности текста или речи, в данной работе рассматривается как подпоследовательность слов.ОТП (OTP) — открытая телекоммуникационная платформа (open telecomplatform).Cупервизор (в терминах ОТП) — процесс (как совокупность взаимосвязанных и взаимодействующих действий), следящий за дочерними процессами, отвечающий за их запуск и остановку.Приложение (в терминах ОТП) — компонент, который можно запускать иостанавливать как единое целое, и который также может быть использован повторно в других системах.Дерево контроля (супервизии) — совокупность рабочих процессов вычислительной системы, их супервизоров представленное в виде древовидной структуры.61.
ОСНОВНАЯ ЧАСТЬ71.1. ВВЕДЕНИЕМы живем в мире информационных технологий, которые прочно вошлив нашу жизнь. Мы пользуемся современными средствами связи. Компьютерпревратился в неотъемлемый элемент нашей жизни не только на рабочем месте, но и в повседневной жизни. Быстрое развитие новых информационныхтехнологий свидетельствует о всевозрастающей роли компьютерной техникив мировом информационном пространстве.С каждым днем увеличивается число пользователей Интернета. Все больше сетевые технологии оказывают влияние на развитие самой науки и техники. За последние годы сильно начал меняться характер образования, переходя на уровень дистанционного. Этот переход осуществляется даже в классических вузах.
Развитие науки и образования, да и вообще формированиемирового информационного пространства значительно тормозится из-за такназываемого языкового барьера. Эта проблема пока не нашла своего кардинального решения.Последние годы объем предназначенной для перевода информации увеличился. Создание универсального языка типа Эсперанто, «эльфийских языков» или какого-либо другого языка не привели к изменению ситуации. Использование традиционных средств межкультурной коммуникации можетбыть достойным выходом.
Нынешний век диктует свои условия: информация меняется двадцать четыре часа в сутки, широко применяются электронные средства связи. В такой ситуации классический подход к осуществлениюперевода не всегда оправдывает себя. Он требует значительных капиталовложений и временных затрат. В некоторых случаях более целесообразнымпредставляется использование машинного или автоматического перевода.Целью работы является создание статистической системы машинного перевода.
Обозначенная цель подразумевает проектирование распределеннойсистемы, разработку алгоритмов статистического анализа текстов, реализацию и тестирование программного обеспечения.8Цель определила следующие задачи:• исследование существующих статистических систем машинного перевода;• изучение математических основ построения статистических систем машинного перевода;• изучение лингвистических основ машинного перевода;• изучение возможных вариантов хранения данных в рамках задачи машинного перевода;• составление требований и ограничений системы;• разработка численного алгоритма обучения системы;• разработка алгоритма поиска верного варианта перевода на основе обученной модели;• составление требований к входным данным численного алгоритма;• составление требований к выходным данным алгоритма поиска ;• разработка структуры хранения данных;• разработка распределенной архитектуры;• разработка работающей обучающейся модели на тестовых входныхданных;• разработка работающего поискового модуля на тестовых входных данных;• подбор нужных корпусов текстов;• разработка распределенной обучающейся системы;• разработка алгоритмов предварительной обработки входных корпусовтекста;• корректировка системы с учетом входных данных;• тестирование приложения в совокупности отладка всей системы.91.2.
К ПРОБЛЕМЕ МАШИННОГО ПЕРЕВОДАВ настоящее время имеется достаточно широкий выбор пакетов программ, облегчающих труд переводчика, которые условно можно подразделить на две основные группы:• электронные словари;• системы машинного перевода.Системы машинного перевода текстов с одних естественных языковна другие моделируют работу человека-переводчика. Их полезность зависит от того, в какой степени в них учитываются объективные законы языка и мышления. Законы эти пока еще изучены плохо. Поэтому, решая задачу машинного перевода, необходимо учитывать опыт межнациональногообщения и опыт переводческой деятельности, накопленный человечеством.В процессе перевода в качестве основных единиц смысла выступают не отдельные слова, а фразеологические словосочетания, выражающие понятия.Именно понятия являются элементарными мыслительными образами.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.















