diploma-2 (1015782)

Файл №1015782 diploma-2 (Статистическая система машинного перевода)diploma-2 (1015782)2017-06-18СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ«МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ(национальный исследовательский университет)» (МАИ)Факультет №8Прикладная математика и физикаРаспространяется:на правах рукописи.ОТЧЕТо дипломной работепо теме:Распределенное программно-информационное обеспечениестатистической модели перевода естественных языковРуководитель работы:Консультант по специальной части:Исполнитель студент:Москва 2012 г.Е. C. ГавриловО.

И. ДенисоваИ. К. Никитин1ОТ АВТОРАТекущая сборка документа: 19 января 2012 г. 4:36Техника в жизни человека играет значительную роль и машинный переводне стал исключением. Для облегчения и упрощения перевода была сделанапопытка разработать распределенную статистическую систему машинногоперевода.Работа сверстана c использованием XELaTEX. Документ оформлен по требованиям Московского Авиационного Института, не всегда эти требованиясоответствуют принятым государственным или мировым стандартам, да издравому смыслу.

Так что, уважаемые читатели, — не взыщите. При обнаружении опечаток и ошибок, пожалуйста, обращайтесь по адресу: w@w-495.ru.Версия документа собрана специально для Евгения Сергеевича Гаврилова,ассистента кафедры 806 МАИ.2РЕФЕРАТДипломная работа содержит 104 страницы, 13 рисунков, 21 таблицу,4 приложения. Список использованных источников содержит 63 позиции.Ключевые слова:N-ГРАММЫ, ДЕКОДИРОВАНИЕ, ДЕРЕВО СУПЕРВИЗИИ, ЖАДНЫЙИНКРЕМЕНТНЫЙ ПОИСК, МАШИННОЕ ОБУЧЕНИЕ, МОДЕЛЬ ПЕРЕВОДА, МОДЕЛЬ ЯЗЫКА, НАУЧНЫЙ ТЕКСТ, ОСОБЕННОСТИНАУЧНО-ТЕХНИЧЕСКОЙ ЛИТЕРАТУРЫ, ОТКРЫТАЯ ТЕЛЕКОММУНИКАЦИОННАЯ ПЛАТФОРМА, ПАРАЛЛЕЛЬНЫЙ КОРПУС, ПЕРЕВОД,ПОДХОДЫ К МАШИННОМУ ПЕРЕВОДУ, ПОИСК ПО ПЕРВОМУНАИЛУЧШЕМУ СОВПАДЕНИЮ, РАСПРЕДЕЛЕННЫЕ ВЫЧИСЛЕНИЯ,СИСТЕМА МАШИННОГО ПЕРЕВОДА, СИСТЕМА СТАТИСТИЧЕСКОГО МАШИННОГО ПЕРЕВОДА, СТАТИСТИЧЕСКИЙ МАШИННЫЙПЕРЕВОД, СУПЕРВИЗОР, ТРАНСФЕРНАЯ СИСТЕМА МАШИННОГОПЕРЕВОДА, ТЕКСТОВЫЙ КОРПУС, ЯЗЫКОВАЯ ПАРА.Работа посвящена разработке распределенной статистической системыперевода естественных языков.

Актуальность темы оправдана появлениембольшого количества научно-технических документов и необходимостьюоперативного их перевода на другие языки. В работе проведен краткий обзорсуществующих типов систем машинного перевода, описана теоретическаябаза статистических систем машинного перевода, изложен нетрадиционный подход к созданию таких систем. В результате работы было созданораспределенное программно-информационное обеспечение статистическоймодели перевода научно-технических текстов на примере русского и английского языков.

Система представляет набор приложений взаимодействующихс общей базой данных. Набор приложений можно разделить на два класса:а) приложения необходимые для обучения системы по уже имеющимсяпереводам, которые выполнены человеком;б) приложения осуществляющие подбор наиболее подходящих переводных эквивалентов.3Алгоритмы обучения системы были разработаны c учетом особенностей научных текстов и слабо применимы для других стилей литературы. За неимением текстов нужного объема и качества, в рамках данной работы обучение системы проводилось на комбинированном наборе переводов, состоящим преимущественно из официально-делового и публицистического стилей литературы. Для подбора наиболее подходящих переводных эквивалентов используется жадный инкрементный поиск.

Его основным преимуществом является высокая скорость работы, что может оказаться важным дляоперативного перевода. Качество перевода разработанной системы несколько уступает существующим аналогам. Это объясняется особенностями исходных данных и характером используемых алгоритмов. Скорость работысистемы в несколько раз превосходит скорости доступных систем подобного класса. Для сравнения систем использовался одинаковый набор данных.В экономической части проведен расчет стоимости разработанной стемы.В разделе посвященном охране труда и окружающей среды описано какихпоследствий можно избежать при использовании созданной системы.4СОДЕРЖАНИЕСписок терминов и их сокращений .

. . . . . . . . . . . . . . . . . .51. Основная часть . . . . . . . . . . . . . . . . . . .1.1. Введение . . . . . . . . . . . . . . . . . . .1.2. К проблеме машинного перевода . . . . . .1.3. Математическая база ССМП . . . . . . .

.1.4. Предлагаемый подход к разработке ССМП1.5. Реализация ССМП . . . . . . . . . . . . . .1.6. Тестирование разработанной ССМП . . . ..............................................................................679213043532. Экономическая часть . . . . . . . . . . . . .2.1. Введение . . . . . . . . . . . . . . . . .2.2. Построение сетевой модели . . .

. . .2.3. Расчет затрат на разработку . . . . . . .2.4. Целесообразность применения системы.......................................................58595966713. Охрана труда и окружающей среды . . . . . . . . . . . . . . . . . .3.1. Введение . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .3.2. Основная часть . . . . . . . . . . . . . . . . . . . . . . . . . . .757677Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .88Список использованных источников . . . . . . . . . . . . . . . . . .91Приложение 1. Простейшая СМП, основанная на примерах . .

. .97Приложение 2. EM алгоритм . . . . . . . . . . . . . . . . . . . . . . .99..........Приложение 3. Модель IBM 1 . . . . . . . . . . . . . . . . . . . . . . . 101Приложение 4. Модель IBM 2 . . . . . . . . . . . . . . . . . . . . . . . 1025СПИСОК ТЕРМИНОВ И ИХ СОКРАЩЕНИЙCMП — система машинного перевода.CCMП — статистическая система машинного перевода.Корпус (лингвистический корпус) — называют совокупность текстов, собранных в соответствии с определенном принципами, размеченных поопределенному стандарту, в этой работе корпусом называют совокупность предложений на конкретном языке, разделенных символом перевода строки.n-грамма — подпоследовательность из n элементов из данной последовательности текста или речи, в данной работе рассматривается как подпоследовательность слов.ОТП (OTP) — открытая телекоммуникационная платформа (open telecomplatform).Cупервизор (в терминах ОТП) — процесс (как совокупность взаимосвязанных и взаимодействующих действий), следящий за дочерними процессами, отвечающий за их запуск и остановку.Приложение (в терминах ОТП) — компонент, который можно запускать иостанавливать как единое целое, и который также может быть использован повторно в других системах.Дерево контроля (супервизии) — совокупность рабочих процессов вычислительной системы, их супервизоров представленное в виде древовидной структуры.61.

ОСНОВНАЯ ЧАСТЬ71.1. ВВЕДЕНИЕМы живем в мире информационных технологий, которые прочно вошлив нашу жизнь. Мы пользуемся современными средствами связи. Компьютерпревратился в неотъемлемый элемент нашей жизни не только на рабочем месте, но и в повседневной жизни. Быстрое развитие новых информационныхтехнологий свидетельствует о всевозрастающей роли компьютерной техникив мировом информационном пространстве.С каждым днем увеличивается число пользователей Интернета. Все больше сетевые технологии оказывают влияние на развитие самой науки и техники. За последние годы сильно начал меняться характер образования, переходя на уровень дистанционного. Этот переход осуществляется даже в классических вузах.

Развитие науки и образования, да и вообще формированиемирового информационного пространства значительно тормозится из-за такназываемого языкового барьера. Эта проблема пока не нашла своего кардинального решения.Последние годы объем предназначенной для перевода информации увеличился. Создание универсального языка типа Эсперанто, «эльфийских языков» или какого-либо другого языка не привели к изменению ситуации. Использование традиционных средств межкультурной коммуникации можетбыть достойным выходом.

Нынешний век диктует свои условия: информация меняется двадцать четыре часа в сутки, широко применяются электронные средства связи. В такой ситуации классический подход к осуществлениюперевода не всегда оправдывает себя. Он требует значительных капиталовложений и временных затрат. В некоторых случаях более целесообразнымпредставляется использование машинного или автоматического перевода.Целью работы является создание статистической системы машинного перевода.

Обозначенная цель подразумевает проектирование распределеннойсистемы, разработку алгоритмов статистического анализа текстов, реализацию и тестирование программного обеспечения.8Цель определила следующие задачи:• исследование существующих статистических систем машинного перевода;• изучение математических основ построения статистических систем машинного перевода;• изучение лингвистических основ машинного перевода;• изучение возможных вариантов хранения данных в рамках задачи машинного перевода;• составление требований и ограничений системы;• разработка численного алгоритма обучения системы;• разработка алгоритма поиска верного варианта перевода на основе обученной модели;• составление требований к входным данным численного алгоритма;• составление требований к выходным данным алгоритма поиска ;• разработка структуры хранения данных;• разработка распределенной архитектуры;• разработка работающей обучающейся модели на тестовых входныхданных;• разработка работающего поискового модуля на тестовых входных данных;• подбор нужных корпусов текстов;• разработка распределенной обучающейся системы;• разработка алгоритмов предварительной обработки входных корпусовтекста;• корректировка системы с учетом входных данных;• тестирование приложения в совокупности отладка всей системы.91.2.

К ПРОБЛЕМЕ МАШИННОГО ПЕРЕВОДАВ настоящее время имеется достаточно широкий выбор пакетов программ, облегчающих труд переводчика, которые условно можно подразделить на две основные группы:• электронные словари;• системы машинного перевода.Системы машинного перевода текстов с одних естественных языковна другие моделируют работу человека-переводчика. Их полезность зависит от того, в какой степени в них учитываются объективные законы языка и мышления. Законы эти пока еще изучены плохо. Поэтому, решая задачу машинного перевода, необходимо учитывать опыт межнациональногообщения и опыт переводческой деятельности, накопленный человечеством.В процессе перевода в качестве основных единиц смысла выступают не отдельные слова, а фразеологические словосочетания, выражающие понятия.Именно понятия являются элементарными мыслительными образами.

Характеристики

Тип файла
PDF-файл
Размер
795,94 Kb
Высшее учебное заведение

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов ВКР

Статистическая система машинного перевода
pres
sources
src
appendix
bleu.tex
commons.tex
cover.tex
decoder.tex
language-model.tex
shannon.tex
translation-model.tex
arhitechture
common.tex
common.tex.1
decoding.tex
training.tex
evaluation
blue.tex
economics.tex
examples.tex
speed.tex
intro
titlepage.tex
toc.tex
outro
results.tex
todo.tex
principles
decoder.tex
language-model.tex
Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
7041
Авторов
на СтудИзбе
260
Средний доход
с одного платного файла
Обучение Подробнее