diploma-2 (1015782), страница 3
Текст из файла (страница 3)
При таком подходе становится понятно почему, чем«дальше» языки, тем лучше работает статистический метод, по сравнению склассическими подходами.МОДЕЛЬ ШЕННОНА. (R).Источник...Передачик.Шум..Приемник.Цель. (E)Рис. 1.1. Модель зашумленного канала.Модель состоит из пяти элементов: источника информации, передатчика, канала передачи, приемника и конечной цели, расположенных линейно.Передатчик кодирует информацию, полученную от источника, и передает еена канал.
По каналу передачи, на который действует шум — помехи любого рода, искажающие информацию, данные поступают в приемник, где онидекодируется и передаются к конечной цели.15Из-за шума полученная приемником информация в общем случае не совпадает с информацией, отправленной передатчиком. Однако, согласно модели Шеннона, создавая избыточную информацию, исходные данные можновосстановить со сколь угодно высокой вероятностью.
Для обнаружения ошибок используются контрольные суммы, для их исправления — специальныекорректирующие коды, при условии, что степень шума не превосходит некоторой границы. Стоит отметить, что любая информация в некотором роде избыточна [20]. Человеческая речь избыточна — чтобы уловить смысл предложения, зачастую необязательно слышать его полностью. Аналогично, письменная речь, тоже избыточна, и при переводе этим можно воспользоваться.Если предложение в целом понятно, но есть несколько незнакомых слов, тообычно не трудно догадаться об их значении.Таким образом, для перевода текста необходимо найти способ декодирования, использующий естественную избыточность, в связи с чем декодирование должно быть вероятностным.
Задача такого декодирования заключаетсяв том, чтобы, при данном сообщении найти исходное сообщение, которомусоответствует наибольшая вероятность. Для этого же необходимо для любыхдвух сообщений уметь находить условную вероятность того, что переведенное сообщение, пройдя через канал с шумом, преобразуется в исходное сообщение. В данном случае нужна модель источника (модель языка) и модельканала (модель перевода).
Модель языка дает оценку вероятности фразам переводного языка, а модель перевода оценивает вероятность исходной фразыпри условии фразы на переводном языке. Если нам нужно перевести фразу срусского на английский, то мы должны знать, что именно обычно говорят поанглийски и как английские фразы искажаются до состояния русского языка.Сам по себе перевод превращается в процесс поиска такой английской фразы, которая максимизировала бы произведения безусловной вероятности английской фразы и вероятности русской фразы-оригинала при условии даннойанглийской фразы.max P (ϕe |ϕr ) = max (P (ϕe ) · P (ϕr |ϕe )) , гдеϕeϕe• ϕe — фраза перевода (английская);• ϕe — фраза оригинала (русская).16В системах статистического перевода, в качестве модели языка используются варианты n-граммной модели (например, в переводчике Google, использутеся 5-граммная модель).
Согласно этой модели, правильность выборатого или иного слова зависит только от предшествующих (n − 1) слов. Самойпростой статистической моделью перевода является модель пословного перевода. В этой модели, известной как Модель IBM №1, предполагается, чтодля перевода предложения с одного языка на другой достаточно перевестивсе слова, а расстановку их в правильном порядке обеспечит модель языка.Единственным массивом данных, которым оперирует Модель №1, является таблица вероятностей парных переводных соответствий слов двух языков[55]. Обычно используются более сложные модели перевода.Работа статистических систем, так же как и систем основанных на примерах происходит в двух режимах: обучения и эксплуатации.
В режиме обучения просматриваются параллельные корпуса текста и вычисляются вероятности переводных соответствий. Строится модель языка перевода. Тут жеопределяются вероятности каждой n-граммы. В режиме эксплуатации, дляфразы из исходного текста ищется фраза переводного текста, так, чтобы максимизировать произведение вероятностей.171.2.5. СРАВНЕНИЕ РАЗЛИЧНЫХ ТИПОВ СМП. перевод..Машинный..Правила..Пословные..Данные..Интерлингвистические..Трансферные.Основанные .на примерах..СтатистическиеРис.
1.2. Классификация систем машинного перевода.Рассмотрим кратко преимущества и недостатки существующих систем.СИСТЕМЫ ПОСЛОВНОГО ПЕРЕВОДАСистемы пословного перевода на данный момент используются толькодля составления подстрочечника, как отмечалось ранее.Преимущества:• простота;• высокая скорость работы;• не требовательные к ресурсам.Недостатки:• низкое качество перевода.Ярких представителей на рынке нет, в данном случае удобнее создавать новую систему под конкретную задачу.18ТРАНСФЕРТНЫЕ СИСТЕМЫТрансфертные системы распространены очень широко. Наиболее известными представителями являются ImTranslator, PROMPT.
Все подобные системы имеют сходные преимущества и недостатки.Преимущества:• высокое качество перевода (при наличие нужных словарей и правил);• выбор тематики текста, который повышает качество перевода;• возможно уточнение перевода, благодаря внесению изменений в базуданных переводчика (таким образом, пользователь получает потенциально бесконечное множество терминов, с которыми можно свободнооперировать, и можно достигнуть «бесконечного» качества перевода).Недостатки:• высокая стоимость и время разработки;• для добавления нового языка, приходиться переделывать систему заново;• нужна команда квалифицированных лингвистов, для описания каждогоисходного и каждого переводного языка;• требовательность к ресурсам на этапе составления базы.ИНТЕРЛИНГВИСТИЧЕСКИЕ СИСТЕМЫИнтерлингвистические системы перевода так и не были доведеныдо уровня промышленных систем. Предполагаемые преимущества:• высокое качество перевода, независимо от выбора языка;• выделение смысла из исходного текста происходит один раз и потом записывается на любой язык, в том числе исходный (получаем «пересказтекста»);• низкая стоимость трудозатрат на добавления нового языка в систему.19Недостатки:• спорность потенциальной возможности;• высокая сложность разработки;• системы не масштабируются.СМП, ОСНОВАННЫЕ НА ПРИМЕРАХСМП, основанные на примерах, так же не имеют ярких представителей.Существующие прототипы используются в академической среде для иллюстрации самого метода.
Часто они поставляются не в виде готового продукта, а в виде набора библиотек: Marclator – СМП Дублинского Университета,Cunei � гибридная СМП, основанная на переводе по аналогии и на статистическом переводе.Преимущества:• высокое качество перевода (при наличие достаточно долгой тренировкесистемы);• хорошо справляется со многими контекстными задачами (фразовыеглаголы);• квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;• логическая простота устройства;• возможно обучение системы во время ее эксплуатации.Недостатки:• для обучения системы нужны большие параллельные корпуса текста,размеченные определенным образом;• качество перевода зависит от исходных корпусов;• продолжительное время обучения;• требовательность к ресурсам на этапе обучения.20ССМПССМП активно разрабатывались (и разрабатываются) компанией IBM.Благодаря ее разработкам, были созданы модели перевода IBM Model 1-5.
Нонаибольшую известность этот метод приобрел благодаря компании Google.Кроме переводчика Google существует еще ряд систем и библиотек, использующих статистический подход.Преимущества:• высокое качество перевода:– для фраз, которые целиком помещаются в n-граммную модель– при наличии достаточно долгой тренировке системы.– при наличии качественных корпусов текста;• квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;• труд человека минимизирован для создания таких систем;• не требуется перестраивать систему при добавлении нового языка;• возможно обучение системы во время ее эксплуатации.Недостатки:• для обучения нужны большие параллельные корпуса текста;• сложный математический аппарат;• качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель;• качество перевода зависит от исходных корпусов;• при добавлении нового языка приходится анализировать большие объемы данных;• продолжительное время обучения;• требовательность к ресурсам на этапе обучения.211.3.
МАТЕМАТИЧЕСКАЯ БАЗА ССМППусть ϕr — фраза оригинала, русская. Требуется найти ϕe — фразу перевода, английскую. Нужно максимизировать P (ϕe |ϕr ). Если вспомнить модель зашумленного канала (модель Шеннона), то получаем:P (ϕe |ϕr ) =(P (ϕe ) · P (ϕr |ϕe ))⇒P (ϕr )ϕeg = arg max P (ϕe |ϕr ) = arg max (P (ϕe ) · P (ϕr |ϕe ))∪ϕe∪ϕeP (ϕr ) — нам известна, ее не учитываем. Величина P (ϕe ) называется моделью языка.
P (ϕr |ϕe ) — модель перевода. Работа любой статистической системы перевода состоит из двух этапов:• обучения — вычисляются модели языка и перевода;• эксплуатации — вычисляется величина arg max P (ϕe |ϕr ) при данной ϕr∪ϕe(процесс вычисления называют декодированием).1.3.1. ОБУЧЕНИЕ ССМПВЫЧИСЛЕНИЕ ЯЗЫКОВОЙ МОДЕЛИВ качестве модели языка в системах статистического перевода используются преимущественно различные модификации n-граммной модели, утверждающей, что «грамматичность» выбора очередного слова при формировании текста определяется только тем, какие (n–1) слов идут перед ним. Вероятность каждого n-грамма определяется по его встречаемости в тренировочном корпусе [55].P (ω1 .














