Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 308
Текст из файла (страница 308)
В последнее десятилетие наметилась тенденция к использованию систем машинного перевода, основанных на статистическом анализе. Безусловно, можно добиться выигрыша благодаря применению статистических данных и четкой вероятностной Часть ЧП. Общение, восприятие и осуществление действий 1128 модели того, в чем состоит качественный анализ или передача текста, на любом из этапов, показанных на рис. 23.2. Но под понятием "статистического машинного перевода" подразумевается обший подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов.
В качестве примера двуязычной совокупности текстов можно назвать Ж парламентские отчеты', которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчеты издаются в Канале, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 1! языках; а Организация объединенных наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода. Семантика текста иа промекугочнои языке Алгосяоч(Намеюоач, Намедмагу, Нйа) Семантика английского текста (олег(уолл, Магу) Семантика французского текста А(ме() ал, Маг!е) Синтаксис английского текста З(НР(увял), УР()очед ИР(Могу))) Синтаксис французского текста 5(НРМевя), УР(асме, НР(МобеШ Французские слова Леан а!ме Мане Английскисслова Зоьв !очез Магу Рис.
23.2. Схематическое изображение вариантов организации систем машинного перевода. Схема начинается с английского текста, показанного в левой нижней части. Система с промежуточным языком следует по сплошным линиям, выполняя синтаксический анализ англииского текста и преобразуя его вначале в синтаксическую форму, затем в семантическую форму представления и в форму представления на промежуточном языке, после этого выполняет этапы преобразования в семантическую, синтаксическую и лексическую форму на французском языке.
В системе на основе передачи в качестве сокращенных путей используются пунктирные линии. Вразличных системах передача осуществляется на разных уровнях, причем в некоторых системах она происходит одновременно на нескольких уровнях Проблему перевода английского предложения Я, скажем, во французское' предложение Е можно представить в виде следуюшего уравнения, предусматриваюшего применение правила Байеса: ахдтах Р(Р)е) = акдгиах Р(Я)Р) Р(Р) г'Р(Я) акдгаах Р(Е) Р) Р(Р) ! В английском языке такие отчеты обозначаются словом Напзагб в честь Уильяма Хансарда (%!!!!аго Напзагд), который впервые опубликовал британские парламентские отчеты в 1811 году. ь В данном разделе речь идет о задаче перевода с английского языка на французский.
Старайтесь избегать путаницы, связанной с тем фактом, что правило Байеса требует от нас, чтобы мы рассматривали вероятность Р(е) Р), а не Р(Р)е), в результате чего создается впечатление, как будто перевод осуществляется с французского на английский. 1129 Глава 23. Вероятностная обработка лингвистической информации Это правило указывает, что мы должны рассмотреть все возможные французские предложения Р и выбрать из них то, которое максимизирует произведение Р(е~ Р) Р(Р) . коэффициент Р(е) можно проигнорировать, поскольку он является одинаковым для любого Р. коэффициент Р(Р) представляет собой ъ. языковую модель для французского языка; он указывает, насколько велика вероятность появления данного конкретного предложения во французском тексте.
Вероятность Р ( е ~ Р) представляет собой 'ъ модель перевода; она указывает, насколько велика вероятность того, что некоторое английское предложение будет использоваться в качестве перевода, если дано определенное французское предложение. Внимательного читателя, безусловно, заинтересует вопрос о том, чего мы добьемся, определив вероятность Р(Р) е) в терминах Р(е~ Р) .
В других областях применения правила Байеса такая перестановка термов в выражениях для условной вероятности была сделана в связи с тем, что мы стремились перейти к использованию причинной модели. Например, для вычисления вероятности наличия определенных симптомов при определенном заболевании, Р(г)бяеаэе ~ еутарсотя), применялась причинная модель Р( Езоврвотя ~ Г)5эеаяе) . В отличие от этого при переводе с одного языка на другой ни одно из направлений перевода не характеризуется большей причинной зависимостью, чем другое. В данном случае правило Байеса применяется в связи с тем, что мы, по-видимому, сможем легко определить с помощью обучения языковую модель Р ( Р), которая является более точной по сравнению с моделью перевода Р(е ~ Р) (а также более точной по сравнению с непосредственно полученной оценкой Р(Р~ е) ).
По сути такой подход позволяет разделить задачу на две части— вначале применить модель перевода Р(Р~ Е) для поиска подходящих французских предложений, в которых упоминаются те же понятия, что и в английском предложении (но это не обязательно должны быть французские предложения, полностью адекватные английскому предложению); затем воспользоваться языковой моделью Р(Р) (для которой имеются намного лучшие оценки вероятностей), чтобы выбрать наиболее подходящий вариант перевода.
В качестве языковой модели Р(Р) может использоваться любая модель, позволяющая присвоить предложению определенное значение вероятности. При наличии очень большой совокупности текстов можно оценить Р(Р) непосредственно путем подсчета количества случаев появления каждого предложения в этой совокупности текстов. Например, если с помощью ттеЬ будет собрано 100 миллионов французских предложений и обнаружено, что предложение "С!)с(це )с)" (Щелкните здесь) появляется 50 тысяч раз, то Р("01зс)ие йсх" ) равно 0,0005.
Но даже при наличии 100 миллионов примеров количество экземпляров большинства возможных предложений будет равно нулю'. Поэтому мы будем использовать знакомую языковую модель двухсловных сочетаний, в которой вероятность французского предложения, состоя)цего из слов Ез... Е„, может быть представлена следующим образом: ' Даже если в словаре имеется только ! 00 тысяч слов, то 99,99999% возможных предложений, состоящих из трех слов, будут присутствовать в совокупности текстов из 100 миллионов предложений в количестве, равном нулю.
По мере увеличения длины предложений ситуация становится еще хуже. 1130 Часть ЧП. Общение, восприятие и осугцествление действий ''=П г?а Для этого необходимо знать вероятности двухсловных сочетаний, такие как Р( " ЕЕЕЕе? " ~ " Соцт" ) = . 02. Эти данные позволяют учитывать только самые локальные проявления синтаксических связей, в которых слово зависит лишь от предыдушего слова. Но этого часто достаточно для грубого переводУ.
Задача выбора модели перевода, Р(К~ Р), является более сложной. С одной стороны, отсутствует готовая коллекция пар предложений (английский, французский), с помошью которой можно было бы проводить обучение. С другой стороны, такая модель сложнее, поскольку в ней рассматривается перекрестное произведение предложений, а не просто отдельные предложения.
Начнем с одной чрезмерно упрощенной модели перевода и постепенно усовершенствуем ее до такого уровня, чтобы она напоминала известную разработку (ВМ Мог)е! 3 [! 96), которая все еще может показаться чрезмерно упрощенной, но обнаружила свою способность вырабатывать приемлемые варианты перевода примерно в половине случаев. Рассматриваемая чрезмерно упрошенная модель перевода основана на таком принципе: "Чтобы перевести предложение, просто переведите каждое слово отдельно, независимо от другого, в порядке слева направо". Это — модель выбора однословного сочетания.
Она позволяет легко вычислить вероятность перевода: и =П х=ь В некоторых случаях эта модель действует безукоризненно. Например, рассмотрим следующую конструкцию: Р("Сне с)од"!"?е ситец") = Р("Сие")"Хе")хР("с)оп"!"си)еп") При любом обоснованном подборе вариантов значений вероятностей выражение 'ййе г)оя" (собака) будет служить наиболее правдоподобным переводом выражения "!е сй)еп". Но в большинстве случаев прямолинейные попытки применения этой модели оканчиваются неудачей. Одна из проблема связана с порядком слов. Английское слово "г)оя" соответствует французскому слову "сЬ!еп", а понятие, обозначаемое в английском языке словом "Ьгозуп" (коричневый), во французском языке обозначается словом "Ьгцп".
Однако словосочетание "Ьгохуп г)оя" переводится как "сййеп Ьгип". Еще одна проблема состоит в том, что словесные обороты не связаны друг с другом в форме взаимно однозначного соответствия. Английское слово "йоте*' часто переводят с помощью выражения "а 1а гпа)аоп", поэтому имеет место соответствие "один к трем" (или три к одному, при противоположном направлении перевода). Невзирая на наличие указанных проблем, разработчики модели !ВМ Мог)е! 3 приняли за основу жесткий з Если в переводе нужно передать более тонкие нюансы, то модель, основанная на Р(Г, ) Г,, ), безусловно, становится неприемлемой. В качестве одного из известных примеров можно указать, что знаменитый цикл романов йд 1а тес)зегсйе бц гегпрз ресниц" (В поисках утраченного времени) Марселя Пруста объемом в 3500 страниц начинается и оканчивается одним и тем же словом, поэтому некоторые переводчики решили сделать то же самое и построили весь свой перевод на одном слове, находяшемся примерно за 2 миллиона слов от него.
Глава 23. Вероятностная обработка лингвистической информации 1131 подход, по сути базируюшийся на модели однословных сочетаний, но ввели несколько дополнений для компенсации ее недостатков. Для того чтобы можно было учесть тот факт, что некоторые слова не допускают перевода один к одному, в эту модель было введено понятие Ъ.фертильности (Гегй!Ьу — плодовитость) слова. Слово с фертильностью и копируется п раз, после чего каждая из этих и копий переводится независимо. Модель содержит параметры, которые показывают значение Р(Рехсз1зсу=п(ггогс1) для каждого французского слова.
Для перевода выражения "а !а гпайоп" как выражения "Лопзе" в этой модели необходимо выбрать фертильность 0 для "а" и "1а" и фертильность 1 для "гпа!воп", азатем применить модель перевода однословных сочетаний, чтобы перевести "гпа(зоп" как "Логпе". Такой подход кажется достаточно приемлемым, поскольку "а" и "1а", будучи словами с низким информационным содержанием, могут быть на полном основании заменены в процессе перевода пустой строкой. Но применение такого метода для перевода в другом направлении становится более сомнительным.