Диссертация (1137502), страница 27
Текст из файла (страница 27)
Табл. 27).maigreлистfeuilleслойpoussièreкнигаlivregrosmincedenseétroit......Таблица 27. Пример анкеты для признаковых полей ‘толстый’ и ‘тонкий’, переведенной нафранцузский язык.Мы опробовали три метода решения задачи перевода отдельных слов: (1) с помощьюонлайн-переводчиков, предлагаемых Yandex и Google; (2) через машиночитаемыедвуязычные словари; (3) с помощью параллельных корпусов.Методы переводасуществительных и прилагательных в каждом случае несколько различались.
Рассмотримпоследовательно каждую методологию.2.1.1. Онлайн-переводчики компаний Yandex и GoogleВ рамках нашего исследования мы провели ряд экспериментов по переводу анкетыдля нескольких признаковых полей на основе онлайн-переводчиков, реализованныхкомпаниями Google и Yandex.Алгоритм перевода существительных в этом случае предельно прост: мы подаемпереводчику на вход последовательно все существительные из анкеты и для каждого изних извлекаем первый вариант перевода.Метод перевода прилагательных несколько сложнее.
Поскольку количествопризнаковыхлексемцелевогоязыкаможетотличатьсяотколичестваслов,обслуживающих данную зону в исходном языке, простой выбор первого вариантаперевода для каждого прилагательного неизбежно повлечет за собой потерю информации.Поэтому, в случае с прилагательными, мы принимаем во внимание все слова тогосинонимического ряда, который выдает переводчик. Здесь мы сталкиваемся с той жепроблемой, которая возникала у нас на этапе определения списка слов, относящихся кизучаемому полю в русском языке (см. §3 Главы 3): синонимы могут относиться как кпрямым, так и исключительно к метафорическим значениям исходных слов, в то время как119на данном этапе нас интересуют только прямые. Чтобы из всего множества синонимовотобрать релевантные для нашей задачи, мы вновь прибегаем к методу обратныхпереводов (ср. пункт 3.4.4 Главы 3).
Мы переводим обратно на русский язык все синонимы,полученные при переводе с русского языка на целевой, и оставляем в анкете для целевогоязыка только те прилагательные, перевод которых на русский дает какое-нибудь изприлагательных исходного списка.Например, мы хотим узнать, какие прилагательные составляют поле ‘острый’ вфинском языке. Тогда, задав онлайн-переводчику компании Yandex в качестве исходногослова русское прилагательное острый, мы получаем такие переводы (8 финских слов):akuutti, äkillinen, terävä, pistävä, kirpeä, pureva, veitsenterävä, tarkka. Далее мы переводимкаждое из полученных слов обратно на русский язык и оставляем только те, которыепереводятся прилагательным острый.
Таким образом мы выберем 5 финских лексем(akuutti, terävä, pistävä, kirpeä, veitsenterävä) и исключим из рассмотрения 3 оставшихся(äkillinen, pureva и tarkkea), поскольку в первом значении у них указаны переводывнезапный, кусающийся и точный, аккуратный, пунктуальный соответственно. Согласнотипологической базе данных признаковой лексики (Кюсева, Резникова и Рыжова 2013b), вфинском языке в поле острый входят прилагательные terävä, pistävä, и наш алгоритмверно их выявил, но при этом зафиксировал и три лишних прилагательных akuutti(сравнимо с русск.
острый в острый взгляд), kirpeä (острый в значении пикантный),veitsenterävä (окказиональные употребления).В качестве другого возможного способа отсева лишних прилагательных мыпротестировали метод перевода прилагательного в контексте с существительным. Дляэтого мы попробовали перевести все допустимые в русском языке сочетанияприлагательного и существительного из анкеты с помощью онлайн-переводчиков.
Дляболее наглядной иллюстрации этого метода снова приведем пример перевода русскогоприлагательного острый на финский язык, но уже в сочетании с каждым израссматриваемых существительных (острый нож, острый каблук, острая стрела). Изкаждого полученного словосочетания на финском выберем прилагательное и с помощьюобратного перевода аналогичным способом отберем только те, у которых указаноприлагательное острый в качестве основного переводного эквивалента. В результате мыполучаем только два финских прилагательных, одно из которых оказывается нужным(terävä), а другое (akuutti) – ненужным. Таким образом мы уменьшим количествоненужных прилагательных, но в то же время и уменьшим количество нужных.
То же самое120верно и для других языков: в работе Singh 2017 показано, что перевод англоязычныхсловосочетаний из анкеты для поля ‘острый’ на хинди с помощью онлайн-переводчикакорпорации Google позволяет получить только 4 признаковых слова из 8, причем далеконе все словосочетания, выдаваемые автоматическим переводчиком, действительнограмматичны.2.1.2. Машиночитаемые словари Freedict и VerdictНаш второй метод перевода анкет основан на использовании машиночитаемыхдвуязычных словарей, а именно, переводных словарей группы Freedict 32 и электронныхсловарей Verdict, подготовленных компанией Yandex.Двуязычные словари Freedict хранятся в формате .tei33(который являетсяподмножеством языка xml), структура документа определяется парными тегами.
Каждоевхождение выделяется тегом <entry>. В него вложены теги <form> и <sense>. Взависимости от количества возможных переводов, может быть несколько вложений стегом <sense>: в таком случае рядом с тегом записывается показатель n="…", в котором вкавычках указывается номер возможного перевода. Таким образом создается структура,отображающая связь между запрашиваемым словом данного языка и его возможнымипереводными эквивалентами.Мы предполагаем, что перевод с показателем n="1" является основным,соответствующим прямому употреблению заданного слова, а остальные переводы связаныс его переносными значениями.
Именно поэтому в качестве перевода для исходногоприлагательного мы выбираем эквивалент с показателем n="1". Далее, как и в случае сонлайн-переводчиками, производится проверка методом обратного перевода. В качествеисходногоприлагательногозадаетсяполученныйпереводнойэквивалентиосуществляется перевод на стартовый язык. Если слово входит в начальный списокприлагательных, то данный переводной эквивалент включается в итоговый список слов.Для перевода существительных проводится та же операция. Однако, если искомого слованет в словаре Freedict, то используется соответствующий двуязычный словарь Verdict. Онимеет более простую структуру.
Одно вхождение занимает одну строку и имеет всегочетыре позиции, разделенные табуляцией: исходное слово, его часть речи, его переводнойэквивалент и ссылка на словарь, из которого данная информация получена. Если вариантов3233Словари доступны по ссылке http://www.freedict.org/ru/.http://www.tei-c.org/index.xml121перевода несколько, то для каждого из них в словаре заводится новая строка.
При этомкандидаты на перевод в явном виде никак не ранжируются, поэтому наш алгоритм простовыбирает переводной эквивалент, указанный в строке, располагающейся выше других вфайле.2.1.3. Параллельные корпусаМетод перевода существительных и прилагательных с помощью параллельныхкорпусов был разработан Я. Сингом под руководством Д.А.
Паперно в процессе решениязадачи перевода нескольких анкет для признаковых семантических полей с английскогона хинди (Singh 2017). Мы реализовали этот алгоритм на материале англо-русского ирусско-итальянского параллельных подкорпусов НКРЯ34.Тексты в параллельных подкорпусах НКРЯ выровнены по предложениям иснабжены морфологической разметкой. Англо-русский (объединенный с русскоанглийским) корпус содержит 527 782 предложения, русско-итальянский (с итальянскорусским) – 101 814 предложений, т.е.
объем второго подкорпуса существенно меньшепервого.Переводные эквиваленты для заданных слов определяются на основе так называемоймеры зависимости, или зависимостной вероятности (Dependency Probability, далее D.P.),см. Формулу 16. Для каждой пары «слово на стартовом языке (W1) – кандидат на перевод(W2)» эта метрика отражает вероятность появления в предложении на целевом языкеслова W2 в том случае, если в предложении на стартовом языке присутствовало слово W1.В качестве кандидатов на перевод рассматриваются все слова соответствующей части речи(существительные – при переводе существительных, прилагательные – при переводеприлагательных), зафиксированные в корпусе текстов на целевом языке.(2 | 1)2D.
P. =,(1) ∗ (2)где W1 – кандидат на перевод, W2 – исходное слово, P(W2|W1) – вероятность наличия слова W2 впредложении на целевом языке, если в предложении на исходном языке есть слово W1.Формула 16. Мера зависимости (Dependency Probability, D.P.).34Мы благодарим Д.В. Сичинаву за предоставленный нам доступ к параллельным корпусам.122Далее берется обратное значение меры зависимости (1/D.P.), и все кандидаты наперевод ранжируются в зависимости от значения этой метрики, от самого низкого ксамому высокому, т.е.
от наиболее вероятного к менее вероятному кандидату. На Рис. 7представлен график, демонстрирующий изменение значения меры зависимости от ранга крангу для пятнадцати наиболее вероятных переводных эквивалентов в языке хинди дляанглийского прилагательного sharp ‘острый’. По графику видно, что у первых восьмиприлагательных очень близкие значения метрики зависимости, после чего происходитрезкий скачок.