Диссертация (1137502), страница 27

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 27 страницаДиссертация (1137502) страница 272019-05-202019-05-20СтудИзба

Автоматизация лексико-типологических исследований методы и инструменты

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 27)

Табл. 27).maigreлистfeuilleслойpoussièreкнигаlivregrosmincedenseétroit......Таблица 27. Пример анкеты для признаковых полей ‘толстый’ и ‘тонкий’, переведенной нафранцузский язык.Мы опробовали три метода решения задачи перевода отдельных слов: (1) с помощьюонлайн-переводчиков, предлагаемых Yandex и Google; (2) через машиночитаемыедвуязычные словари; (3) с помощью параллельных корпусов.Методы переводасуществительных и прилагательных в каждом случае несколько различались.

Рассмотримпоследовательно каждую методологию.2.1.1. Онлайн-переводчики компаний Yandex и GoogleВ рамках нашего исследования мы провели ряд экспериментов по переводу анкетыдля нескольких признаковых полей на основе онлайн-переводчиков, реализованныхкомпаниями Google и Yandex.Алгоритм перевода существительных в этом случае предельно прост: мы подаемпереводчику на вход последовательно все существительные из анкеты и для каждого изних извлекаем первый вариант перевода.Метод перевода прилагательных несколько сложнее.

Поскольку количествопризнаковыхлексемцелевогоязыкаможетотличатьсяотколичестваслов,обслуживающих данную зону в исходном языке, простой выбор первого вариантаперевода для каждого прилагательного неизбежно повлечет за собой потерю информации.Поэтому, в случае с прилагательными, мы принимаем во внимание все слова тогосинонимического ряда, который выдает переводчик. Здесь мы сталкиваемся с той жепроблемой, которая возникала у нас на этапе определения списка слов, относящихся кизучаемому полю в русском языке (см. §3 Главы 3): синонимы могут относиться как кпрямым, так и исключительно к метафорическим значениям исходных слов, в то время как119на данном этапе нас интересуют только прямые. Чтобы из всего множества синонимовотобрать релевантные для нашей задачи, мы вновь прибегаем к методу обратныхпереводов (ср. пункт 3.4.4 Главы 3).

Мы переводим обратно на русский язык все синонимы,полученные при переводе с русского языка на целевой, и оставляем в анкете для целевогоязыка только те прилагательные, перевод которых на русский дает какое-нибудь изприлагательных исходного списка.Например, мы хотим узнать, какие прилагательные составляют поле ‘острый’ вфинском языке. Тогда, задав онлайн-переводчику компании Yandex в качестве исходногослова русское прилагательное острый, мы получаем такие переводы (8 финских слов):akuutti, äkillinen, terävä, pistävä, kirpeä, pureva, veitsenterävä, tarkka. Далее мы переводимкаждое из полученных слов обратно на русский язык и оставляем только те, которыепереводятся прилагательным острый.

Таким образом мы выберем 5 финских лексем(akuutti, terävä, pistävä, kirpeä, veitsenterävä) и исключим из рассмотрения 3 оставшихся(äkillinen, pureva и tarkkea), поскольку в первом значении у них указаны переводывнезапный, кусающийся и точный, аккуратный, пунктуальный соответственно. Согласнотипологической базе данных признаковой лексики (Кюсева, Резникова и Рыжова 2013b), вфинском языке в поле острый входят прилагательные terävä, pistävä, и наш алгоритмверно их выявил, но при этом зафиксировал и три лишних прилагательных akuutti(сравнимо с русск.

острый в острый взгляд), kirpeä (острый в значении пикантный),veitsenterävä (окказиональные употребления).В качестве другого возможного способа отсева лишних прилагательных мыпротестировали метод перевода прилагательного в контексте с существительным. Дляэтого мы попробовали перевести все допустимые в русском языке сочетанияприлагательного и существительного из анкеты с помощью онлайн-переводчиков.

Дляболее наглядной иллюстрации этого метода снова приведем пример перевода русскогоприлагательного острый на финский язык, но уже в сочетании с каждым израссматриваемых существительных (острый нож, острый каблук, острая стрела). Изкаждого полученного словосочетания на финском выберем прилагательное и с помощьюобратного перевода аналогичным способом отберем только те, у которых указаноприлагательное острый в качестве основного переводного эквивалента. В результате мыполучаем только два финских прилагательных, одно из которых оказывается нужным(terävä), а другое (akuutti) – ненужным. Таким образом мы уменьшим количествоненужных прилагательных, но в то же время и уменьшим количество нужных.

То же самое120верно и для других языков: в работе Singh 2017 показано, что перевод англоязычныхсловосочетаний из анкеты для поля ‘острый’ на хинди с помощью онлайн-переводчикакорпорации Google позволяет получить только 4 признаковых слова из 8, причем далеконе все словосочетания, выдаваемые автоматическим переводчиком, действительнограмматичны.2.1.2. Машиночитаемые словари Freedict и VerdictНаш второй метод перевода анкет основан на использовании машиночитаемыхдвуязычных словарей, а именно, переводных словарей группы Freedict 32 и электронныхсловарей Verdict, подготовленных компанией Yandex.Двуязычные словари Freedict хранятся в формате .tei33(который являетсяподмножеством языка xml), структура документа определяется парными тегами.

Каждоевхождение выделяется тегом <entry>. В него вложены теги <form> и <sense>. Взависимости от количества возможных переводов, может быть несколько вложений стегом <sense>: в таком случае рядом с тегом записывается показатель n="…", в котором вкавычках указывается номер возможного перевода. Таким образом создается структура,отображающая связь между запрашиваемым словом данного языка и его возможнымипереводными эквивалентами.Мы предполагаем, что перевод с показателем n="1" является основным,соответствующим прямому употреблению заданного слова, а остальные переводы связаныс его переносными значениями.

Именно поэтому в качестве перевода для исходногоприлагательного мы выбираем эквивалент с показателем n="1". Далее, как и в случае сонлайн-переводчиками, производится проверка методом обратного перевода. В качествеисходногоприлагательногозадаетсяполученныйпереводнойэквивалентиосуществляется перевод на стартовый язык. Если слово входит в начальный списокприлагательных, то данный переводной эквивалент включается в итоговый список слов.Для перевода существительных проводится та же операция. Однако, если искомого слованет в словаре Freedict, то используется соответствующий двуязычный словарь Verdict. Онимеет более простую структуру.

Одно вхождение занимает одну строку и имеет всегочетыре позиции, разделенные табуляцией: исходное слово, его часть речи, его переводнойэквивалент и ссылка на словарь, из которого данная информация получена. Если вариантов3233Словари доступны по ссылке http://www.freedict.org/ru/.http://www.tei-c.org/index.xml121перевода несколько, то для каждого из них в словаре заводится новая строка.

При этомкандидаты на перевод в явном виде никак не ранжируются, поэтому наш алгоритм простовыбирает переводной эквивалент, указанный в строке, располагающейся выше других вфайле.2.1.3. Параллельные корпусаМетод перевода существительных и прилагательных с помощью параллельныхкорпусов был разработан Я. Сингом под руководством Д.А.

Паперно в процессе решениязадачи перевода нескольких анкет для признаковых семантических полей с английскогона хинди (Singh 2017). Мы реализовали этот алгоритм на материале англо-русского ирусско-итальянского параллельных подкорпусов НКРЯ34.Тексты в параллельных подкорпусах НКРЯ выровнены по предложениям иснабжены морфологической разметкой. Англо-русский (объединенный с русскоанглийским) корпус содержит 527 782 предложения, русско-итальянский (с итальянскорусским) – 101 814 предложений, т.е.

объем второго подкорпуса существенно меньшепервого.Переводные эквиваленты для заданных слов определяются на основе так называемоймеры зависимости, или зависимостной вероятности (Dependency Probability, далее D.P.),см. Формулу 16. Для каждой пары «слово на стартовом языке (W1) – кандидат на перевод(W2)» эта метрика отражает вероятность появления в предложении на целевом языкеслова W2 в том случае, если в предложении на стартовом языке присутствовало слово W1.В качестве кандидатов на перевод рассматриваются все слова соответствующей части речи(существительные – при переводе существительных, прилагательные – при переводеприлагательных), зафиксированные в корпусе текстов на целевом языке.(2 | 1)2D.

P. =,(1) ∗ (2)где W1 – кандидат на перевод, W2 – исходное слово, P(W2|W1) – вероятность наличия слова W2 впредложении на целевом языке, если в предложении на исходном языке есть слово W1.Формула 16. Мера зависимости (Dependency Probability, D.P.).34Мы благодарим Д.В. Сичинаву за предоставленный нам доступ к параллельным корпусам.122Далее берется обратное значение меры зависимости (1/D.P.), и все кандидаты наперевод ранжируются в зависимости от значения этой метрики, от самого низкого ксамому высокому, т.е.

от наиболее вероятного к менее вероятному кандидату. На Рис. 7представлен график, демонстрирующий изменение значения меры зависимости от ранга крангу для пятнадцати наиболее вероятных переводных эквивалентов в языке хинди дляанглийского прилагательного sharp ‘острый’. По графику видно, что у первых восьмиприлагательных очень близкие значения метрики зависимости, после чего происходитрезкий скачок.

Характеристики

Тип файла

PDF-файл

Размер

1,9 Mb

Материал

Автоматизация лексико-типологических исследований методы и инструменты

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomatizacija-leksiko-tipologicheskih-issledovanij-metody-i-instrumenty.rar

Автоматизация лексико-типологических исследований методы и инструменты

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.