Главная » Просмотр файлов » Диссертация

Диссертация (1137502), страница 28

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 28 страницаДиссертация (1137502) страница 282019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 28)

Я. Синг предлагает считать подходящими переводными эквивалентами дляприлагательных все слова, соответствующие первым нескольким рангам. Числовключаемых рангов зависит от момента, в котором происходит скачок. Так, например,вариантами перевода прилагательного sharp на хинди будут считаться первые восемь слов,поскольку ровно столько точек расположено на графике слева от скачка. Существительныепереводятся аналогичным образом, только в качестве оптимального переводногоэквивалента для стартового слова считается существительное целевого языка,занимающее первый ранг.Рисунок 7.

Значение метрики 1/D.P. для первых пятнадцати кандидатов на перевод в языке хиндидля английского прилагательного sharp (Singh 2017: 2).2.1.4. Анализ результатовМы рассмотрели три возможных метода перевода анкеты. Метод онлайнпереводчиков хорош тем, что он позволяет сразу охватить большое количество языков, навход можно сразу подавать как отдельные слова, так и целые словосочетания из исходныханкет, и он довольно прост в использовании. Тем не менее, у этого метода есть рядсущественных недостатков.

Во-первых, он непрозрачен и непостоянен: технологииперевода у компаний Yandex и Google непрерывно меняются, и мы не можем быть уверены,123что в любой момент времени сможем получить результаты, сопоставимые с теми, что мыполучили в рамках наших пилотных экспериментов. Во-вторых, метод перевода целыхсловосочетаний оказывается бесполезным для нашей задачи: почти все пары«прилагательное + существительное» переводятся с помощью одного, основного элементапризнакового поля, и тем самым сразу несколько периферийных прилагательныхрассматриваемой зоны оказываются неучтенными.

Наконец, в-третьих, разные стратегииперевода с помощью онлайн-переводчиков дают для разных полей разные результаты.Второй метод – метод машиночитаемых словарей – лишен этих недостатков. Болеетого, словари группы Freedict обладают дополнительным преимуществом: эксплицитнопротивопоставляют переводные эквиваленты для прямых и переносных значенийисходных слов. Однако данный метод имеет свои недостатки, связанные, в первую очередь,с небольшим количеством таких словарей и ограниченностью их объёма. Так, например,не очень частотное прилагательное из рассматриваемого поля в такой словарь не попадет,а значит, предлагаемый нами алгоритм не сможет его выявить.Наконец, третий метод – перевод с помощью параллельных корпусов – кажетсянаиболее надежным, поскольку он прозрачно отображает статистику употребленияпереводных эквивалентов в одинаковых контекстах, но он очень сильно зависит отдоступных ресурсов.Как видно, у всех трех методов есть свои достоинства и свои недостатки.

Первыйметод подлежит дальнейшей проверке на материале большего количества анкет, второй итретий позволяют получить приемлемые результаты, но только для тех языков, покоторым мы имеем необходимые словари или корпуса. Количественная оценкарезультатов перевода существительных (Табл. 28, поля ‘острый’ и ‘гладкий’) иприлагательных (Табл.

29, зоны ‘гладкий’, ‘толстый’, ‘тонкий’) показывает, что на данномэтапе для перевода предметных слов больше всего подходит метод, опирающийся напереводчик компании Google, а для перевода признаковой лексики – метод, использующийпараллельные корпуса (в том случае, если они приемлемого объема).en-ruen/ru-itСловари0.38 / 0.50.31 / 0.59Google.Translate0.80 / 0.680.64 / 0.63Параллельный корпус0.393 / 0.4170.5 / 0.396Таблица 28. Точность перевода существительных для полей ‘острый’/ ‘гладкий’124en-ruen/ru-itPRPRСловари0 / 0.5 / 00 / 0.33 / 00 / 0.5 / 0.660 / 0.16 / 0.4Google.Translate0.3 / 0.67 / 10.19 / 0.36 / 0.20.55 / 1 / 0.670.26 / 0.3 / 0.14Параллельный корпус0.385 / 0.27 / 0.671 / 1 / 0.670.5 / 0.5 / 0.50.09 / 0.375 / 0.25Таблица 29. Точность (P) и полнота (R) для перевода прилагательных, поля ‘гладкий’/ ‘толстый’/‘тонкий’.2.2.

Заполнение анкетыОдна из основных задач исследования в области лексической типологии – это оценкавозможности употребления слов описываемого ряда в различных контекстах. Имеяисходные русско- или англоязычные списки прилагательных и существительных, скоторыми эти прилагательные потенциально могут сочетаться, а также полученные напервом шаге работы нашего алгоритма соответствующие им переводы на другие языки,мы можем автоматически определять дистрибутивные свойства каждого признаковогослова по отношению к выделенным предметным именам. Для этого мы используемодноязычные корпуса серии WaC (Baroni et al. 2009). Предложения в корпусах этого типахранятся в формате .xml и структурируются по принципу xml-разметки. Каждоепредложение выделяется тегом <s>. Внутри тега прописываются словоформы, которыесодержит данное предложение.

Информация о каждой словоформе занимает одну строкуи содержит словоформу, лемму, морфологическую информацию о данной словоформе,номер данной словоформы в предложении, номер синтаксической вершины, к которойотносится данное слово, и его синтаксическую категорию, разделенные табуляцией.Поскольку в выбранных нами полях изучаемые слова – прилагательные, а ихдиагностические контексты – существительные, для того, чтобы оценить вероятность ихсовместной встречаемости, мы ищем вхождения всех комбинаторно возможных биграмм“прилагательное + существительное” из анкеты в корпусе исследуемого языка.

Для этогомы ищем такие лексемы, леммы которых совпадают с искомыми (поскольку искомоесуществительное может встретиться в тексте как, скажем, во множественном числе, так ив единственном), которые находятся на расстоянии один друг от друга.Для того, чтобы исключить окказиональные и в целом нехарактерные для языкасочетания, мы вычисляем для каждой биграммы характеризующую ее меру взаимнойинформации (pointwise mutual information, далее PMI), показывающую, насколькосовместная встречаемость двух слов статистически значима в данном языке. Значение этойметрики вычисляется по следующей формуле:125(, ) = log((,)()()),где p(x,y) - вероятность встретить прилагательное с существительным рядом в корпусе, p(x) вероятность встретить прилагательное в корпусе, p(y) - вероятность встретить существительное вкорпусе.Формула 17.

Мера взаимной информации (pointwise mutual information).Введение порога для PMI позволяет оставить контекстно-связанные слова иисключить такие, которые приравниваются к случайно встретившимся рядом в тексте. Мыустановили пороговое значение, равное нулю, т.е. фактически мы используем метрикуположительной взаимной информации (positive pointwise mutual information, PPMI).Например, если мы хотим оценить допустимость употребления в итальянском языкесуществительного corridoio ‘коридор’ в сочетании с прилагательным stretto ‘узкий’, то мыбудем искать в корпусе два идущих подряд слова с леммами corridoio и stretto. В корпусеItWaC находится 47 таких вхождений с мерой PMI равной приблизительно 8.7,достаточной для того, чтобы считать сочетание corridoio stretto допустимым при взятомнами пороге, равном нулю. Такой метод позволяет заполнять анкеты для частотныхпризнаковых слов относительно аккуратно (см.

Табл. 30). Однако заметим, что качествоработы этого модуля нашего алгоритма во многом зависит от объема и степенисбалансированности используемых одноязычных корпусов.RUIT‘толстый’‘тонкий’P0.750.79R0.870.92P0.40.54R0.70.68Таблица 30. Точность (P) и полнота (R) для задачи заполнения анкет (поля ‘толстый’ и ‘тонкий’).§4. ВыводыИтак, мы провели серию пилотных экспериментов в области автоматизации процессасбора лексико-типологических данных с семантическими полями качественных признаков‘острый’, ‘гладкий’, ‘толстый’ и ‘тонкий’, которые уже были проанализированы вручнуюучастниками группы MLexT.

Мы показали, что эта задача включает в себя две подзадачи:перевод анкеты и ее заполнение. Первая подзадача подразумевает перевод списковсуществительных и прилагательных. Мы опробовали три метода ее решения, основанныена разных источниках лексикографических данных: 1) перевод с помощью онлайн126переводчиков компаний Yandex и Google, 2) перевод с помощью машиночитаемыхпереводных словарей Freedict и Verdict, 3) перевод с помощью параллельных подкорпусовНКРЯ. Пословный перевод существительных на данный момент эффективнее всегоосуществляется с помощью онлайн переводчиков, а искать переводные эквиваленты дляприлагательных надежнее всего с помощью параллельных корпусов достаточного объема.Вторая подзадача решается на основе анализа сочетаемости полученных прилагательныхи существительных по одноязычному корпусу серии WaC.Результатынашихпилотныхэкспериментовпоказывают,чтолексико-типологические анкеты (по крайней мере, для признаковых семантических полей) могутпереводиться и заполняться автоматически данными языков, снабженных необходимымидля этого электронными ресурсами.

Процесс перевода с опорой на онлайн-платформыYandex и Google автоматизирован, поэтому перевод списков слов на любой язык,инкорпорированный в эти системы, не потребует дополнительной ручной работы.Аналогично, все словари серий Freedict и Verdict имеют одинаковую структуру, поэтомулюбой из них может быть автоматически обработан с помощью наших программ.Полученные нами результаты показывают, что пока эти словари недостаточнопредставительны, но, по крайней мере, база Freedict продолжает пополняться. Переводотдельных слов по любому параллельному подкорпусу НКРЯ также может бытьосуществлен полностью автоматически без каких бы то ни было дополнительныхмодификаций наших алгоритмов.

То же самое касается и корпусов серии WaC: все онисоздаются и размечаются по общей схеме, поэтому мы можем считать, что располагаемготовым инструментом обработки для каждого из них. При этом коллекция таких корпусовтакже пополняется, а наши эксперименты в §4 Главы 3 косвенно свидетельствуют о том,интернет-тексты, которые составляют основу таких корпусов, пригодны для лексикотипологических исследований.Однако подчеркнем, что наши алгоритмы пока не предполагают полнойавтоматизации процесса сбора материала для лексико-типологических исследований,поскольку на данный момент в лингвистике не накоплено достаточного количестванадежных ресурсов: сопоставимых и представительных переводных словарей, объемныхи сбалансированных параллельных и одноязычных корпусов.

Характеристики

Тип файла
PDF-файл
Размер
1,9 Mb
Предмет
Высшее учебное заведение

Список файлов диссертации

Автоматизация лексико-типологических исследований методы и инструменты
Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее