Диссертация (1137502), страница 26

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 26 страницаДиссертация (1137502) страница 262019-05-202019-05-20СтудИзба

Автоматизация лексико-типологических исследований методы и инструменты

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 26)

Если отказаться отэтапа автоматического определения круга лексем, относящихся к рассматриваемому полю,то алгоритму нужно будет подавать список таких слов на вход, а на выходе будутполучаться группы из трех словосочетаний каждая, иллюстрирующие разные классыупотреблений этих слов. Поскольку качество работы алгоритма не абсолютно идеальное,сконструированные таким образом анкеты нуждаются в экспертной проверке: возможно,потребуется убрать ненужные примеры или объединить несколько кластеров в один.Однако все эти действия могут быть выполнены очень быстро, без привлечения каких быто ни было дополнительных ресурсов. Таким образом, в ближайшем будущемразработанный алгоритм можно будет использовать для массового производствафреймовых анкет, что позволит вывести лексическую типологию на новый уровень.114Глава 4.

Методы автоматического сбора данных31§1. Постановка задачиВ работах по лексической типологии, предлагающих тот или иной методавтоматического сбора данных, этот этап исследования, как правило, совмещается сзадачей составления анкеты. Так, например, в уже цитируемой нами выше работе Wälchli& Cysouw 2012 данные о дистрибуции базовых глаголов движения собираютсяавтоматически по параллельному корпусу текстов Евангелия от Марка. При этом стихи, вкоторых может быть употреблен один из базовых глаголов движения, и выступают вкачестве своего рода анкеты, т.е.

базы для сравнения материала разных языков. В работах,основанных на обработке словарей (ср. Sejane & Eger 2013; Youn et al. 2016),сопоставление полученных данных производится на основе толкований (переводов),извлеченных из тех же самых словарных источников.У таких методик множество достоинств, в частности, они предполагают полную или,покрайнеймере,частичнуюавтоматизациюциклалексико-типологическогоисследования. Но одно из их ограничений заключается в том, что они позволяютучитывать информацию только из одного типа источников.

Так, например, непонятно, какможно было бы д о п о л н и т ь сведения, почерпнутые из параллельных корпусов пометодике Б. Вельхли и М. Сисоу, материалами значительно больших по объемуодноязычных корпусов текстов.Фреймовый подход к лексической типологии, на который мы опираемся в нашемисследовании, напротив, предполагает комплексный анализ лексических единиц,включающий в себя обработку всех доступных ресурсов. Поэтому мы ставим перед собойзадачу, несколько отличающуюся от задач, которые решали наши предшественники. Аименно, мы стремимся разработать серию алгоритмов, принимающих на вход уже готовуюлексико-типологическую анкету и заполняющих ее материалами доступных параллельныхи одноязычных корпусов.

Тем самым, мы существенно сужаем задачу по сравнению срассмотренными выше методиками, подразумевающими полный лексико-типологическийанализ, но надеемся, что это позволит нам создать инструмент для более детальногоРазработка методов, представленных в этой главе, проводилась преимущественно в рамках курса«Практикум по проектированию и разработке лингвистических систем и компонентов» в НИУ ВШЭ. Висследованиях участвовали студенты НИУ ВШЭ А. Мельник, И. Ершов, М.

Соболев, И. Пантелеева, А.Кошевой. Основные результаты совместной работы отражены в статьях Рыжова и др. 2017; Ryzhova et al.2018.31115анализа лексики, в том числе значительно менее базовой и частотной, чем предметныеимена из списка Сводеша или основные глаголы движения.Поскольку в рамках фреймового подхода к лексической типологии анкетыпредставляют собой наборы прототипических контекстов, в которых могут употреблятьсяслова изучаемого поля, такие анкеты необходимо переводить на каждый язык,включаемый в выборку.

Поэтому фактически задача автоматического заполнения анкетыданными некоторого нового языка включает в себя два этапа: 1) перевод анкеты,получаемой на вход, и 2) заполнение переведенного опросника.Эта глава имеет следующую структуру. В §2 дается описание материала дляэкспериментов и золотого стандарта, с которым мы сравниваем результаты работыкомпьютерных моделей, а также уточняются задачи, которые мы перед собой ставим.Параграф 3 посвящен описанию алгоритмов автоматического перевода (раздел 3.1) изаполнения готовых анкет (раздел 3.2). В §4 подводятся итоги: обсуждаются достоинстваи недостатки предложенного метода и возможные пути его дальнейшего развития.§2.

Материал для экспериментовКак и в экспериментах, описанных выше, для разработки пилотного вариантаалгоритма сбора данных мы выбрали материал качественных признаков.Поскольку минимальным диагностическим контекстом для признаковой лексикитакого типа в большинстве случаев является определяемое существительное, анкета дляисследования той или иной признаковой зоны может быть представлена в виде таблицы, встроках которой располагаются существительные, а в столбцах– изучаемыеприлагательные (см. Табл. 26). При заполнении анкеты в те ячейки, которыесоответствуют допустимым (грамматичным, осмысленным и естественным) сочетаниям«прилагательное + существительное», ставится «1» (или «+»), а ячейки, которыесоотносятся с незасвидетельствованными сочетаниями, получают значение «0» (или «-»).Например, в анкете для поля фактуры поверхностей, заполненной материалом русскогоязыка, фрагмент которой представлен в Таблице 26, отмечено, что русск.

дорогасочетается с прилагательными скользкий, ровный, гладкий и прямой, а ступенька – сприлагательными скользкий, ровный и гладкий.116скользкийровныйплоскийгладкийпрямойдорога++-++ступенька++++-...Таблица 26. Фрагмент заполненной анкеты для признакового поля фактуры поверхностей.Заполнение таких анкет требует очень много усилий со стороны исследователя.Задача нашей работы – предложить набор алгоритмов, который будет позволятьобследовать по крайней мере часть источников автоматически и, тем самым, расширятьэмпирическую базу таких исследований, одновременно сокращая количество времени,потраченное на сбор релевантных данных.Таким образом, задачи, которые нам необходимо решить на данном этапе, вприменении к материалу признаковой лексики могут быть сформулированы так:(1) Перевод списка прилагательных, относящихся к рассматриваемому полю, исписка существительных, с которыми они потенциально могут сочетаться;(2) Заполнение этой анкеты (т.е.

таблицы) сведениями о том, могут лирассматриваемые прилагательные и существительные в данном конкретном языкесочетаться друг с другом.В качестве материала для экспериментов мы используем созданные вручную иапробированные на достаточно обширном языковом материале анкеты для четырехпризнаковых полей: ‘острый’, ‘толстый’, ‘тонкий’ и ‘гладкий’ (см. Kashkin & Vinogradovato appear; Kozlov & Privizentseva to appear; Kyuseva et al. to appear). Изначально эти анкетысостояли из списков русских прилагательных и существительных. Мы дополнительноперевели их вручную на итальянский и английский языки и для этих языков заполнили ихтрадиционным способом: по материалам словарей, корпусов и опросов носителей. Такимобразом мы получили золотой стандарт, с которым в дальнейшем сравнивали качествоработы наших алгоритмов.

Там, где это было возможно, мы использовали в качествезолотого стандарта в том числе и данные, собранные ранее также вручную авторамиисследований этих семантических полей и представленные в едином формате Базы данныхпризнаковой лексики (Кюсева, Резникова и Рыжова 2013b). В результате англоязычныеанкеты мы использовали в качестве входных данных наравне с русскоязычными. Полныйцикл работы алгоритмов с последующей оценкой результатов был реализован для двух парязыков: 1) английский в качестве исходного языка и русский в качестве целевого; 2)английский/русский в качестве исходных языков (в зависимости от доступных ресурсов)117и итальянский язык в качестве целевого. В качестве дополнительного материала впроцессе тестирования некоторых этапов работы алгоритма привлекались данные рядадругих языков.§3.

Алгоритмы автоматического заполнения типологической анкетыКак мы уже сказали в предыдущем разделе, задача автоматического заполнениятипологической анкеты включает в себя две подзадачи: перевод анкеты с русского (илианглийского) языка на язык L и собственно заполнение переведенной анкеты. В разделе3.1 мы предлагаем обзор нескольких способов решения задачи перевода и обсуждаем ихдостоинства и недостатки. В разделе 3.2 приводится описание используемого нами методаавтоматического заполнения анкеты.3.1. Перевод анкетыКак уже было сказано ранее, задача перевода анкеты в нашем случае сводится кпоиску переводныхэквивалентовдлядвухсписковслов:прилагательныхисуществительных.

Традиционно задача перевода (в том числе автоматического) отдельныхслов подразумевает один из следующих вариантов решения: (1) выбор самой подходящейлексемы для определенного контекста; (2) подбор наиболее частотного / близкогопереводного эквивалента для данной лексемы; (3) выдачу самого удачного эквивалентадля каждого из значений исходного слова. Если для перевода существительных намподошел бы вариант (2), то в случае с прилагательными цель отличается ото всехперечисленных: нам необходимо подобрать такие лексемы, которые могут выступать вкачестве переводов исходных слов, но только в контекстах, соответствующих их прямымупотреблениям. Так, например, в числе английских переводных эквивалентов словаострый мы бы хотели видеть прилагательные sharp и pointed, но не critical или urgent (ср.острая нехватка, острый вопрос).

Иными словами, на этом этапе мы снова сталкиваемсяс проблемой определения границ поля, только теперь мы исходим из предположения, чтопределы зоны так или иначе очерчены на материале стартового языка, и в нашу задачувходит выделение эквивалентного семантического фрагмента в целевом языке.В результате выполнения первого этапа работы алгоритма создается csv-таблица: впервый столбец таблицы записываются существительные на языке, с которогоосуществлялся перевод, во вторую – на том языке, на который мы переводим анкету, а впервую строку – прилагательные целевого языка. В клетки пересечения между118прилагательным и существительным мы впоследствии, на втором шаге работы алгоритма,записываем информацию о сочетаемости соответствующих единиц (см.

Характеристики

Тип файла

PDF-файл

Размер

1,9 Mb

Материал

Автоматизация лексико-типологических исследований методы и инструменты

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomatizacija-leksiko-tipologicheskih-issledovanij-metody-i-instrumenty.rar

Автоматизация лексико-типологических исследований методы и инструменты

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.