Диссертация (1137502), страница 26
Текст из файла (страница 26)
Если отказаться отэтапа автоматического определения круга лексем, относящихся к рассматриваемому полю,то алгоритму нужно будет подавать список таких слов на вход, а на выходе будутполучаться группы из трех словосочетаний каждая, иллюстрирующие разные классыупотреблений этих слов. Поскольку качество работы алгоритма не абсолютно идеальное,сконструированные таким образом анкеты нуждаются в экспертной проверке: возможно,потребуется убрать ненужные примеры или объединить несколько кластеров в один.Однако все эти действия могут быть выполнены очень быстро, без привлечения каких быто ни было дополнительных ресурсов. Таким образом, в ближайшем будущемразработанный алгоритм можно будет использовать для массового производствафреймовых анкет, что позволит вывести лексическую типологию на новый уровень.114Глава 4.
Методы автоматического сбора данных31§1. Постановка задачиВ работах по лексической типологии, предлагающих тот или иной методавтоматического сбора данных, этот этап исследования, как правило, совмещается сзадачей составления анкеты. Так, например, в уже цитируемой нами выше работе Wälchli& Cysouw 2012 данные о дистрибуции базовых глаголов движения собираютсяавтоматически по параллельному корпусу текстов Евангелия от Марка. При этом стихи, вкоторых может быть употреблен один из базовых глаголов движения, и выступают вкачестве своего рода анкеты, т.е.
базы для сравнения материала разных языков. В работах,основанных на обработке словарей (ср. Sejane & Eger 2013; Youn et al. 2016),сопоставление полученных данных производится на основе толкований (переводов),извлеченных из тех же самых словарных источников.У таких методик множество достоинств, в частности, они предполагают полную или,покрайнеймере,частичнуюавтоматизациюциклалексико-типологическогоисследования. Но одно из их ограничений заключается в том, что они позволяютучитывать информацию только из одного типа источников.
Так, например, непонятно, какможно было бы д о п о л н и т ь сведения, почерпнутые из параллельных корпусов пометодике Б. Вельхли и М. Сисоу, материалами значительно больших по объемуодноязычных корпусов текстов.Фреймовый подход к лексической типологии, на который мы опираемся в нашемисследовании, напротив, предполагает комплексный анализ лексических единиц,включающий в себя обработку всех доступных ресурсов. Поэтому мы ставим перед собойзадачу, несколько отличающуюся от задач, которые решали наши предшественники. Аименно, мы стремимся разработать серию алгоритмов, принимающих на вход уже готовуюлексико-типологическую анкету и заполняющих ее материалами доступных параллельныхи одноязычных корпусов.
Тем самым, мы существенно сужаем задачу по сравнению срассмотренными выше методиками, подразумевающими полный лексико-типологическийанализ, но надеемся, что это позволит нам создать инструмент для более детальногоРазработка методов, представленных в этой главе, проводилась преимущественно в рамках курса«Практикум по проектированию и разработке лингвистических систем и компонентов» в НИУ ВШЭ. Висследованиях участвовали студенты НИУ ВШЭ А. Мельник, И. Ершов, М.
Соболев, И. Пантелеева, А.Кошевой. Основные результаты совместной работы отражены в статьях Рыжова и др. 2017; Ryzhova et al.2018.31115анализа лексики, в том числе значительно менее базовой и частотной, чем предметныеимена из списка Сводеша или основные глаголы движения.Поскольку в рамках фреймового подхода к лексической типологии анкетыпредставляют собой наборы прототипических контекстов, в которых могут употреблятьсяслова изучаемого поля, такие анкеты необходимо переводить на каждый язык,включаемый в выборку.
Поэтому фактически задача автоматического заполнения анкетыданными некоторого нового языка включает в себя два этапа: 1) перевод анкеты,получаемой на вход, и 2) заполнение переведенного опросника.Эта глава имеет следующую структуру. В §2 дается описание материала дляэкспериментов и золотого стандарта, с которым мы сравниваем результаты работыкомпьютерных моделей, а также уточняются задачи, которые мы перед собой ставим.Параграф 3 посвящен описанию алгоритмов автоматического перевода (раздел 3.1) изаполнения готовых анкет (раздел 3.2). В §4 подводятся итоги: обсуждаются достоинстваи недостатки предложенного метода и возможные пути его дальнейшего развития.§2.
Материал для экспериментовКак и в экспериментах, описанных выше, для разработки пилотного вариантаалгоритма сбора данных мы выбрали материал качественных признаков.Поскольку минимальным диагностическим контекстом для признаковой лексикитакого типа в большинстве случаев является определяемое существительное, анкета дляисследования той или иной признаковой зоны может быть представлена в виде таблицы, встроках которой располагаются существительные, а в столбцах– изучаемыеприлагательные (см. Табл. 26). При заполнении анкеты в те ячейки, которыесоответствуют допустимым (грамматичным, осмысленным и естественным) сочетаниям«прилагательное + существительное», ставится «1» (или «+»), а ячейки, которыесоотносятся с незасвидетельствованными сочетаниями, получают значение «0» (или «-»).Например, в анкете для поля фактуры поверхностей, заполненной материалом русскогоязыка, фрагмент которой представлен в Таблице 26, отмечено, что русск.
дорогасочетается с прилагательными скользкий, ровный, гладкий и прямой, а ступенька – сприлагательными скользкий, ровный и гладкий.116скользкийровныйплоскийгладкийпрямойдорога++-++ступенька++++-...Таблица 26. Фрагмент заполненной анкеты для признакового поля фактуры поверхностей.Заполнение таких анкет требует очень много усилий со стороны исследователя.Задача нашей работы – предложить набор алгоритмов, который будет позволятьобследовать по крайней мере часть источников автоматически и, тем самым, расширятьэмпирическую базу таких исследований, одновременно сокращая количество времени,потраченное на сбор релевантных данных.Таким образом, задачи, которые нам необходимо решить на данном этапе, вприменении к материалу признаковой лексики могут быть сформулированы так:(1) Перевод списка прилагательных, относящихся к рассматриваемому полю, исписка существительных, с которыми они потенциально могут сочетаться;(2) Заполнение этой анкеты (т.е.
таблицы) сведениями о том, могут лирассматриваемые прилагательные и существительные в данном конкретном языкесочетаться друг с другом.В качестве материала для экспериментов мы используем созданные вручную иапробированные на достаточно обширном языковом материале анкеты для четырехпризнаковых полей: ‘острый’, ‘толстый’, ‘тонкий’ и ‘гладкий’ (см. Kashkin & Vinogradovato appear; Kozlov & Privizentseva to appear; Kyuseva et al. to appear). Изначально эти анкетысостояли из списков русских прилагательных и существительных. Мы дополнительноперевели их вручную на итальянский и английский языки и для этих языков заполнили ихтрадиционным способом: по материалам словарей, корпусов и опросов носителей. Такимобразом мы получили золотой стандарт, с которым в дальнейшем сравнивали качествоработы наших алгоритмов.
Там, где это было возможно, мы использовали в качествезолотого стандарта в том числе и данные, собранные ранее также вручную авторамиисследований этих семантических полей и представленные в едином формате Базы данныхпризнаковой лексики (Кюсева, Резникова и Рыжова 2013b). В результате англоязычныеанкеты мы использовали в качестве входных данных наравне с русскоязычными. Полныйцикл работы алгоритмов с последующей оценкой результатов был реализован для двух парязыков: 1) английский в качестве исходного языка и русский в качестве целевого; 2)английский/русский в качестве исходных языков (в зависимости от доступных ресурсов)117и итальянский язык в качестве целевого. В качестве дополнительного материала впроцессе тестирования некоторых этапов работы алгоритма привлекались данные рядадругих языков.§3.
Алгоритмы автоматического заполнения типологической анкетыКак мы уже сказали в предыдущем разделе, задача автоматического заполнениятипологической анкеты включает в себя две подзадачи: перевод анкеты с русского (илианглийского) языка на язык L и собственно заполнение переведенной анкеты. В разделе3.1 мы предлагаем обзор нескольких способов решения задачи перевода и обсуждаем ихдостоинства и недостатки. В разделе 3.2 приводится описание используемого нами методаавтоматического заполнения анкеты.3.1. Перевод анкетыКак уже было сказано ранее, задача перевода анкеты в нашем случае сводится кпоиску переводныхэквивалентовдлядвухсписковслов:прилагательныхисуществительных.
Традиционно задача перевода (в том числе автоматического) отдельныхслов подразумевает один из следующих вариантов решения: (1) выбор самой подходящейлексемы для определенного контекста; (2) подбор наиболее частотного / близкогопереводного эквивалента для данной лексемы; (3) выдачу самого удачного эквивалентадля каждого из значений исходного слова. Если для перевода существительных намподошел бы вариант (2), то в случае с прилагательными цель отличается ото всехперечисленных: нам необходимо подобрать такие лексемы, которые могут выступать вкачестве переводов исходных слов, но только в контекстах, соответствующих их прямымупотреблениям. Так, например, в числе английских переводных эквивалентов словаострый мы бы хотели видеть прилагательные sharp и pointed, но не critical или urgent (ср.острая нехватка, острый вопрос).
Иными словами, на этом этапе мы снова сталкиваемсяс проблемой определения границ поля, только теперь мы исходим из предположения, чтопределы зоны так или иначе очерчены на материале стартового языка, и в нашу задачувходит выделение эквивалентного семантического фрагмента в целевом языке.В результате выполнения первого этапа работы алгоритма создается csv-таблица: впервый столбец таблицы записываются существительные на языке, с которогоосуществлялся перевод, во вторую – на том языке, на который мы переводим анкету, а впервую строку – прилагательные целевого языка. В клетки пересечения между118прилагательным и существительным мы впоследствии, на втором шаге работы алгоритма,записываем информацию о сочетаемости соответствующих единиц (см.