Резюме (Автоматизация лексико-типологических исследований методы и инструменты)
Описание файла
Файл "Резюме" внутри архива находится в папке "Автоматизация лексико-типологических исследований методы и инструменты". PDF-файл из архива "Автоматизация лексико-типологических исследований методы и инструменты", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст из PDF
На правах рукописиРыжова Дарья АлександровнаАВТОМАТИЗАЦИЯ ЛЕКСИКО-ТИПОЛОГИЧЕСКИХИССЛЕДОВАНИЙ: МЕТОДЫ И ИНСТРУМЕНТЫРезюмедиссертации на соискание ученой степеникандидата филологических наук НИУ ВШЭМосква 2018ОБЩАЯ ХАРАКТЕРИСТИКА ДИССЕРТАЦИИЛексическая типология – сравнительно молодая область лингвистики, основнойзадачей которой является сопоставительный анализ значений слов в разных языках.Сильнейший импульс для развития лексическая типология получила с выходомзнаменитой статьи Berlin & Kay 1969 о типологии цветообозначений, где была предложеначеткая методика сопоставления лексических значений, широко применяемая до сих пор.Эта работа вызвала широкий резонанс в лингвистическом сообществе и положила началоактивному развитию лексической типологии.
В настоящее время интерес ктипологическому анализу лексики только продолжает возрастать.За полвека лексическая типология добилась существенных результатов: разработаныразличные методики сбора и анализа материала (см., например, недавний обзорKoptjevskaja-Tamm, Rakhilina, & Vanhove 2016, описан целый ряд семантических полей(глаголы давания (Newman 1998), разделения объектов на части (Majid & Bowerman 2007),движения в воде (Майсак & Рахилина 2007), извлечения объектов (Kopecka & Narasimhan2012) и многие другие, в том числе не-глагольные). Между тем, некоторыеметодологические сложности по-прежнему не преодолены. В первую очередь, они связаныс тем, что для анализа лексики необходим обширный и представительный материал,который в большинстве случаев невозможно почерпнуть из лексикографическихисточников.
Это вынуждает исследователей разрабатывать специальные анкеты исобирать команду экспертов по различным языкам, способных провести работу сносителями и проанализировать полученный материал. Трудоемкость всего процесса непозволяет проводить подробный анализ обширных семантических зон в большомколичестве языков. Поэтому, в большинстве случаев, приходится серьезно ограничиватьлибо количество языков в выборке, либо степень подробности их анализа. Автоматизациятрудоемкой деятельности по сбору и обработке лексического материала позволила быполучить огромный массив структурированных данных для многих языков мира,подготовленных к лексикографической обработке и непосредственному сопоставлению.Результаты подробного и обширного сравнительного анализа лексических значений,а также сама алгоритмизация и компьютеризация лексико-типологического исследованияпредставляют несомненную теоретическую ценность: они позволяют не только расширятьи уточнять данные, полученные ручным путем, но и уточнять методологическиеоснования, на которых была построена ручная работа с этими данными.
В частности, вданной диссертации мы предполагаем доказать реальность и лингвистическуюрелевантность такого теоретического понятия, как лексико-типологический фрейм,которое лежит в основе наших исследований. Таким образом, с алгоритмизациейлексическая типология повышает свой статус как научно обоснованная областьлингвистических исследований: мы строим не гипотезы, а полноценные модели.Одновременно привлечение в лексическую типологию больших данных принесло быи практическую пользу: их можно было бы учитывать при решении задач ручного имашинного перевода, а также при разработке более эффективных методик обученияиностранному языку.
Таким образом, актуальность представляемой на защиту2диссертационной работы, определяется востребованностью методов автоматическогоанализа лексики как в теоретической, так и в прикладной лингвистике.Наша работа опирается на фреймовый подход к лексической типологии,разработанный Московской лексико-типологической группой MLexT (Рахилина &Резникова 2013; Rakhilina & Reznikova 2016) и восходящий к традициям Московскойсемантической школы, см. Апресян 1974. Ключевое для данной парадигмы понятиефрейма обозначает минимальную ситуацию, которая может в каком-либо языкеописываться отдельной лексемой. Задача типологического описания некоторогосемантического поля в таком случае сводится к определению набора составляющих егофреймов (т.е.
типов ситуаций, которые могут покрываться относящимися к немулексемами) и моделей их лексикализации (т.е. стратегии объединения значений в рамкаходного лексического средства – прототипически, слова). Набор фреймов определяетсячерез анализ сочетаемости слов, которая изучается по словарям и корпусам и уточняется входе опросов носителей, а принципы объединения фреймов отображаются насемантических картах, подобных тем, что создаются по результатам исследований вграмматической типологии (см.
Haspelmath 2003).Цель нашей работы – обосновать фреймовый подход в качестве методологическойосновы и теоретической базы лексико-типологических исследований и предложитьновые методы автоматического сбора и анализа лексико-типологических данных, которыепозволят упростить и ускорить процесс сбора первичных данных и обнаружить новыезакономерности в выражении лексических значений.В соответствии с поставленной целью, работа решает следующие задачи:(1) формализация базовых понятий и процедуры лексико-типологическогоисследования, выполняемого в рамках фреймовой парадигмы: выделение основных егоэтапов и формулировка задач, которые должны быть решены на каждом шаге;(2) подбор и апробация автоматических методов реализации каждого из этапов;(3) анализ полученных результатов, определение перспектив примененияквантитативных методик в лексической типологии.Основные методы, на которые мы опираемся при разработке алгоритмовавтоматического сбора и анализа лексических данных, – это дистрибутивный анализ(модели дистрибутивной семантики, см.
Baroni, Bernardi, & Zamparelli 2014), кластерныйанализ (Everitt 2011) и анализ формальных понятий (Ganter & Wille 1999).Научная новизна исследования обусловлена слабой изученностью лексикотипологической области в целом и узким кругом исследований, посвященных задачеразработки компьютерных методов анализа значений слов. Методы, которые мыиспользуем в диссертации, пока не применялись для решения подобных задач. Мыпредлагаем свои собственные алгоритмы их внедрения в процесс типологического анализалексики.На защиту выносятся следующие положения:(1) Фреймовая структура поля имеет квантитативное обоснование и представляетсобой пересекающиеся кластеры с ярко выраженными центрами («фокусами»).3(2) Предварительный вариант лексико-типологической анкеты может быть полученна основе одноязычного корпуса текстов с помощью моделей дистрибутивной семантикии кластерного анализа полученного дистрибутивного пространства.(3) Процесс сбора данных по анкете может быть полностью автоматизирован спомощью параллельных и одноязычных корпусов, машиночитаемых переводных словарейи онлайн-переводчиков.(4) Решетки формальных понятий могут быть использованы как новый аналогсемантических карт.
Такие карты независимы от изначальных теоретических предпосылокисследователя и имеют более широкий круг возможностей по сравнению с обычнымиграфовыми и вероятностными моделями. Они позволяют отображать не толькоотносительные расстояния между исходными значениями, но и стратегии объединенияпрямых значений и системные связи между прямыми и метафорическими употреблениямилексем.Тем самым, теоретическая значимость работы определяется её вкладом в развитиелексической типологии в целом и фреймового подхода в частности. Результаты,полученные в ходе настоящего исследования, позволяют уточнить наши представления оборганизации семантического пространства лексических значений и выдвинуть новыегипотезы относительно степени их сопоставимости.Практическая значимость диссертации заключается в разработке алгоритмов,которыемогутпозволитьоптимизироватьпроцесслексико-типологическогоисследования, а значит, ускорить процесс подготовки материала, необходимого длярешения задач в области лексикографии (в том числе компьютерной), обучения языку,ручного и машинного перевода.Все эксперименты, описанные в настоящей работе, проводятся на материаленескольких признаковых и глагольных семантических полей, уже исследованных вручнуюучастниками группы MLexT: ‘острый’ (Кюсева 2012), (Kyuseva, Parina, & Ryzhova toappear), ‘гладкий’ (Кашкин 2013), (Kashkin & Vinogradova to appear), ‘прямой’ (Лучина2014), ‘толстый’ (Kozlov & Privizentseva to appear), ‘качание’ (Шапиро 2015), ‘падение’(Кузьменко & Мустакимова 2015; Reznikova & Vyrenkova 2015) и некоторые другие.Апробация результатов исследования.
Основные результаты исследования былипредставлены на XI Конференции по типологии и грамматике для молодыхисследователей (г. Санкт-Петербург, 2014), мастер-классе по лексической типологии вУниверситете Хельсинки (г. Хельсинки, Финляндия, 2014), XVI Апрельскоймеждународной научной конференции НИУ ВШЭ (г. Москва, 2015), научном семинаре спрофессором Института психолингвистики имени Макса Планка Асифой Маджид (г.Москва, 2015), Международной конференции по компьютерной лингвистике «Диалог2015» (г.