Диссертация (1137502), страница 2
Текст из файла (страница 2)
115§2. МАТЕРИАЛ ДЛЯ ЭКСПЕРИМЕНТОВ ............................................................................................................... 116§3. АЛГОРИТМЫ АВТОМАТИЧЕСКОГО ЗАПОЛНЕНИЯ ТИПОЛОГИЧЕСКОЙ АНКЕТЫ ............................................ 1183.1. Перевод анкеты ....................................................................................................................................
1182.1.1. Онлайн-переводчики компаний Yandex и Google ........................................................................................ 1192.1.2. Машиночитаемые словари Freedict и Verdict ................................................................................................ 1212.1.3. Параллельные корпуса ....................................................................................................................................
1222.1.4. Анализ результатов ......................................................................................................................................... 1232.2. Заполнение анкеты ............................................................................................................................... 125§4. ВЫВОДЫ ....................................................................................................................................................... 126ГЛАВА 5. ПОСТРОЕНИЕ СЕМАНТИЧЕСКОЙ КАРТЫ И АНАЛИЗ ТИПОВ СИСТЕМ ................ 129§1.
СУЩЕСТВУЮЩИЕ МЕТОДЫ СОЗДАНИЯ СЕМАНТИЧЕСКИХ КАРТ.................................................................. 1291.1. Графовые семантические карты ........................................................................................................ 1291.2. Вероятностные семантические карты ............................................................................................. 130§2. ГРАФОВАЯ И ВЕРОЯТНОСТНАЯ МОДЕЛИ В ПРИМЕНЕНИИ К НАШЕМУ МАТЕРИАЛУ ..................................... 131§3.
ПОСТРОЕНИЕ СЕМАНТИЧЕСКИХ КАРТ С ПОМОЩЬЮ РЕШЕТОК ФОРМАЛЬНЫХ ПОНЯТИЙ ............................ 1371. Анализ формальных понятий ..................................................................................................................
1372. Решетки формальных понятий как лексические семантические карты ........................................... 1383. Представление метафорических значений ........................................................................................... 141§4. ВЫВОДЫ ....................................................................................................................................................... 144ЗАКЛЮЧЕНИЕ ...........................................................................................................................................
145БИБЛИОГРАФИЯ ...................................................................................................................................... 148ПРИЛОЖЕНИЕ 1. АНКЕТА ДЛЯ ПОЛЯ ‘ОСТРЫЙ’ ............................................................................ 161ПРИЛОЖЕНИЕ 2. АНКЕТА ДЛЯ ПОЛЯ ‘ГЛАДКИЙ’.......................................................................... 166ПРИЛОЖЕНИЕ 3. АНКЕТА ДЛЯ ПОЛЯ ГЛАГОЛОВ КАЧАНИЯ .....................................................
170ПРИЛОЖЕНИЕ 4. АВТОМАТИЧЕСКИ СКОНСТРУИРОВАННАЯ АНКЕТА ДЛЯ ПОЛЯ‘ПРЯМОЙ’ ................................................................................................................................................... 171ПРИЛОЖЕНИЕ 5. АВТОМАТИЧЕСКИ СКОНСТРУИРОВАННАЯ АНКЕТА ДЛЯ ПОЛЯ‘ТОЛСТЫЙ’ ................................................................................................................................................. 1733ВведениеЛексическая типология – сравнительно молодая область лингвистики, основнойзадачей которой является сопоставительный анализ значений слов в разных языках.Сильнейший импульс для развития лексическая типология получила с выходомзнаменитой статьи Berlin & Kay 1969 о типологии цветообозначений, где была предложеначеткая методика сопоставления лексических значений, широко применяемая до сих пор.Эта работа вызвала широкий резонанс в лингвистическом сообществе и положила началоактивномуразвитиюлексическойтипологии.Внастоящеевремяинтересктипологическому анализу лексики только продолжает возрастать.За полвека лексическая типология добилась существенных результатов: разработаныразличные методики сбора и анализа материала (см., например, недавний обзорKoptjevskaja-Tamm, Rakhilina, & Vanhove 2016, описан целый ряд семантических полей(глаголы давания (Newman 1998), разделения объектов на части (Majid & Bowerman 2007),движения в воде (Майсак & Рахилина 2007), извлечения объектов (Kopecka & Narasimhan2012) и многие другие, в том числе не-глагольные).
Между тем, некоторыеметодологические сложности по-прежнему не преодолены. В первую очередь, онисвязаны с тем, что для анализа лексики необходим обширный и представительныйматериал,которыйлексикографическихвбольшинствеисточников.Этослучаевневозможновынуждаетпочерпнутьисследователейизразрабатыватьспециальные анкеты и собирать команду экспертов по различным языкам, способныхпровести работу с носителями и проанализировать полученный материал. Трудоемкостьвсего процесса не позволяет проводить подробный анализ обширных семантических зон вбольшом количестве языков.
Поэтому, в большинстве случаев, приходится серьезноограничивать либо количество языков в выборке, либо степень подробности их анализа.Автоматизация трудоемкой деятельности по сбору и обработке лексического материалапозволила бы получить огромный массив структурированных данных для многих языковмира,подготовленныхклексикографическойобработкеинепосредственномусопоставлению.Результаты подробного и обширного сравнительного анализа лексических значений,а также сама алгоритмизация и компьютеризация лексико-типологического исследованияпредставляют несомненную теоретическую ценность: они позволяют не только расширятьи уточнять данные, полученные ручным путем, но и уточнять методологические4основания, на которых была построена ручная работа с этими данными.
В частности, вданной диссертации мы предполагаем доказать реальность и лингвистическуюрелевантность такого теоретического понятия, как лексико-типологический фрейм,которое лежит в основе наших исследований. Таким образом, с алгоритмизациейлексическая типология повышает свой статус как научно обоснованная областьлингвистических исследований: мы строим не гипотезы, а полноценные модели.Одновременно привлечение в лексическую типологию больших данных принесло быи практическую пользу: их можно было бы учитывать при решении задач ручного имашинного перевода, а также при разработке более эффективных методик обученияиностранному языку. Таким образом, актуальность представляемой на защитудиссертационной работы, определяется востребованностью методов автоматическогоанализа лексики как в теоретической, так и в прикладной лингвистике.Наша работа опирается на фреймовый подход к лексической типологии,разработанный Московской лексико-типологической группой MLexT (Рахилина &Резникова 2013; Rakhilina & Reznikova 2016) и восходящий к традициям Московскойсемантической школы, см.
Апресян 1974. Ключевое для данной парадигмы понятиефрейма обозначает минимальную ситуацию, которая может в каком-либо языкеописываться отдельной лексемой. Задача типологического описания некоторогосемантического поля в таком случае сводится к определению набора составляющих егофреймов (т.е. типов ситуаций, которые могут покрываться относящимися к немулексемами) и моделей их лексикализации (т.е.
стратегии объединения значений в рамкаходного лексического средства – прототипически, слова). Набор фреймов определяетсячерез анализ сочетаемости слов, которая изучается по словарям и корпусам и уточняетсяв ходе опросов носителей, а принципы объединения фреймов отображаются насемантических картах, подобных тем, что создаются по результатам исследований вграмматической типологии (см. Haspelmath 2003).Цель нашей работы – обосновать фреймовый подход в качестве методологическойосновы и теоретической базы лексико-типологических исследований и предложитьновые методы автоматического сбора и анализа лексико-типологических данных, которыепозволят упростить и ускорить процесс сбора первичных данных и обнаружить новыезакономерности в выражении лексических значений.В соответствии с поставленной целью, работа решает следующие задачи:5(1) формализация базовых понятий и процедуры лексико-типологическогоисследования, выполняемого в рамках фреймовой парадигмы: выделение основных егоэтапов и формулировка задач, которые должны быть решены на каждом шаге;(2) подбор и апробация автоматических методов реализации каждого из этапов;(3)анализполученныхрезультатов,определениеперспективпримененияквантитативных методик в лексической типологии.Основные методы, на которые мы опираемся при разработке алгоритмовавтоматического сбора и анализа лексических данных, – это дистрибутивный анализ(модели дистрибутивной семантики, см.
Baroni, Bernardi, & Zamparelli 2014), кластерныйанализ (Everitt 2011) и анализ формальных понятий (Ganter & Wille 1999).Научная новизна исследования обусловлена слабой изученностью лексикотипологической области в целом и узким кругом исследований, посвященных задачеразработки компьютерных методов анализа значений слов. Методы, которые мыиспользуем в диссертации, пока не применялись для решения подобных задач. Мыпредлагаем свои собственные алгоритмы их внедрения в процесс типологического анализалексики.На защиту выносятся следующие положения:(1) Фреймовая структура поля имеет квантитативное обоснование и представляетсобой пересекающиеся кластеры с ярко выраженными центрами («фокусами»).(2) Предварительный вариант лексико-типологической анкеты может быть полученна основе одноязычного корпуса текстов с помощью моделей дистрибутивной семантикии кластерного анализа полученного дистрибутивного пространства.(3) Процесс сбора данных по анкете может быть полностью автоматизирован спомощью параллельных и одноязычных корпусов, машиночитаемых переводных словарейи онлайн-переводчиков.(4) Решетки формальных понятий могут быть использованы как новый аналогсемантических карт.
Такие карты независимы от изначальных теоретических предпосылокисследователя и имеют более широкий круг возможностей по сравнению с обычнымиграфовыми и вероятностными моделями. Они позволяют отображать не толькоотносительные расстояния между исходными значениями, но и стратегии объединенияпрямых значений и системные связи между прямыми и метафорическими употреблениямилексем.6Тем самым, теоретическая значимость работы определяется её вкладом в развитиелексической типологии в целом и фреймового подхода в частности. Результаты,полученные в ходе настоящего исследования, позволяют уточнить наши представления оборганизации семантического пространства лексических значений и выдвинуть новыегипотезы относительно степени их сопоставимости.Практическая значимость диссертации заключается в разработке алгоритмов,которыемогутпозволитьоптимизироватьпроцесслексико-типологическогоисследования, а значит, ускорить процесс подготовки материала, необходимого длярешения задач в области лексикографии (в том числе компьютерной), обучения языку,ручного и машинного перевода.Все эксперименты, описанные в настоящей работе, проводятся на материаленескольких признаковых и глагольных семантических полей, уже исследованных вручнуюучастниками группы MLexT: ‘острый’ (Кюсева 2012), (Kyuseva, Parina, & Ryzhova toappear), ‘гладкий’ (Кашкин 2013), (Kashkin & Vinogradova to appear), ‘прямой’ (Лучина2014), ‘толстый’ (Kozlov & Privizentseva to appear), ‘качание’ (Шапиро 2015), ‘падение’(Кузьменко & Мустакимова 2015; Reznikova & Vyrenkova 2015) и некоторые другие.Апробация результатов исследования.
Основные результаты исследования былипредставлены на XI Конференции по типологии и грамматике для молодыхисследователей (г. Санкт-Петербург, 2014), мастер-классе по лексической типологии вУниверситетеХельсинки(г.Хельсинки,Финляндия,2014),XVIАпрельскоймеждународной научной конференции НИУ ВШЭ (г.