Резюме (1137504), страница 2
Текст из файла (страница 2)
Москва, 2015), конференции «Проблемы компьютерной лингвистики» (г.Воронеж, 2015), I международной научно-практической конференции «Иностранныеязыки в науке и образовании: проблемы и перспективы» (г. Москва, 2015),международном научном семинаре «Компьютерная лингвистика и наука о языке» (г.Москва, 2016), постерной секции Типологической школы Школы лингвистики НИУ ВШЭ(г. Москва, 2016), X Международной конференции по языковым ресурсам и их оценкеLREC’16 (г.
Порторож, Словения, 2016), международном семинаре по перцептивной4метафоре (г. Неймеген, Голландия, 2016), международном семинаре по глаголам движения(г. Париж, Франция, 2017), XIV Международной конференции по когнитивнойлингвистике (г. Тарту, Эстония, 2017). По теме диссертации опубликовано 9 работ, в томчисле 5 в изданиях, рекомендованных ВАК.Структура работы. Работа состоит из Введения, пяти глав, Заключения,Библиографии из 158 названий и пяти Приложений.
Во Введении содержится общаяхарактеристика диссертации. В первом разделе Главы 1 приводится обзор существующихметодик сравнительного анализа лексики, в том числе новейших компьютерных. Вовтором разделе дается обзор фреймового подхода к лексической типологии, на которыймы опираемся в настоящем исследовании. В Главе 2 мы представляем результаты серииэкспериментов, направленных на оценку состоятельности ключевого для даннойпарадигмы понятия – фрейма. Главы 3 – 5 посвящены обсуждению возможных методовавтоматизации каждого из этапов исследования: разработки анкеты (Глава 3), заполненияанкеты материалами различных языков (Глава 4) и построения семантической карты(Глава 5). Наконец, в Заключении формулируются основные выводы.ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИГлава 1 «Введение» содержит краткую характеристику существующих методологийтипологического анализа лексики.
Основной постулат, на котором зиждется лексическаятипология, заключается в том, что лексика разных языков системна и сопоставима. Разныеподходы в этой области лингвистики отличаются друг от друга прежде всего тем, какиепараметры для сравнения слов они выбирают.
Эти параметры определяют и выбористочников данных, и методы работы с ними.На сегодняшний день в лексической типологии можно выделить пять основныхнаправлений:(1) Экспериментальный подход, начало которому положила работа Berlin, Kay 1969,посвященная типологии цветообозначений. Эта методология опирается на методэлицитации с использованием анкет, состоящих из экстралингвистических стимулов, т.е.
вкачестве параметров для сравнения выбираются характеристики объектов или ситуаций,которые воспринимаются органами чувств.(2) Теория семантических примитивов, разрабатываемая А. Вежбицкой и К.Годдардом (Wierzbicka 1985). Согласно этому подходу, значение любого словаестественного человеческого языка складывается из очень узкого набора универсальныхсемантических примитивов (таких, как «я», «ты», «что-то», «большой», «думать» и т.п.).Значению разных слов соответствуют разные комбинации универсальных смыслов.(3) Серия подходов, опирающихся на словарные данные. Выделяют словарныеподзначения и ищут закономерности в способах их «колексификации» (в терминахFrançois 2008), т.е.
объединения в рамках конкретных лексических средств.(4) Серия подходов, опирающихся на данные параллельных корпусов (см., например,Viberg 2006, Wälchli, Cysouw 2012). Используют общий набор контекстов в качествеаналога лексико-типологической анкеты и определяют разницу между словами по тому, вкаких контекстах они могут или не могут употребляться.5(5) Фреймовый подход к лексической типологии, основывающийся напредположении о существовании некоторого универсального набора минимальныхлексических значений (фреймов). Предполагается, что каждое семантическое полехарактеризуется своим набором фреймов, а разные слова покрывают разные ихкомбинации.В первом разделе Главы 1 обсуждаются первые четыре методологии, выделяются ихсильные и слабые стороны, подчеркивается общая тенденция к внедрению компьютерныхметодов сбора и анализа данных в процесс исследования.Подробному обсуждению пятого подхода, который мы принимаем за основу в своемисследовании, посвящен раздел 2 Главы 1.
Этот подход восходит к традициям МосковскойСемантической Школы (см. Апресян 1974) и предполагает сравнительный анализ внутрии межъязыковых квазисинонимов через призму их сочетаемостных свойств. Для того,чтобы сравнивать слова из различных языков, удобно разбить их семантику нанепересекающиеся понятийные фрагменты, т.е. типы ситуаций, в которых эти слова могутупотребляться. Каждому типу ситуаций соответствуют разные группы контекстов.Например, семантику русского прилагательного тонкий можно представить в видетакого набора понятийных фрагментов: ‘малый диаметр поперечного среза’; реализуется в контексте названийдлинных вытянутых предметов [карандаш, веревка, палка] ‘малое расстояние от одной грани объекта до другой’ – о размере плоскихпредметов («слоев»), таких как книга, ткань или бумага; ‘слабая громкость и высокий частотный диапазон’ – качество звука,реализуется в контексте существительных звук, голос и т.п. …Те же самые элементарные ситуации позволяют устанавливать соответствия междурусским прилагательным тонкий и его переводными эквивалентами.
Ср., например,перевод этого слова на китайский: ‘тонкий’ + название длинного вытянутого предмета => xì (xì gùnzi – ‘тонкаяпалка’); ‘тонкий’ + название плоского предмета => báo (báo zhǐ – ‘тонкая бумага’) и т.д.(подробнее см. Кюсева и др. 2013).Такие ситуации называются фреймами. Предполагается, что фреймы – этоминимальные лексические значения, т.е.
каждая конкретная лексема покрывает ту илииную их комбинацию. При этом не все комбинации фреймов одинаково вероятны: какието значения часто объединяются в рамках одного лексического средства, а какие-то,напротив, в большинстве случаев оказываются лексически противопоставлены.Закономерности объединения фреймов в рамках одной лексемы представляютсяграфически в виде лексико-семантических карт.Такой метод изучения семантики слов был опробован на обширном лексическомматериале, ср. Майсак, Рахилина 2007, Круглякова 2010, Кашкин 2013, Холкина 2014,Кюсева 2012.
В ходе проведенных исследований доказано, что этот подход действительно6позволяет выявлять фреймовую структуру каждого семантического поля и сопоставлятьлексику разных языков.Исследование лексических единиц в этой парадигме включает несколько основныхэтапов:1. Составление анкеты (т.е. предварительное определение набора фреймов) на основеанализа сочетаемости лексем выбранного поля в 3-5 языках.2. Сбор данных других языков выборки для уточнения набора фреймов.3.
Составление семантической карты для описания системы каждого языка и еевизуализации.4. Анализ типов систем, реализованных в разных языкахДля определения набора фреймов, релевантных для рассматриваемого поля,необходимо провести подробный анализ словарных и корпусных данных, дополнив их входе опросов носителей. Поскольку основная задача исследования – определить правиласочетаемости для каждой лексемы, относящейся к данному полю, анкеты для работы сносителями содержат контексты, в которых могут употребляться изучаемые слова, а этоозначает, что итоговую анкету необходимо переводить на каждый из языков, включаемыхв выборку.До сих пор практически все работы в рамках этого подхода осуществлялись вручнуюи требовали долгой, кропотливой и согласованной работы специалистов по всем языкам,включенным в выборку.
Трудоемкость процесса вкупе с необходимостью привлеченияэксперта для анализа материала каждого нового языка не позволяют проводитьисследование на основе достаточно представительных языковых выборок. В свою очередь,небольшие размеры выборок заставляют усомниться в значимости получаемыхрезультатов, в частности, в том, что выделение особых семантических единиц (фреймов),претендующих на статус минимальных лексических значений, действительнолингвистически оправданно.Глава 2 «Верификация понятия фрейма с помощью моделей дистрибутивнойсемантики» описывает серию экспериментов, направленных на поиски дополнительныхобоснований для выделения фреймов.
Фреймовая структура поля определяется в терминахсемантической близости: ситуации, относящиеся к одному фрейму, наиболее близкисемантически, а между ситуациями из разных фреймов расстояния могут быть разные, иименно эти расстояния отражает семантическая карта рассматриваемого поля.Семантическое расстояние между фреймами определяется на основе типологическихданных. Обычно в рамках фреймового подхода учитываются только относительныерасстояния: если некоторая лексема L1 может покрывать фреймы F1 и F2, а лексема L2 –значения F2 и F3, но при этом нет ни одного слова, которое означало бы F1 и F3, неохватывая при этом F2, утверждается, что фреймы F1 и F3 находятся дальше друг от друга,чем F1 и F2 или F2 и F3.
Такая конфигурация фреймов иллюстрируется с помощьюлинейной семантической карты: F1 – F2 – F3.Опираясь на пилотное исследование Кюсева 2014, мы разработали формулу болееточного, численного определения типологической близости между фреймами на основеданных о частоте колексификации минимальных значений. Каждый фрейм представляется7в виде вектора w, в качестве измерений которого выступают лексемы изучаемого поля извсех языков выборки. В случае, если лексема li может описывать данный фрейм,соответствующее ей измерение wi принимает значение 1, а если не может – 0.Типологическое расстояние между фреймами определяется с помощью косинусной мерыблизости между представляющими их векторами (ср.
похожую метрику близости внедавней работе Youn et al. 2016).Однако известны и другие методы определения семантических расстояний междулексическими значениями, в частности, представление значения лексической единицы(слова или словосочетания) с помощью вектора его сочетаемости (т.н. моделидистрибутивной семантики, см. Baroni et al. 2013). Такие семантические представленияиспользуются для решения широкого круга задач, в том числе, близких к нашей (например,для семантической дизамбигуации или выбора из ряда квазисинонимов наиболееподходящего для данного контекста).
Насколько нам известно, в типологии подобныеметодики ещё не применялись, однако можно предположить, что в том случае, еслифреймы – это действительно минимальные лексические значения, то дистрибутивныерасстояния между ними должны соответствовать типологическим.Мы провели серию экспериментов на материале признаковых полей ‘острый’ и‘гладкий’.
Наборы фреймов, а также данные для вычисления типологических расстояниймежду ними были взяты из Типологически ориентированной базы данных признаковойлексики (см. Кюсева и др. 2013а).Для каждого фрейма было взято по несколько иллюстраций (или «микрофреймов»,например, для фрейма ‘инструмент с колющим концом’ из поля ‘острый’ – ‘острая игла’,‘острая стрела’, ‘острое копье’). Каждому микрофрейму было поставлено в соответствиедвусловное русское сочетание (острая игла, острая стрела, острое копье), и для каждоготакого словосочетания построен вектор сочетаемости.Для построения дистрибутивных моделей использовались следующие параметры, которыеподробно обсуждаются в тексте диссертации:1. Измерения: 10 000 самых частотных лемм самостоятельных частей речи (по основномуподкорпусу НКРЯ)2. Значения измерений: частота встречаемости в окне ±5 слов самостоятельных частей речиот единицы, для которой строится вектор3.