Диссертация (1137502), страница 12
Текст из файла (страница 12)
[неизвестный. Слухи про неё верны // «Русская жизнь», 2012](3) Она все-таки упала, не удержавшись на скользком полу, и больно удариласьколенкой. [Наталья Александрова. Последний ученик да Винчи (2010)]Таким образом, два выбранных нами поля сопоставимы по уровню сложностифреймовых структур, лежащих в основании концептуализации этих зон в языках мира. Сдругой стороны, в русском языке стратегии лексикализации этих полей существенноразличаются: в поле ‘острый’ одно доминантное прилагательное покрывает все трифрейма, в то время время как в поле ‘гладкий’ функционируют три лексемы, эксплицитнопротивопоставляющие три основных значения в этой признаковой области.Для каждого из полей мы провели полный цикл экспериментов, варьируя всепараметры, упомянутые в разделе 1 настоящей главы.
Для обоих полей максимальныйкоэффициент корреляции получился очень высоким (0.766 для поля ‘острый’ и 0.946 дляполя ‘гладкий’). Обращает на себя внимание тот факт, что максимальное значениекоэффициента корреляции при базовом алгоритме оказывается неожиданно низким: 0.268(‘острый’) и 0.244 (‘гладкий’).Особенно важно отметить, что лучшие результаты для двух признаковых зон былиполучены на одних и тех же настройках: в качестве обучающего корпуса использовалсяосновной подкорпус НКРЯ, вектора взвешивались по схеме PPMI, размерность итоговоговекторного пространства сокращалась до 300, а вектора словосочетаний складывались извекторных представлений составляющих их слов с помощью модели композиции PLF(практическая лексическая функция).
Заметим также, что лучшие результаты получены наматериале только прямых значений рассматриваемых признаков. Учет метафорических48фреймов существенно снижает показатели: коэффициент корреляции Пирсона для поля‘острый’ в этом случае (при прочих равных условиях) равняется 0.462, для зоны ‘гладкий’– 0.604, что, по-видимому, означает, что прямые значения обладают более четкой, аглавное, предсказуемой фреймовой структурой, чем переносные, которые, хотя и являютсямотивированными, охватывают материал конкретного языка менее равномерно. Наиболеепоказательные результаты приведены в Таблице 5.корпус обработкавектораНКРЯ noneНКРЯ ppmiНКРЯ ppmi,SVDНКРЯ ppmiНКРЯ ppmiНКРЯ ppmiНКРЯ ppmiНКРЯ ppmiмодель‘острый’ ‘острый’: ‘гладкий’ ‘гладкий’:композициипрямыепрямые1noun only0.0920.120.1210.1962noun only0.1390.1670.2370.213noun only0.1670.2680.2740.2444none0.0970.1940.1340.1545additive0.360.6540.5890.746Multiplicative 0.2530.4210.5850.77Dilation0.190.2220.3790.4438Dilation0.2070.350.2490.313w/Training9 НКРЯ ppmi,SVD LexFunc0.1160.3450.4430.70310 НКРЯ ppmi,SVD PrLexFunc0.390.4490.7660.94611 НКРЯ noneWeightedAdd 0.4430.7540.5890.84912 НКРЯ plogWeightedAdd 0.3870.760.4770.76513 НКРЯ epmiWeightedAdd 0.4620.7630.590.86514 НКРЯ ppmiWeightedAdd 0.420.7640.9050.60415 НКРЯ plmiWeightedAdd 0.4430.7620.6030.79116 всеppmiWeightedAdd 0.4180.7640.5640.89917 всеplmiWeightedAdd 0.4380.7630.5490.71218 НКРЯ ppmi,SVD Additive0.2690.4430.4040.56619 НКРЯ ppmi,SVD Dilation0.3880.7660.4480.936w/Training20 НКРЯ ppmi,SVD WeightedAdd 0.3880.7170.4210.68221 НКРЯ ppmi,SVD Dilation0.2310.5190.3740.51222 НКРЯ ppmi,SVD Multiplicative 0.0620.410.1940.228Таблица 5.
Коэффициенты корреляции Пирсона для дистрибутивных моделей разныхконфигураций и разных тестовых данных (поля ‘острый’ и ‘гладкий’). Все результатыстатистически значимы (p-value < 0.01 во всех случаях). Полужирным выделены лучшиерезультаты.Таким образом, вопреки распространенному мнению (см., например, Bullinaria &Levy 2012), увеличение объема обучающего корпуса не всегда ведет к повышениюкачества модели: в нашем случае отдельно взятый основной подкорпус НКРЯ дает болеевысокий (или, по меньшей мере, сопоставимый) результат, чем объединенный корпусобщим объемом около 1,35 млрд словоупотреблений, включающий основной и газетныйподкорпусы НКРЯ и корпус ruWaC (ср. аналогичное наблюдение в работе Kutuzov &Kuzmenko 2015, где утверждается, что основной подкорпус НКРЯ достаточнопредставителен для анализа лексической семантики русских слов).49Для создания качественного векторного представления отдельных лемм основногоподкорпуса НКРЯ достаточно.
Что же касается профиля сочетаемости двусловныхсочетаний, то для решения этой задачи даже объединенный обучающий корпусоказывается мал: применение любой модели композиции существенно улучшает результатпо сравнению с использованием наблюдаемых векторов словосочетаний.
При этом наширезультаты не позволяют с уверенностью говорить о том, какая именно моделькомпозиции лучше всего подходит для нашей задачи. Практически столь же высокий, чтои для модели PLF, коэффициент корреляции между двумя наборами данных наблюдаетсяпри применении взвешенной аддитивной модели без уменьшения размерностидистрибутивного пространства (см. строки 11-15), а также расширительной (dilation)модели с тренировкой и сокращением размерности (см. строка 19). И аддитивная, ирасширительная схемы при этом экономнее, чем модель практической лексическойфункции, для обучения которой требуется больше данных (и, соответственно, времени наих обработку).Не удается однозначно определить и лучшую схему предварительного взвешиваниявекторного пространства: все модели, представляющие собой различные вариацииметрики взаимной информации, работают примерно одинаково – и существенно лучше,чем простая логарифмическая метрика plog (ср. строки 13, 14, 15 vs.
12).Однакоэтапредварительныхсерияэкспериментовпозволяетвыводов. Во-первых, присделатьопределенныхнескольконастройкахважныхзначениекоэффициента корреляции оказывается очень высоким. Содержательно это говорит о том,что типологическое и дистрибутивное расстояние взаимосвязаны, т.е. если два русскихсловосочетания, иллюстрирующие определенные значения прилагательных из поля‘острый’ или ‘гладкий’, употребляются в похожих контекстах / ситуациях, то великавероятность, что для их перевода на некоторый другой язык будет использована одна и таже признаковая лексема. Иными словами, чем выше дистрибутивное сходство междусловосочетаниями, тем больше вероятность, что они относятся к одному и тому же фрейму.В свою очередь, это означает, что фреймовая структура, которую мы обычно выявляем входе подробного анализа данных нескольких языков, так или иначе находит отражение всочетаемостных характеристиках слов и словосочетаний одного конкретного языка.Во-вторых, типологические данные, собранные вручную, вероятно, можно считатьзолотым стандартом и использовать их для оценки качества дистрибутивных моделей.
Втретьих, оптимальные параметры дистрибутивной модели, вероятно, можно будет50учитывать в дальнейшем при использовании этой техники для решения задачавтоматического анализа лексики.3. Эксперимент 2: глаголы качанияЭксперименты с признаковыми полями ‘острый’ и ‘гладкий’ показали очень высокийкоэффициент корреляции между типологическим и дистрибутивным пространствами.Однако можно предположить, что успех связан с тем, что поля качественных признаковустроены довольно просто: каждое из них сводится всего к двум базовымпротивопоставлениям, дающим три основных фрейма в прямых значениях, при этом вполе ‘гладкий’ эти фреймы ещё и эксплицитно противопоставлены в русском языке налексическом уровне. В качестве дополнительной проверки значимости полученныхрезультатов мы провели дополнительный эксперимент на материале глагольного полякачания, характеризующегося значительно более сложной фреймовой структурой.Материал по глаголам качания, которым мы располагаем, показывает, что эта зона всреднем значительно богаче лексически, чем признаковые поля ‘острый’ и ‘гладкий’: вовсех языках выборки выделяется от 4 до 15 слов с семантикой качания / колебания.
Этилексемы кодируют несколько противопоставлений. Наиболее существенную роль влексикализации таких ситуаций играет тип качающегося объекта 15 , определяющийхарактер его движения и, соответственно, выбор лексического средства для его описания.Объект может быть вертикально или горизонтально ориентированным (ср. занавеска vs.поверхность воды или поросшего высокой травой луга), прикрепленным сверху или снизу(маятник vs.
дерево), жестким или гибким (дерево vs. цветок). Кроме того, могут бытьпротивопоставлены лексически движение, связанное с нормальным функционированиемобъекта (ср. качание маятника, качелей, кресла-качалки), и движение, вызванноенарушением целостности объекта (ср. шатающийся стул, болтающаяся ножка стола), – что,опять же, определяется типом объекта (его исходным предназначением).В русском языке выделяется 6 глаголов качания (качаться, колыхаться, колебаться,развеваться, болтаться, шататься), маркирующих только часть из всех возможныхпротивопоставлений. Доминантный глагол качаться покрывает все фреймы поля, кромеситуаций потери функциональности (нарушения целостности объекта) и колыханияЗаметим, что ситуации каузированного движения (ср.
‘раскачивать качели’) были полностью исключеныиз рассмотрения авторами типологического исследования глаголов качания, см. Шапиро 2015.Соответственно, и наши эксперименты затрагивают только некаузативный фрагмент данногосемантического поля.1551гибких / мягких объектов. Зону потери функциональности обслуживают глаголыболтаться и шататься, а зону колебательного движения гибких объектов – лексемыколебаться и колыхаться. Наконец, последний глагол – развеваться – имеет очень узкуюсферу употребления и описывает преимущественно колебание мягких объектов(прототипически – флага) на ветру.Поскольку все противопоставления в этой зоне основаны на типе движущегосяобъекта, в качестве диагностических контекстов в анкете фигурируют словосочетаниявида «существительное + глагол» (ср.