Диссертация (1137502), страница 10
Текст из файла (страница 10)
При этом мы опирались на тот же принцип, что и эксперты по языкам:заполняли пустые слоты в соответствии с данными из непустых строк анкеты,относящихся к тому же фрейму (см. в Таблице 3 вид, который принимает после этойоперации фрагмент Базы данных из Таблицы 2). После этого преобразования данные сновабыли приведены к формату таблицы глаголов качания (см. Таблицу 1).37Микро-фреймЛексема‘острый нож’ž’anЯзыкФреймПолеТакс.Типклассзначения‘физ.исходноесвойства’бесленеевский ‘острый‘острый’диалектинструменткабардинос режущимчеркесскогокраем’языка2 ‘острый меч’ ž’anбесленеевский ‘острый‘острый’ ‘физ.исходноедиалектинструментсвойства’кабардинос режущимчеркесскогокраем’языка3 ‘острыйž’anбесленеевский ‘острый‘острый’ ‘физ.исходноекоготь’диалектинструментсвойства’кабардинос режущимчеркесскогокраем’языка4 ‘острая сабля’ ž’anбесленеевский ‘острый‘острый’ ‘физ.исходноедиалектинструментсвойства’кабардинос режущимчеркесскогокраем’языка5 ‘остроебесленеевский ‘острый‘острый’ ‘физ.исходноеž’anлезвие’диалектинструментсвойства’кабардинос режущимчеркесскогокраем’языка6 ‘острая игла’ -ž’anбесленеевский ‘острый‘острый’ ‘физ.исходноедиалектинструментсвойства’кабардинос колющимчеркесскогоконцом’языка7 ‘остраябесленеевский ‘острый‘острый’ ‘физ.исходное-ž’anстрела’диалектинструментсвойства’кабардинос колющимчеркесскогоконцом’языка8 ‘острый-ž’anбесленеевский ‘острый‘острый’ ‘физ.исходноегвоздь’диалектинструментсвойства’кабардинос колющимчеркесскогоконцом’языкаТаблица 3.
Фрагмент автоматически дозаполненной Базы данных для лексемы ž’an (поле ‘острый’,бесленеевский диалект кабардино-черкесского языка). Знак «-» перед словом означает, что оно неможет быть употреблено в данном контексте. Полужирным выделены слова, добавленныеавтоматически.1Метрика типологической близостиАвтоматическое дозаполнение таблицы с типологическими данными позволило намтакжевидоизменитьформулувычислениястепенитипологическойблизости,38максимально приблизив ее к используемой нами формуле определения степенидистрибутивного сходства.В результате предобработки Базы данных мы получаем таблицу, в которой каждаястрока анкеты рассматриваемого поля может быть представлена в виде вектора w (чтобыло невозможно раньше, когда не все клетки типологических таблиц были заполнены).Измерениями этого вектора будут внесенные в Базу лексемы, а значение i-ого измерениябудет вычисляться следующим образом:wi = {1, если строка w покрывается лексемой li;0, если строка w не покрывается лексемой li}Формула 2.
Вычисление значения измерений типологического вектораТак, например, вектор для первой строки (‘гибкие стебли’ – ‘цветок’) из Таблицы 1будет иметь вид {0, 1, 1, 0}. Поскольку теперь типологическая информация имеетвекторное представление, мы можем использовать в качестве метрики типологическойблизости (TC) стандартную меру расстояния между векторами любого типа – косинусноесходство (см. Jurafsky & Martin 2008, а также Формулу 3).(, ) = cos() =∑=1 × ∙=∥ ∥∥ ∥√∑=1( )2 × √∑=1( )2Формула 3. Косинусная мера близости между векторами.1.2. Подготовка дистрибутивного векторного пространстваС типологическим пространством мы сопоставляли дистрибутивное, котороестроилось следующим образом. Для каждого пункта анкеты было подобрано максимальносоответствующее ему русское словосочетание вида «прилагательное + существительное»:острый нож для пункта ‘острый нож’, острая стрела – ‘острая стрела’ и т.д.
Для каждогополученного словосочетания был построен вектор его сочетаемости.Дистрибутивную модель можно построить множеством способов, зависящих отзначений целого ряда параметров. Мы провели серию экспериментов по сопоставлениюзначения метрики TC (которая высчитывается однозначно) с различными значениямиметрики дистрибутивной близости, вычисляемых для моделей разной конфигруации.39Некоторые настройки оставались неизменными во всех экспериментах.
Так, вкачестве измерений для векторов сочетаемости мы использовали 10 000 самых частотныхлемм самостоятельных частей речи (по основному подкорпусу НКРЯ), а значениемкаждого измерения считали абсолютную частоту встречаемости слова-измерения нарасстоянии ±5 знаменательных слов от опорной единицы. Расстояния между векторамивсегда определялись с помощью косинусной меры близости (см. Формулу 3 выше), иименно поэтому мы приняли решение использовать ту же метрику для определениястепени близости между типологическими векторами.Значения всех остальных параметров варьировались. К числу таких параметровотносятся: обучающий корпус, дополнительная обработка векторного пространства, типвектора словосочетания.
Рассмотрим подробнее каждый из них.Обучающий корпус.Для обучения моделей мы использовали три русскоязычных корпуса в разныхкомбинациях и один дополнительный корпус, составленный из текстов на английскомязыке:1) основной подкорпус НКРЯ (общим объемом около 200 млн словоупотреблений);2) газетный подкорпус НКРЯ (около 150 млн словоупотреблений);3) ruWaC (около 1 млрд словоупотреблений);4) ukWaC (около 2 млрд словоупотреблений).Можно заметить, что это корпуса разных объемов и разных жанров. Основнойподкорпус НКРЯ не очень большой, но сбалансированный, газетный подкорпуссопоставимого размера, но содержит только тексты публицистического характера. Этиколлекции текстов были предоставлены нам в 2013 году в неразмеченном виде.
Мыаннотировали их с помощью морфологического парсера Mystem2 и провелиморфологическую дизамбигуацию с помощью инструмента, представленного в работе(Лакомкин и др. 2013). Тем самым, наши корпуса несколько отличаются по объему иразметке от основного и газетного подкорпусов НКРЯ, поиск по которым доступен наофициальном сайте корпуса [https://ruscorpora.ru], в частности, процент ошибок на уровнеморфологической аннотации в нашем варианте несомненно выше.RuWaC значительно больше подкорпусов НКРЯ по объему и состоит в основном изинтернет-текстов.
UkWaC аналогичен ruWaC-у по жанру, но состоит из текстов не нарусском, а на английском языке. Оба корпуса снабжены морфологической исинтаксической разметкой (см. Baroni et al. 2009).40Дополнительная обработка векторов.Изначально вектор сочетаемости той или иной лингвистической единицы,собранный по нашим параметрам, состоит из 10 000 целых чисел, соответствующихабсолютной частоте встречаемости каждого слова-измерения в контексте слова (илисловосочетания), для которого строится вектор.
Очевидно, что такие значения измеренийотражают не только сочетаемостные предпочтения опорного слова, но и общуючастотностьсамогослова-измерения.Так,например,значениеизмерения,соответствующего лемме делать, практически для любой опорной единицы будетзаведомо выше, чем значение измерения, в качестве которого выступает лемма половник.Чтобы нивелировать этот эффект и учесть частотность как опорного слова, так и словизмерений, используют несколько техник взвешивания вектора, в большинстве своемоснованных на функции взаимной информации (mutual information), см. Martin & Jurafsky2008.Мы использовали четыре модели взвешивания:1) Positive Point-wise Mutual Information (PPMI)(,)(, ) = log ()()(, ) = (, ), если (, ) ≥ 0(, ) = 0, если (, ) < 0Формула 4.
Схема взвешивания PPMI2) Positive Local Mutual Information (PLMI)(, ) = (, ) ∗ (, )Формула 5. Схема взвешивания PLMI3) Exponential Point-wise Mutual Information (EPMI)(, ) = (, )⁄()()Формула 6. Схема взвешивания EPMI414) Positive Log Weighting(, ) = log (, ) , если log (, ) ≥ 0(, ) = 0, если log (, ) < 0Формула 7. Схема взвешивания PLOGВторое преобразование векторного пространства, которое мы использовали, –уменьшение его размерности. Пространство, которое мы получаем на первом шаге, врезультате сбора векторов сочетаемости, представляет собой матрицу размером N x 10 000,где N – количество опорных единиц, для которых строятся вектора, а 10 000 – количествослов-измерений. В таких матрицах очень много нулевых значений.
Чтобы понизить ихдолю, используют технику разложения матриц, подразумевающую представлениеисходной матрицы в виде произведения матриц меньшей размерности. В нашемисследовании мы используем сингулярное разложение (singular-value decomposition, SVD),с помощью которого сокращаем размерность дистрибутивного пространства до 300измерений. Предполагается, что это может, во-первых, сократить время обработки данныхв ходе последующих манипуляций с ними, а во-вторых, повысить качество модели за счетобъединения похожих измерений.Тип вектора словосочетания.Поскольку в наших экспериментах типологическим расстояниям между пунктамианкеты должны соответствовать дистрибутивные расстояния между словосочетаниями, ане отдельными словами, возникает необходимость подбора оптимального методаподготовки векторного представления для словосочетания.
Есть два основных способапостроения вектора для единицы более длинной, чем слово. С одной стороны, можнорассматривать словосочетание как единое целое и вычислять значения измерений поконтекстам, в которых оно встречается (такой вектор называется наблюдаемым – observed).В этом случае исследователь неминуемо сталкивается с проблемой нехватки данных:словосочетания значительно менее частотные, чем слова, поэтому для качественногопредставления их дистрибутивных свойств нужны корпуса очень больших размеров.
Сдругой стороны, вектор словосочетания можно строить методом компонированиявекторов его элементов, т.е. сначала собирать отдельные вектора для прилагательного идля существительного, а затем их объединять. Существует несколько стандартныхмоделей вычисления результирующего векторного представления словосочетания на42основе векторов его частей (см. Mitchell & Lapata 2010). В нашем исследованиитестируется несколько из них.1. Аддитивная (additive) и аддитивная взвешенная (weighted additive).Эта схема композиции подразумевает сложение векторов прилагательного исуществительного (т.е.
попарное суммирование значений по каждому из измерений) сприсвоением слагаемым некоторых весов. Если применяется простейшая модель безвзвешивания, значение коэффициентов приравнивается к 1. Для взвешенной моделизначения весовых коэффициентов вычисляются на основе обучающего корпуса – наборавекторов соответствующих наблюдаемых словосочетаний.
В процессе обученияминимизируется евклидова норма разности между векторами, сгенерированнымимоделью, и векторами из обучающего корпуса.p⃗ = αu⃗ + βv⃗,где p⃗ – вектор словосочетания, u⃗ - вектор прилагательного, v⃗ - вектор существительного, αи β – весовые коэффициенты.Формула 8. Аддитивная модель композиции.2.
Мультипликативная (multiplicative).Эта модель аналогична аддитивной, только вместо суммирования значений покаждому измерению применяется их попарное перемножение.p⃗ = u⃗ ⊙ v⃗,где p⃗ – вектор словосочетания, u⃗ - вектор прилагательного, v⃗ - вектор существительного.Символ ⊙ используется для обозначения операции попарного перемножения значенийизмерений двух векторов.Формула 9. Мультипликативная модель композиции.3. Расширительная (dilation).В этой модели один из векторов (в нашем случае, вектор существительного)раскладываетсянадвакомпонента:параллельныйвторомувектору(векторуприлагательного, см.