Диссертация (1137502), страница 10

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 10 страницаДиссертация (1137502) страница 102019-05-202019-05-20СтудИзба

Автоматизация лексико-типологических исследований методы и инструменты

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 10)

При этом мы опирались на тот же принцип, что и эксперты по языкам:заполняли пустые слоты в соответствии с данными из непустых строк анкеты,относящихся к тому же фрейму (см. в Таблице 3 вид, который принимает после этойоперации фрагмент Базы данных из Таблицы 2). После этого преобразования данные сновабыли приведены к формату таблицы глаголов качания (см. Таблицу 1).37Микро-фреймЛексема‘острый нож’ž’anЯзыкФреймПолеТакс.Типклассзначения‘физ.исходноесвойства’бесленеевский ‘острый‘острый’диалектинструменткабардинос режущимчеркесскогокраем’языка2 ‘острый меч’ ž’anбесленеевский ‘острый‘острый’ ‘физ.исходноедиалектинструментсвойства’кабардинос режущимчеркесскогокраем’языка3 ‘острыйž’anбесленеевский ‘острый‘острый’ ‘физ.исходноекоготь’диалектинструментсвойства’кабардинос режущимчеркесскогокраем’языка4 ‘острая сабля’ ž’anбесленеевский ‘острый‘острый’ ‘физ.исходноедиалектинструментсвойства’кабардинос режущимчеркесскогокраем’языка5 ‘остроебесленеевский ‘острый‘острый’ ‘физ.исходноеž’anлезвие’диалектинструментсвойства’кабардинос режущимчеркесскогокраем’языка6 ‘острая игла’ -ž’anбесленеевский ‘острый‘острый’ ‘физ.исходноедиалектинструментсвойства’кабардинос колющимчеркесскогоконцом’языка7 ‘остраябесленеевский ‘острый‘острый’ ‘физ.исходное-ž’anстрела’диалектинструментсвойства’кабардинос колющимчеркесскогоконцом’языка8 ‘острый-ž’anбесленеевский ‘острый‘острый’ ‘физ.исходноегвоздь’диалектинструментсвойства’кабардинос колющимчеркесскогоконцом’языкаТаблица 3.

Фрагмент автоматически дозаполненной Базы данных для лексемы ž’an (поле ‘острый’,бесленеевский диалект кабардино-черкесского языка). Знак «-» перед словом означает, что оно неможет быть употреблено в данном контексте. Полужирным выделены слова, добавленныеавтоматически.1Метрика типологической близостиАвтоматическое дозаполнение таблицы с типологическими данными позволило намтакжевидоизменитьформулувычислениястепенитипологическойблизости,38максимально приблизив ее к используемой нами формуле определения степенидистрибутивного сходства.В результате предобработки Базы данных мы получаем таблицу, в которой каждаястрока анкеты рассматриваемого поля может быть представлена в виде вектора w (чтобыло невозможно раньше, когда не все клетки типологических таблиц были заполнены).Измерениями этого вектора будут внесенные в Базу лексемы, а значение i-ого измерениябудет вычисляться следующим образом:wi = {1, если строка w покрывается лексемой li;0, если строка w не покрывается лексемой li}Формула 2.

Вычисление значения измерений типологического вектораТак, например, вектор для первой строки (‘гибкие стебли’ – ‘цветок’) из Таблицы 1будет иметь вид {0, 1, 1, 0}. Поскольку теперь типологическая информация имеетвекторное представление, мы можем использовать в качестве метрики типологическойблизости (TC) стандартную меру расстояния между векторами любого типа – косинусноесходство (см. Jurafsky & Martin 2008, а также Формулу 3).(, ) = cos() =∑=1 × ∙=∥ ∥∥ ∥√∑=1( )2 × √∑=1( )2Формула 3. Косинусная мера близости между векторами.1.2. Подготовка дистрибутивного векторного пространстваС типологическим пространством мы сопоставляли дистрибутивное, котороестроилось следующим образом. Для каждого пункта анкеты было подобрано максимальносоответствующее ему русское словосочетание вида «прилагательное + существительное»:острый нож для пункта ‘острый нож’, острая стрела – ‘острая стрела’ и т.д.

Для каждогополученного словосочетания был построен вектор его сочетаемости.Дистрибутивную модель можно построить множеством способов, зависящих отзначений целого ряда параметров. Мы провели серию экспериментов по сопоставлениюзначения метрики TC (которая высчитывается однозначно) с различными значениямиметрики дистрибутивной близости, вычисляемых для моделей разной конфигруации.39Некоторые настройки оставались неизменными во всех экспериментах.

Так, вкачестве измерений для векторов сочетаемости мы использовали 10 000 самых частотныхлемм самостоятельных частей речи (по основному подкорпусу НКРЯ), а значениемкаждого измерения считали абсолютную частоту встречаемости слова-измерения нарасстоянии ±5 знаменательных слов от опорной единицы. Расстояния между векторамивсегда определялись с помощью косинусной меры близости (см. Формулу 3 выше), иименно поэтому мы приняли решение использовать ту же метрику для определениястепени близости между типологическими векторами.Значения всех остальных параметров варьировались. К числу таких параметровотносятся: обучающий корпус, дополнительная обработка векторного пространства, типвектора словосочетания.

Рассмотрим подробнее каждый из них.Обучающий корпус.Для обучения моделей мы использовали три русскоязычных корпуса в разныхкомбинациях и один дополнительный корпус, составленный из текстов на английскомязыке:1) основной подкорпус НКРЯ (общим объемом около 200 млн словоупотреблений);2) газетный подкорпус НКРЯ (около 150 млн словоупотреблений);3) ruWaC (около 1 млрд словоупотреблений);4) ukWaC (около 2 млрд словоупотреблений).Можно заметить, что это корпуса разных объемов и разных жанров. Основнойподкорпус НКРЯ не очень большой, но сбалансированный, газетный подкорпуссопоставимого размера, но содержит только тексты публицистического характера. Этиколлекции текстов были предоставлены нам в 2013 году в неразмеченном виде.

Мыаннотировали их с помощью морфологического парсера Mystem2 и провелиморфологическую дизамбигуацию с помощью инструмента, представленного в работе(Лакомкин и др. 2013). Тем самым, наши корпуса несколько отличаются по объему иразметке от основного и газетного подкорпусов НКРЯ, поиск по которым доступен наофициальном сайте корпуса [https://ruscorpora.ru], в частности, процент ошибок на уровнеморфологической аннотации в нашем варианте несомненно выше.RuWaC значительно больше подкорпусов НКРЯ по объему и состоит в основном изинтернет-текстов.

UkWaC аналогичен ruWaC-у по жанру, но состоит из текстов не нарусском, а на английском языке. Оба корпуса снабжены морфологической исинтаксической разметкой (см. Baroni et al. 2009).40Дополнительная обработка векторов.Изначально вектор сочетаемости той или иной лингвистической единицы,собранный по нашим параметрам, состоит из 10 000 целых чисел, соответствующихабсолютной частоте встречаемости каждого слова-измерения в контексте слова (илисловосочетания), для которого строится вектор.

Очевидно, что такие значения измеренийотражают не только сочетаемостные предпочтения опорного слова, но и общуючастотностьсамогослова-измерения.Так,например,значениеизмерения,соответствующего лемме делать, практически для любой опорной единицы будетзаведомо выше, чем значение измерения, в качестве которого выступает лемма половник.Чтобы нивелировать этот эффект и учесть частотность как опорного слова, так и словизмерений, используют несколько техник взвешивания вектора, в большинстве своемоснованных на функции взаимной информации (mutual information), см. Martin & Jurafsky2008.Мы использовали четыре модели взвешивания:1) Positive Point-wise Mutual Information (PPMI)(,)(, ) = log ()()(, ) = (, ), если (, ) ≥ 0(, ) = 0, если (, ) < 0Формула 4.

Схема взвешивания PPMI2) Positive Local Mutual Information (PLMI)(, ) = (, ) ∗ (, )Формула 5. Схема взвешивания PLMI3) Exponential Point-wise Mutual Information (EPMI)(, ) = (, )⁄()()Формула 6. Схема взвешивания EPMI414) Positive Log Weighting(, ) = log (, ) , если log (, ) ≥ 0(, ) = 0, если log (, ) < 0Формула 7. Схема взвешивания PLOGВторое преобразование векторного пространства, которое мы использовали, –уменьшение его размерности. Пространство, которое мы получаем на первом шаге, врезультате сбора векторов сочетаемости, представляет собой матрицу размером N x 10 000,где N – количество опорных единиц, для которых строятся вектора, а 10 000 – количествослов-измерений. В таких матрицах очень много нулевых значений.

Чтобы понизить ихдолю, используют технику разложения матриц, подразумевающую представлениеисходной матрицы в виде произведения матриц меньшей размерности. В нашемисследовании мы используем сингулярное разложение (singular-value decomposition, SVD),с помощью которого сокращаем размерность дистрибутивного пространства до 300измерений. Предполагается, что это может, во-первых, сократить время обработки данныхв ходе последующих манипуляций с ними, а во-вторых, повысить качество модели за счетобъединения похожих измерений.Тип вектора словосочетания.Поскольку в наших экспериментах типологическим расстояниям между пунктамианкеты должны соответствовать дистрибутивные расстояния между словосочетаниями, ане отдельными словами, возникает необходимость подбора оптимального методаподготовки векторного представления для словосочетания.

Есть два основных способапостроения вектора для единицы более длинной, чем слово. С одной стороны, можнорассматривать словосочетание как единое целое и вычислять значения измерений поконтекстам, в которых оно встречается (такой вектор называется наблюдаемым – observed).В этом случае исследователь неминуемо сталкивается с проблемой нехватки данных:словосочетания значительно менее частотные, чем слова, поэтому для качественногопредставления их дистрибутивных свойств нужны корпуса очень больших размеров.

Сдругой стороны, вектор словосочетания можно строить методом компонированиявекторов его элементов, т.е. сначала собирать отдельные вектора для прилагательного идля существительного, а затем их объединять. Существует несколько стандартныхмоделей вычисления результирующего векторного представления словосочетания на42основе векторов его частей (см. Mitchell & Lapata 2010). В нашем исследованиитестируется несколько из них.1. Аддитивная (additive) и аддитивная взвешенная (weighted additive).Эта схема композиции подразумевает сложение векторов прилагательного исуществительного (т.е.

попарное суммирование значений по каждому из измерений) сприсвоением слагаемым некоторых весов. Если применяется простейшая модель безвзвешивания, значение коэффициентов приравнивается к 1. Для взвешенной моделизначения весовых коэффициентов вычисляются на основе обучающего корпуса – наборавекторов соответствующих наблюдаемых словосочетаний.

В процессе обученияминимизируется евклидова норма разности между векторами, сгенерированнымимоделью, и векторами из обучающего корпуса.p⃗ = αu⃗ + βv⃗,где p⃗ – вектор словосочетания, u⃗ - вектор прилагательного, v⃗ - вектор существительного, αи β – весовые коэффициенты.Формула 8. Аддитивная модель композиции.2.

Мультипликативная (multiplicative).Эта модель аналогична аддитивной, только вместо суммирования значений покаждому измерению применяется их попарное перемножение.p⃗ = u⃗ ⊙ v⃗,где p⃗ – вектор словосочетания, u⃗ - вектор прилагательного, v⃗ - вектор существительного.Символ ⊙ используется для обозначения операции попарного перемножения значенийизмерений двух векторов.Формула 9. Мультипликативная модель композиции.3. Расширительная (dilation).В этой модели один из векторов (в нашем случае, вектор существительного)раскладываетсянадвакомпонента:параллельныйвторомувектору(векторуприлагательного, см.

Характеристики

Тип файла

PDF-файл

Размер

1,9 Mb

Материал

Автоматизация лексико-типологических исследований методы и инструменты

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomatizacija-leksiko-tipologicheskih-issledovanij-metody-i-instrumenty.rar

Автоматизация лексико-типологических исследований методы и инструменты

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.