Диссертация (1137502), страница 12

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 12 страницаДиссертация (1137502) страница 122019-05-202019-05-20СтудИзба

Автоматизация лексико-типологических исследований методы и инструменты

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 12)

[неизвестный. Слухи про неё верны // «Русская жизнь», 2012](3) Она все-таки упала, не удержавшись на скользком полу, и больно удариласьколенкой. [Наталья Александрова. Последний ученик да Винчи (2010)]Таким образом, два выбранных нами поля сопоставимы по уровню сложностифреймовых структур, лежащих в основании концептуализации этих зон в языках мира. Сдругой стороны, в русском языке стратегии лексикализации этих полей существенноразличаются: в поле ‘острый’ одно доминантное прилагательное покрывает все трифрейма, в то время время как в поле ‘гладкий’ функционируют три лексемы, эксплицитнопротивопоставляющие три основных значения в этой признаковой области.Для каждого из полей мы провели полный цикл экспериментов, варьируя всепараметры, упомянутые в разделе 1 настоящей главы.

Для обоих полей максимальныйкоэффициент корреляции получился очень высоким (0.766 для поля ‘острый’ и 0.946 дляполя ‘гладкий’). Обращает на себя внимание тот факт, что максимальное значениекоэффициента корреляции при базовом алгоритме оказывается неожиданно низким: 0.268(‘острый’) и 0.244 (‘гладкий’).Особенно важно отметить, что лучшие результаты для двух признаковых зон былиполучены на одних и тех же настройках: в качестве обучающего корпуса использовалсяосновной подкорпус НКРЯ, вектора взвешивались по схеме PPMI, размерность итоговоговекторного пространства сокращалась до 300, а вектора словосочетаний складывались извекторных представлений составляющих их слов с помощью модели композиции PLF(практическая лексическая функция).

Заметим также, что лучшие результаты получены наматериале только прямых значений рассматриваемых признаков. Учет метафорических48фреймов существенно снижает показатели: коэффициент корреляции Пирсона для поля‘острый’ в этом случае (при прочих равных условиях) равняется 0.462, для зоны ‘гладкий’– 0.604, что, по-видимому, означает, что прямые значения обладают более четкой, аглавное, предсказуемой фреймовой структурой, чем переносные, которые, хотя и являютсямотивированными, охватывают материал конкретного языка менее равномерно. Наиболеепоказательные результаты приведены в Таблице 5.корпус обработкавектораНКРЯ noneНКРЯ ppmiНКРЯ ppmi,SVDНКРЯ ppmiНКРЯ ppmiНКРЯ ppmiНКРЯ ppmiНКРЯ ppmiмодель‘острый’ ‘острый’: ‘гладкий’ ‘гладкий’:композициипрямыепрямые1noun only0.0920.120.1210.1962noun only0.1390.1670.2370.213noun only0.1670.2680.2740.2444none0.0970.1940.1340.1545additive0.360.6540.5890.746Multiplicative 0.2530.4210.5850.77Dilation0.190.2220.3790.4438Dilation0.2070.350.2490.313w/Training9 НКРЯ ppmi,SVD LexFunc0.1160.3450.4430.70310 НКРЯ ppmi,SVD PrLexFunc0.390.4490.7660.94611 НКРЯ noneWeightedAdd 0.4430.7540.5890.84912 НКРЯ plogWeightedAdd 0.3870.760.4770.76513 НКРЯ epmiWeightedAdd 0.4620.7630.590.86514 НКРЯ ppmiWeightedAdd 0.420.7640.9050.60415 НКРЯ plmiWeightedAdd 0.4430.7620.6030.79116 всеppmiWeightedAdd 0.4180.7640.5640.89917 всеplmiWeightedAdd 0.4380.7630.5490.71218 НКРЯ ppmi,SVD Additive0.2690.4430.4040.56619 НКРЯ ppmi,SVD Dilation0.3880.7660.4480.936w/Training20 НКРЯ ppmi,SVD WeightedAdd 0.3880.7170.4210.68221 НКРЯ ppmi,SVD Dilation0.2310.5190.3740.51222 НКРЯ ppmi,SVD Multiplicative 0.0620.410.1940.228Таблица 5.

Коэффициенты корреляции Пирсона для дистрибутивных моделей разныхконфигураций и разных тестовых данных (поля ‘острый’ и ‘гладкий’). Все результатыстатистически значимы (p-value < 0.01 во всех случаях). Полужирным выделены лучшиерезультаты.Таким образом, вопреки распространенному мнению (см., например, Bullinaria &Levy 2012), увеличение объема обучающего корпуса не всегда ведет к повышениюкачества модели: в нашем случае отдельно взятый основной подкорпус НКРЯ дает болеевысокий (или, по меньшей мере, сопоставимый) результат, чем объединенный корпусобщим объемом около 1,35 млрд словоупотреблений, включающий основной и газетныйподкорпусы НКРЯ и корпус ruWaC (ср. аналогичное наблюдение в работе Kutuzov &Kuzmenko 2015, где утверждается, что основной подкорпус НКРЯ достаточнопредставителен для анализа лексической семантики русских слов).49Для создания качественного векторного представления отдельных лемм основногоподкорпуса НКРЯ достаточно.

Что же касается профиля сочетаемости двусловныхсочетаний, то для решения этой задачи даже объединенный обучающий корпусоказывается мал: применение любой модели композиции существенно улучшает результатпо сравнению с использованием наблюдаемых векторов словосочетаний.

При этом наширезультаты не позволяют с уверенностью говорить о том, какая именно моделькомпозиции лучше всего подходит для нашей задачи. Практически столь же высокий, чтои для модели PLF, коэффициент корреляции между двумя наборами данных наблюдаетсяпри применении взвешенной аддитивной модели без уменьшения размерностидистрибутивного пространства (см. строки 11-15), а также расширительной (dilation)модели с тренировкой и сокращением размерности (см. строка 19). И аддитивная, ирасширительная схемы при этом экономнее, чем модель практической лексическойфункции, для обучения которой требуется больше данных (и, соответственно, времени наих обработку).Не удается однозначно определить и лучшую схему предварительного взвешиваниявекторного пространства: все модели, представляющие собой различные вариацииметрики взаимной информации, работают примерно одинаково – и существенно лучше,чем простая логарифмическая метрика plog (ср. строки 13, 14, 15 vs.

12).Однакоэтапредварительныхсерияэкспериментовпозволяетвыводов. Во-первых, присделатьопределенныхнескольконастройкахважныхзначениекоэффициента корреляции оказывается очень высоким. Содержательно это говорит о том,что типологическое и дистрибутивное расстояние взаимосвязаны, т.е. если два русскихсловосочетания, иллюстрирующие определенные значения прилагательных из поля‘острый’ или ‘гладкий’, употребляются в похожих контекстах / ситуациях, то великавероятность, что для их перевода на некоторый другой язык будет использована одна и таже признаковая лексема. Иными словами, чем выше дистрибутивное сходство междусловосочетаниями, тем больше вероятность, что они относятся к одному и тому же фрейму.В свою очередь, это означает, что фреймовая структура, которую мы обычно выявляем входе подробного анализа данных нескольких языков, так или иначе находит отражение всочетаемостных характеристиках слов и словосочетаний одного конкретного языка.Во-вторых, типологические данные, собранные вручную, вероятно, можно считатьзолотым стандартом и использовать их для оценки качества дистрибутивных моделей.

Втретьих, оптимальные параметры дистрибутивной модели, вероятно, можно будет50учитывать в дальнейшем при использовании этой техники для решения задачавтоматического анализа лексики.3. Эксперимент 2: глаголы качанияЭксперименты с признаковыми полями ‘острый’ и ‘гладкий’ показали очень высокийкоэффициент корреляции между типологическим и дистрибутивным пространствами.Однако можно предположить, что успех связан с тем, что поля качественных признаковустроены довольно просто: каждое из них сводится всего к двум базовымпротивопоставлениям, дающим три основных фрейма в прямых значениях, при этом вполе ‘гладкий’ эти фреймы ещё и эксплицитно противопоставлены в русском языке налексическом уровне. В качестве дополнительной проверки значимости полученныхрезультатов мы провели дополнительный эксперимент на материале глагольного полякачания, характеризующегося значительно более сложной фреймовой структурой.Материал по глаголам качания, которым мы располагаем, показывает, что эта зона всреднем значительно богаче лексически, чем признаковые поля ‘острый’ и ‘гладкий’: вовсех языках выборки выделяется от 4 до 15 слов с семантикой качания / колебания.

Этилексемы кодируют несколько противопоставлений. Наиболее существенную роль влексикализации таких ситуаций играет тип качающегося объекта 15 , определяющийхарактер его движения и, соответственно, выбор лексического средства для его описания.Объект может быть вертикально или горизонтально ориентированным (ср. занавеска vs.поверхность воды или поросшего высокой травой луга), прикрепленным сверху или снизу(маятник vs.

дерево), жестким или гибким (дерево vs. цветок). Кроме того, могут бытьпротивопоставлены лексически движение, связанное с нормальным функционированиемобъекта (ср. качание маятника, качелей, кресла-качалки), и движение, вызванноенарушением целостности объекта (ср. шатающийся стул, болтающаяся ножка стола), – что,опять же, определяется типом объекта (его исходным предназначением).В русском языке выделяется 6 глаголов качания (качаться, колыхаться, колебаться,развеваться, болтаться, шататься), маркирующих только часть из всех возможныхпротивопоставлений. Доминантный глагол качаться покрывает все фреймы поля, кромеситуаций потери функциональности (нарушения целостности объекта) и колыханияЗаметим, что ситуации каузированного движения (ср.

‘раскачивать качели’) были полностью исключеныиз рассмотрения авторами типологического исследования глаголов качания, см. Шапиро 2015.Соответственно, и наши эксперименты затрагивают только некаузативный фрагмент данногосемантического поля.1551гибких / мягких объектов. Зону потери функциональности обслуживают глаголыболтаться и шататься, а зону колебательного движения гибких объектов – лексемыколебаться и колыхаться. Наконец, последний глагол – развеваться – имеет очень узкуюсферу употребления и описывает преимущественно колебание мягких объектов(прототипически – флага) на ветру.Поскольку все противопоставления в этой зоне основаны на типе движущегосяобъекта, в качестве диагностических контекстов в анкете фигурируют словосочетаниявида «существительное + глагол» (ср.

Характеристики

Тип файла

PDF-файл

Размер

1,9 Mb

Материал

Автоматизация лексико-типологических исследований методы и инструменты

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomatizacija-leksiko-tipologicheskih-issledovanij-metody-i-instrumenty.rar

Автоматизация лексико-типологических исследований методы и инструменты

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.