Главная » Просмотр файлов » Диссертация

Диссертация (1137502), страница 13

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 13 страницаДиссертация (1137502) страница 132019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 13)

маятник качается, зуб шатается), содержащие двалексических элемента, как и контексты для прилагательных, что позволяет говорить осопоставимых условиях признакового и глагольного экспериментов.На материале глаголов качания мы провели редуцированную серию экспериментов:протестировали только такие дистрибутивные модели, которые требуют небольшихобъемов тренировочных данных и наименьших временны́х затрат. Тем самым, в качествеобучающего корпуса мы использовали только НКРЯ, вектора словосочетаний строилитолько с использованием моделей композиции, а из возможных моделей композициивыбрали только варианты, не предполагающие никакого обучения: аддитивную,мультипликативную и расширительную (dilation) схемы. Из возможных типов операцийнад векторами в этой серии экспериментов мы по-прежнему варьировали параметруменьшения размерности (либо без уменьшения, либо с уменьшением до 300 измеренийпо технике SVD) и параметр взвешивания векторов (сведя его к двум значениям: безвзвешивания vs.

со взвешиванием по схеме PPMI). Напомним также, что мы располагаемтипологическими данными только для прямых значений этой семантической зоны.Результаты этой серии экспериментов представлены в Таблице 6.52КорпусОперации надвекторамиМоделькомпозицииКоэффициент корреляцииПирсонаНКРЯnonenoun only0.394НКРЯppminoun only0.539НКРЯppmi, SVDnoun only0.464НКРЯnoneadditive0.434НКРЯnonemultiplicative0.443НКРЯnonedilation0.57НКРЯppmiadditive0.7НКРЯppmimultiplicative0.648НКРЯppmidilation0.691НКРЯppmi, SVDadditive0.643НКРЯppmi, SVDmultiplicative0.267НКРЯppmi, SVDdilation0.647Таблица 6.

Коэффициенты корреляции Пирсона для дистрибутивных моделей разныхконфигураций и типологических данных для поля глаголов качания. Полужирным выделенлучший результат.Из Таблицы 6 видно, что максимальный уровень корреляции между двумя наборамиданных по-прежнему очень высок (0.7). Это значение дает сопоставление типологическогопространства с дистрибутивным, построенным с использованием схемы взвешиванияPPMI и аддитивной модели композиции. Подчеркнем, что этот результат соответствуетполученному на материале признаковых полей при тех же настройках: для поля ‘острый’коэффициент корреляции Пирсона при таких же экспериментальных условиях равнялся0.654, для поля ‘гладкий’ – 0.74 (см. строку 5 Таблицы 5).

Это подтверждаетпредварительные выводы, сделанные нами по результатам предыдущей серииэкспериментов, а также позволяет предположить, что более сложные модели композициимогли бы позволить повысить коэффициент корреляции между двумя семантическимипредставлениями глаголов качания (как это произошло в случае с признаковыми полями).Важно, однако, особо отметить, что приемлемого результата можно добиться и намаксимально простых («экономных») настройках, не требующих ни корпуса оченьбольшого объема, ни дополнительного обучения моделей композиции.Интересно при этом, что значение коэффициента корреляции при базовом алгоритме(с векторами сочетаемости существительных вместо словосочетаний) в случае глаголовкачания оказывается очень высоким (0.539 при оптимальных настройках) и существеннопревышает соответствующие значения для признаковых полей (0.167 – ‘острый’ и 0.21 –53‘гладкий’, см. строку 2 Таблицы 5).

Возможно, это различие могло бы позволить сделатькакие-то содержательные выводы об особенностях структуры признаковых и глагольныхсемантических полей, но для этого необходимы дополнительные эксперименты с даннымидругих семантических зон, выходящие за рамки этого исследования.4. Эксперимент 3: англоязычный обучающий корпусИтак, эксперименты с двумя признаковыми и одним глагольным полемдемонстрируютвысокиекоэффициентыкорреляциимеждутипологическимидистрибутивным пространствами (при использовании одних и тех параметровдистрибутивных моделей). Однако нельзя не принять во внимание тот факт, что, согласнометодологии Московской лексико-типологической группы, типологические анкетысоставляются изначально на русском материале. Впоследствии они уточняются идополняются в ходе анализа других языков, но при этом опасность влияния стартовогоязыка на итоговый результат типологического исследования теоретически все равно неустраняется полностью (или, по крайней мере, его отсутствие пока никак не доказано).Если стартовый язык действительно существенно влияет на представленияисследователей об организации той или иной семантической зоны, то результаты,полученные нами в предыдущих экспериментах, неудивительны и не очень показательны.Мы продемонстрировали, что данные русского языка действительно соответствуютрезультатам типологического анализа рассматриваемых семантических зон, что, возможно,как раз говорит в пользу слишком сильного влияния первого языка на последующийтипологический анализ, а не в пользу принципиальной сопоставимости типологическогои дистрибутивного пространств.Исходя из этих соображений, мы провели дополнительную серию экспериментов наматериале поля ‘острый’, но в этот раз сопоставили типологическое пространство сдистрибутивным, построенным по данным англоязычного обучающего корпуса.

Для этогокаждой строке типологической анкеты были поставлены в соответствие английскиесловосочетания вида «прилагательное + существительное» (sharp knife ‘острый нож’, sharparrow ‘острая стрела’, sharp nose ‘острый нос’, см. полный список в Приложении 1), авекторные представления для них были построены с помощью корпуса текстов наанглийском языке ukWaC. Вектора словосочетаний строились с помощью несколькихмоделей композиции: аддитивной, мультипликативной, расширительной, аддитивной54взвешенной, лексической функции и практической лексической функции. Исходныевектора существительных взвешивались по схеме PPMI и подвергались операциисокращения размерности семантического пространства до 300 измерений (SVD).Коэффициент корреляции Пирсонаострый: прямыеострыйзначенияКорпусОперации надвекторамиМоделькомпозицииukWaCppmi, SVDadditive0.3110.728ukWaCppmi, SVDmultiplicative0.1390.521ukWaCppmi, SVDdilation0.1650.326ukWaCppmi, SVDweighted additive0.2960.624ukWaCppmi, SVDLF0.2390.516ukWaCppmi, SVDPLF0.2810.668Таблица 7.

Коэффициенты корреляции Пирсона для дистрибутивных моделей разныхконфигураций, обученных на англоязычном корпусе, и типологических данных для поля ‘острый’.Полужирным выделены лучшие результаты.Таблица 7 показывает, что максимальный коэффициент корреляции по-прежнемувысок: 0.728. При этом наиболее удачные параметры дистрибутивной модели снова те же,что и в предыдущих экспериментах: самые высокие результаты показывают аддитивная иаддитивная взвешенная модели и модель практической лексической функции.

При этомстабильнее всего работает самая простая аддитивная модель, которая, к тому же, иоптимальна с точки зрения необходимых временны́х и текстовых ресурсов.Это результат позволяет сделать три теоретических вывода:1) по-видимому, действительно можно считать сопоставимыми моноязычныедистрибутивные и типологические пространства;2) понятие фрейма можно считать достаточно обоснованным;3) методику типологического анализа лексики, предложенную Московской лексикотипологической группой, можно считать достаточно корректной: результаты нашейпоследней серии экспериментов говорят в пользу того, что итог такого исследования независит напрямую от первого языка выборки.Оговоримся, что все эти выводы носят очень общий характер и требуютдополнительной тщательной проверки.

Однако наши эксперименты позволяют их покрайней мере сформулировать в качестве рабочих гипотез.555. Эксперимент 4: визуализация векторных пространствНаконец, соответствие между типологическим и дистрибутивным пространствамихорошо иллюстрируется их визуализациями.

Оба пространства для всех нашихсемантических зон исходно многомерны (напомним, что в типологическом пространствев качестве измерений выступают слова всех языков выборки, относящихся крассматриваемому полю, а в дистрибутивном – 10 000 частотных знаменательных словрусского языка, которые потенциально могут встречаться в текстах рядом сословосочетаниями, для которых мы строим дистрибутивное представление). Для каждогополя мы отобразили оба пространства на плоскость с помощью техники многомерногошкалирования (MDS, см. Cox & Cox 2001), т.е.

сократили количество измерений до двухи визуализировали полученную картину, обозначив одним цветом точки, относящиеся кодному и тому же фрейму. Такие отображения иллюстрируют относительные расстояниямежду объектами в многомерном пространстве (они строятся так, чтобы попарныерасстояния между всеми точками на двумерной карте максимально точно отражалирасстояния между соответствующими объектами в исходном пространстве).

Значенияизмерений итогового двумерного пространства очевидной смысловой нагрузки не несут,хотя иногда и поддаются интерпретации.На Рис. 1-3 представлены проекции типологического и дистрибутивного пространствполя ‘острый’. На всех картах зеленым цветом обозначены ситуации, относящиеся кфрейму ‘острый инструмент с режущим краем’, синим – ‘острый инструмент с колющимконцом’, желтым – ‘объект вытянутой формы’, красным – ‘объект с колючейповерхностью’.

Подчеркнем, что эти кластеры выделялись не на основе полученных карт,а были заданы изначально результатами типологических исследований группы MLexT, т.е.в этом разделе мы будем говорить о «зеленом», «синем», «желтом» и «красном» кластерах,имея в виду соответствующие четыре фрейма поля ‘острый’.Рисунки 1-3 демонстрируют интересный эффект. Визуализация типологическогопространства (Рис.

Характеристики

Тип файла
PDF-файл
Размер
1,9 Mb
Предмет
Высшее учебное заведение

Список файлов диссертации

Автоматизация лексико-типологических исследований методы и инструменты
Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6374
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее