Главная » Просмотр файлов » Диссертация

Диссертация (1137502), страница 23

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 23 страницаДиссертация (1137502) страница 232019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 23)

При этом еслирассматривать не словосочетания в чистом виде, а соответствующие им вариантыкомпозиции двух векторов (прилагательного и существительного), то значениекорреляции резко подскакивает до 0.7 и выше, что подтверждают также нашиэксперименты, представленные в Главе 2. Это наблюдение даёт нам основание считать,99что метод композиции не искажает информацию, а, напротив, позволяет компенсироватьнедостаток данных.Дополнительное преимущество метода композиции заключается в том, что онзначительноменеересурсозатратный.Во-первых,вотличиеотнаблюдаемыхсловосочетаний, для каждого из которых нужно собирать отдельный вектор, длякомпозиции достаточно один раз собрать вектора для всех необходимых прилагательныхи для нескольких сотен частотных существительных, впоследствии лишь «добирая»вектора менее частотных слов по мере необходимости.

Так, например, для готовыхсловосочетаний яркий свет, резкий свет, острое слово, резкое слово, яркий ответ, резкийответ, яркий человек, резкий человек, острый взгляд, резкий взгляд понадобится 10итераций вычисления векторов, а для построения этих же словосочетаний методомкомпозиции – 8, причем эта разница будет резко возрастать по мере увеличения количествасловосочетаний. Во-вторых, поскольку для адекватного представления сочетаемостиотдельных слов, в отличие от целых словосочетаний, достаточно одного основногоподкорпуса НКРЯ (см.

Гл. 2), статистику для композиции можно считать только по нему,без привлечения газетного подкорпуса НКРЯ и корпуса RuWaC, что сокращает количествоизмерений ещё по крайней мере втрое.В рамках текущей задачи мы тестируем оба способа моделирования сочетаемостидвусловных словосочетаний. Для подготовки векторных представлений словосочетанийкак неделимых языковых единиц мы используем все три корпуса текстов.

Векторысочетаемости для существительных и прилагательных, выступающих в качестве основыдля последующей композиции, вычисляются на материале основного подкорпуса НКРЯ.В качестве метода композиции мы используем наиболее простую вычислительно, но, темменее, наиболее надежную (см. Ryzhova et al. 2016) аддитивную модель.2. Кластеризация векторного пространстваВсе методы кластеризации можно разделить на два типа:1. Алгоритмы, подбирающие оптимальное количество кластеров автоматически;2.

Алгоритмы, требующие указания числа кластеров, на которые следует разбить вседанные.В следующих двух секциях мы представим наши эксперименты по применениюалгоритмов обоих типов: с автоматическим определением итогового количества кластеров(раздел 1) и без него (раздел 2).1001. Алгоритмы с автоматическим определением количества кластеровТеоретически для решения нашей задачи удобнее воспользоваться методом, которыйвычислял бы число кластеров автоматически: мы предполагаем, что исследовательизначально не знает, сколько фреймов будет в его анкете.

Исходя из этих соображений, мыпровели ряд пробных кластеризаций семантических векторов по четырем алгоритмам, нетребующим указания числа кластеров: Affinity Propagation (см. Frey & Dueck 2007), Meanshift (Comaniciu & Meer 2002), DBScan (Ester et al. 1996) и иерархическая кластеризация(Johnson 1966)28.Результаты работы первых трех алгоритмов (Affinity Propagation, DBScan и MeanShift) были примерно одинаковыми: они выделяли достаточно большое количествокластеров (около 150 на 1818 словосочетаний), однако среди сформированных групп былаодна очень большая и много очень маленьких (в основном единичных).

Измененияпараметров кластеризации позволяли варьировать число кластеров, однако более дробноеделение получалось за счет отщепления от доминанты новых единичных элементов.Такой тип разбиения данных в нашем случае мало информативен (мы стремимсяполучить сравнимые по размеру группы, чтобы затем выбрать из них наиболее яркихпредставителей для анкеты), поэтому мы приняли решение сразу отказаться от этихметодик и продолжить дальнейшие эксперименты только с алгоритмом иерархическойкластеризации.При реализации этого метода мы использовали дефолтный для иерархическойкластеризации в модуле SciPy критерий ‘inconsistent’, а в качестве меры близости выбраликосинусное расстояние, как и в предыдущих наших экспериментах.

Варьировалосьзначение только одного параметра – порога кластеризации, – от которого напрямуюзависело результирующее число кластеров и объем каждого из них.Мы провели серию кластеризаций, изменяя пороговое значение от 0.1 до 1.2 с шагом0.1. Чем ниже порог, тем более дробное разбиение исходного списка мы получаем.Материал поля ‘острый’ показывает, что только на уровне 0.6 в итоговом разбиениипоявляются кластеры, состоящие более чем из двух элементов (при пороге, равном 0.6,такой кластер ровно один; при 0.7 таких кластеров четыре).

И напротив, при пороговомзначении, большем или равном 1.2, все входные словосочетания объединяются в одинкластер, т.е. распределения на группы не происходит совсем. Таким образом, наиболееПервые три алгоритма были реализованы с помощью библиотеки scikit-learn (http://scikitlearn.org/stable/index.html),последний–спомощьюмодуляSciPy(http://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html#module-scipy.cluster.hierarchy).28101удачным диапазоном порогового значения для кластеризации наших данных оказываетсяпромежуток от 0.8 до 1.1.2. Алгоритмы с заданным числом кластеровКоличество кластеров в этой группе экспериментов мы определяли следующимобразом: считали сумму числа значений всех прилагательных нашей выборки (по Маломуакадемическому словарю, см.

Евгеньева 1999) и умножали её на два. Тем самым, длянаших 13 прилагательных мы получили число 112 (см. Формулу 14). Удваивание суммызначений делает общее количество кластеров более независимым от одного конкретногословаря: во-первых, наш опыт показывает, что фреймы часто оказываются болеедробными, чем словарные значения; а во-вторых, надежнее получить заведомо большееколичество кластеров и удалить лишнее при последующей обработке.[9 (острый) + 6 (резкий) + 2 (быстрый) + 1 (душистый) + 6 (горячий) + 5 (яркий) + 2 (едкий) + 4(колючий) + 5 (крутой) + 2 (отчетливый) + 3 (пронзительный) + 7 (высокий) + 4 (жаркий)] * 2 =112Формула 14. Вычисление количества кластеров на основе словарных данныхДля кластеризации с помощью алгоритмов без автоматического определенияколичества кластеров мы использовали пакет программ Cluto29.

Эта библиотека предлагаетнесколько методов кластерного анализа. Их названия, наборы параметров и основныепринципы работы представлены в Таблице 21.29http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview102АлгоритмПараметрыПринцип работыrb (repeatedbisections) Критерийкластеризации; критерий выборакластера, который будетразбиваться на частиследующимВсё пространство объектов делится надве части, потом одна из частейделится ещё на две, ещё одна из частейделится ещё на две и т.д.

до тех пор,пока не будет получено нужное числокластеров.Rbr Функция оптимизации; Берет результат кластеризации пометоду rb и оптимизирует его. критерий выборакластера, который будетразбиваться на частиследующимDirectКритерий кластеризацииПространство объектов сразуразделяется на нужное количествоклассовAggloФункция оптимизацииВ основе кластеризации – процессоптимизации некоторой функцииGraphИз пространства объектов строится Мера близости междуграф, который затем разбивается наобъектами (косинуснужное число фрагментовугла, Евклидоворасстояние,коэффициенткорреляции,коэффициент Жаккара); количество ближайшихсоседей; критерий выборакластера, который будетразбиваться на частиследующимBaggloФункция оптимизацииКонкатенация алгоритмов rb и agglo:сначала применяется метод rb, затемувеличивается размерностьпространства и необходимыйрезультат достигается с помощьюалгоритма aggloТаблица 21.

Используемые нами алгоритмы кластеризации с заданным числом кластеров.В ходе настоящего исследования мы провели кластеризацию наших данных,используя все методы, перечисленные в таблице 21, со всеми допустимыми комбинациямипараметров. Помимо этого, любой из алгоритмов (кроме agglo и bagglo) можномодифицировать с помощью критериев agglofrom и agglocrfun. Метод agglofromуказывает, на какое число кластеров (большее, чем требуется в конечном итоге) алгоритм103должен разбить исходное пространство объектов; с помощью параметра agglocrfunзадается функция, путем оптимизации которой кластеры будут объединяться до тех пор,пока не будет получено нужное число элементов.

Иными словами, сначала происходитизбыточная кластеризация на основе некоторого метода, а затем «лишние» кластерыупраздняются с помощью метода agglo. Мы проводили эксперименты с применением втом числе и данных параметров, указывая в качестве значения agglofrom 168 – количествозначений рассматриваемых нами прилагательных по МАС, умноженное на три. Врезультате мы получили 168 различных конфигураций параметров кластеризации.Помимо этого, мы применили к нашим данным самый распространенный алгоритмкластеризации с заданным числом кластеров K-Means (метод k-средних, см. MacQueen1967) с помощью библиотеки Scikit-learn. Упрощенно суть работы этого алгоритмасводится к тому, что из кластеризуемого пространства выбирается (по умолчаниюслучайно) k элементов (где k – заданное число кластеров), а все остальные элементыразделяются на группы (кластеры) в зависимости от того, к какому из этих k элементовони оказываются ближе.

Затем в каждом из образовавшихся кластеров выбираетсяцентральный элемент, и вся процедура повторяется. Алгоритм работает до тех пор, покасоставы кластеров не перестанут меняться. Параметры работы этого алгоритма мы неварьировали и использовали настройки по умолчанию.§7. Уменьшение объема анкетыСледующий шаг после разбиения списка контекстов на кластеры – это собственносоставление анкеты, т.е. выбор наиболее представительных примеров из каждого кластера.Для решения этой задачи мы выполняем две операции: во-первых, отбрасываем слишкоммаленькие кластеры, состоящие из одного-двух элементов, а во-вторых, сокращаемразмеры всех остальных кластеров до трех словосочетаний.Маленькие кластеры мы исключаем из итоговой анкеты на том основании, что ихизоляция не даёт пользователю представления о структуре семантического поля. Мыисходим из предположения, что контексты употребления любого прилагательного можноразделить на классы (потенциальные типологически релевантные фреймы), причем этиклассы будут достаточно устойчивыми паттернами, включающими в себя не один и не двапримера.Втакомслучае,визоляциимогутоказатьсялибонедостаточнопредставительные контексты, либо примеры фразеологических сочетаний (которые, нанаш взгляд, крайне редки), либо окказиональные употребления рассматриваемого104прилагательного, либо вообще невозможные сочетания, явившиеся результатом ошибкиморфологического парсера или последующей морфологической дизамбигуации.Сокращение всех кластеров до размера 3, напротив, кажется нам продуктивным.

Характеристики

Тип файла
PDF-файл
Размер
1,9 Mb
Предмет
Высшее учебное заведение

Список файлов диссертации

Автоматизация лексико-типологических исследований методы и инструменты
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6392
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее