Диссертация (1137511), страница 14

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 14 страницаДиссертация (1137511) страница 142019-05-202019-05-20СтудИзба

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 14)

Для визуализации были использованы пакеты numpy, scipy,matplotlib для Python 3.Предварительная кластеризация для выбора числа кластеров производиласьс помощью алгоритма DBSCAN [57] при варьировании параметра ε. Финальнаякластеризация была получена с помощью алгоритма k-means с k = 100.Все необходимые программные компоненты для разбора словаря, предварительной обработки, извлечения признаков, перевода толкований в векторноепредставление, кластеризации и анализа, создавались в виде набора скриптов и72Рисунок 3.5 –– Эффект применения лексико-грамматических n-грамм.Словарные толкования, преобразованные в векторное представление, ккоторым затем применено снижение размерности PCA.модуля на языке программирования Python 3 и опубликованы в свободном доступе1 .3.4.6 Кластеризация толкований.

Эффект применениялексико-грамматических триграммСерия экспериментов по подбору признаков для кластеризации толкованийпозволила определить, какой набор признаков дает лучшую отделимость кластеров.После того, как словарь словарь был преобразован в векторное представление, к полученному массиву векторов применено понижение размерности методом главных компонент (PCA), таким образом, чтобы каждое толкование описывалось двумя главными компонентами: PC1, PC2. Полученные наборы точеквизуализированы на рисунке 3.5.Каждая точка на графике на рисунке 3.5 соответствует одному толкованию. Оси соответствуют двум первым главным компонентам: PC1, PC2(т.

е. не содержат самостоятельного смысла). Для преобразования в векторное представление использовались признаки: слева — все описанные, кромелексико-грамматических триграмм; справа — все описанные, включая лексико1 https://bitbucket.org/dendik/russian-wordnet-rules73грамматические триграммы. Для интерпретации полученных изображений применяется следующий нечёткий критерий: если точки располагаются равномерно без видимых сгустков, трудно ожидать, что кластеризация таких векторов может иметь успех, и наоборот, если при визуализации во многих случаях точкисобираются в отдельные группы, то возможно подобрать такие параметры кластеризации, чтобы каждая из таких групп была определена как отдельный кластер.Несмотря на то, что такой критерий является субъективным, в данном случае еготрактовка очевидна: лексико-грамматические триграммы выделяют из словарныхтолкований признаки, которые позволяют сгруппировать похожие толкования иговорить об их классификации.

Несмотря на то, что лексико-грамматические триграммы сами по себе позволяют группировать толкования, базовые признаки были сохранены и использованы для того, чтобы относить выпадающие из какоголибо кластера случаи к одному из существующих кластеров.Таким образом, использование лексико-грамматических триграмм, состоящих из лексемы, входящей в толкование, и грамматических характеристик ее соседей, повышают качество кластеризации толкований.3.4.7Подбор параметров кластеризацииАлгоритмы кластеризации бывают с фиксированным числом кластеров ибез.

Следует иметь в виду, что данные распределены согласно закону Ципфа [118].Это значит, что без априорно установленного количества кластеров кластеризациядолжна порождать много кластеров, состоящих из одного элемента.Для преодоления этой проблемы была проведена предварительная кластеризация DBSCAN с различными параметрами ε. Были исследованы возможностипредварительного понижения размерности, а также подбор числа кластеров, затем кластеризация k-means.74Лексическое значение ТолкованиеКластер №3ВЫМПЕЛ3Узкий треугольный флажок, служащий знаком награды за какие-л. достижения.ГАВОТ1Старинный французский танец в умеренномтемпе.ГАЗ8Горьковский автомобильный завод.ГАЗИК1Вездеходный легковой автомобиль маркиГАЗГАЛА-КОНЦЕРТ1Большой праздничный концерт.ГАЛДЁЖ3громкий беспорядочный разговор.ГАЛЕРЕЯ5Длинный подземный ход, служащий для производственных, военных и т.п.

целей.ГАЛТЕЛЬ4Выструганный полукруглый желобок, выемка.ГАЛЬКА1Мелкий гладкий камень округлой формы.ПАРАДИГМАТИКА1МОТОСПОРТ1АРИЙЦЫ1ГиперонимФЛАЖОКТАНЕЦЗАВОДАВТОМОБИЛЬКОНЦЕРТХОДЖЕЛОБОККАМЕНЬКластер №30Аспект исследования языка, заключающий- ИССЛЕДОВАНИЕся в изучении парадигмыВид спорта — проведение состязаний мото- СПОРТциклистов на лучшее умение управлять мотоцикломНазвание народов, принадлежащих к во- НАРОДЫсточной ветви индоевропейской семьи языковРисунок 3.6 –– Пример кластеров словарных толкований3.4.8Правила, применяемые к кластеру толкованийПосле разбиения исходной выборки толкований на кластеры для кластероввручную были составлены правила выделения из толкования лексемы, находящейся в тезаурусном отношении с соответствующим лексическим значением.Рассмотрим, например, кластеры, представленные на рисунке 3.6Из текстов толкований кластера №3 можно вывести правило: первое существительное в именительном падеже — гипероним.75Russian.WNOnto.PTотношениеколичество точность количество точностьгипероним5324685.54%29,56359.10%синоним1004475.69%11,86286.10%«ошибки»7175 100.00%синонимы гиперонима416076.11%гипоним276153.71%холоним1017 100.00%1,28752.60%домен49551.72%инстанциация25361.26%гипероним второго уровня125 100.00%мероним10592.38%сумма по словарю5862183.93%3789876.64%Таблица 8 –– Оценка количества извлечённых отношений и точность извлеченияотношений в сравнении с Onto.PT.В кластере №30 второе словоупотребление в толковании является генитивным и его лексема задаёт гипероним к толкуемому лексическому значению.

Приэтом вершиной толкования является обычный обобщающий термин (например.«вид, отрасль, раздел, разновидность, разряд, род, сорт, тип, форма, аспект, название»).3.4.9 РезультатыЭтот раздел отвечает на два вопроса. Наиболее важный вопрос: наскольковыбранный подход подходит для извлечения каждого из типов отношений. Второй вопрос: насколько пригоден для извлечения отношений каждый из использованных лексико-грамматических шаблонов, заданных аннотатором.Для ответа на первый вопрос кластеры были сгруппированы по тому, какоеотношение может быть из них извлечено. Для каждой такой группы кластеровпосчитано общее число толкований в группе и совместная оценка точности. Оценить полноту извлечения тезаурусных отношений из словаря не представляется76возможным, так как для русскоязычного тезауруса подобного WordNet не существует заранее заданного золотого стандарта ни абсолютного, ни для его части,которую возможно построить по словарям.

Однако разумно предположить, чтокаждый узел тезауруса имеет в среднем приблизительно один гипероним (вершина тезауруса не имеет гиперонима, но при этом некоторые средние узлы могутиметь два гиперонима). Поэтому доля определений, для которых извлечён гипероним, является грубой оценкой полноты оцениваемого подхода.Нам не известно о существовании опубликованных работ, посвящённых автоматическому извлечению тезаурусных отношений из русскоязычных толковыхсловарей. Поэтому для того, чтобы оценивать качество использованных алгоритмов была выбрана онтология Onto.PT [91] как одна из лучших на сегодняшнийдень, построенных с помощью извлечения тезаурусных отношений из словарей.Onto.PT не ограничивается существительными, это делает невозможным сравнение полноты работы алгоритма.

В таблице 8 приведены результаты работы описанного здесь гибридного подхода с выдержкой из результатов извлечения отношений из словарей для Onto.PT.Видно, что точность извлечения гиперонимов и меронимов при примененииметода с предварительной кластеризацией толкований значительно выше, чем безнее, в то время, как извлечение синонимов требует дальнейшего улучшения.

Втаблице одним из частых типов отношений указано отношение «ошибки». Такаяпомета была присвоена нескольким кластерам, в которые объединились лексические значения, содержащие какие-либо ошибки предварительной обработки: лексемы без толкований (заданные ссылками на другие части речи), лексемы, в толкованиях которых находятся результаты ошибки разбора и реконструкции структуры статьи, лексемы, для которых определение части речи содержало ошибку.

Таким образом предварительная кластеризация оказывается устойчивой к наличиюнекоторых типов ошибок во входных данных, что являлось одним из требованийпри выборе подходов для извлечения отношений.Наиболее значимым результатом является то, что точность извлечения гиперонимических отношений превышает ожидаемую на примере Onto.PT оценкуна 25%. Часть разницы может объясняться различием в методах оценки точности,различиями языка и доступных для его обработки инструментами, и качествомисходных данных. Однако трудно предположить, чтобы эти факторы отвечали завсю разницу результатов.

Кажется разумным предположить, что часть улучшениядостигнута за счёт того, что лексико-грамматические шаблоны не применяются к77размер1st nominative noun493481nd nominative noun9804junk71751st genitive noun4165“human”29881st prepositional noun24871st noun after “часть”10171st genitive noun after “один” 7263rd nominative noun5561st dative noun3821st instrumental noun242“people”2181st instrumental noun after “с” 105“plant”86“name”82точность85.15%70.06%100.00%62.95%100.00%77.04%100.00%100.00%80.04%57.59%64.05%100.00%92.38%100.00%80.49%Таблица 9 –– Оценка числа толкований, к которым было применено правило, иточность применения правила.толкованиям, имеющим «не подходящую» для данного правила структуру. Этоснижает количество ошибок. Таким образом, кластеризация имеет эффект, сходный, но не равный усилению части правил, накладывающей ограничения на условия их применимости.

Характеристики

Тип файла

PDF-файл

Размер

1,14 Mb

Материал

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-avtomaticheskogo-vydelenija-tezaurusnyh-otnoshenij-na-osnove-slovarnyh-tolkovanij.rar

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.