Диссертация (1137511), страница 14
Текст из файла (страница 14)
Для визуализации были использованы пакеты numpy, scipy,matplotlib для Python 3.Предварительная кластеризация для выбора числа кластеров производиласьс помощью алгоритма DBSCAN [57] при варьировании параметра ε. Финальнаякластеризация была получена с помощью алгоритма k-means с k = 100.Все необходимые программные компоненты для разбора словаря, предварительной обработки, извлечения признаков, перевода толкований в векторноепредставление, кластеризации и анализа, создавались в виде набора скриптов и72Рисунок 3.5 –– Эффект применения лексико-грамматических n-грамм.Словарные толкования, преобразованные в векторное представление, ккоторым затем применено снижение размерности PCA.модуля на языке программирования Python 3 и опубликованы в свободном доступе1 .3.4.6 Кластеризация толкований.
Эффект применениялексико-грамматических триграммСерия экспериментов по подбору признаков для кластеризации толкованийпозволила определить, какой набор признаков дает лучшую отделимость кластеров.После того, как словарь словарь был преобразован в векторное представление, к полученному массиву векторов применено понижение размерности методом главных компонент (PCA), таким образом, чтобы каждое толкование описывалось двумя главными компонентами: PC1, PC2. Полученные наборы точеквизуализированы на рисунке 3.5.Каждая точка на графике на рисунке 3.5 соответствует одному толкованию. Оси соответствуют двум первым главным компонентам: PC1, PC2(т.
е. не содержат самостоятельного смысла). Для преобразования в векторное представление использовались признаки: слева — все описанные, кромелексико-грамматических триграмм; справа — все описанные, включая лексико1 https://bitbucket.org/dendik/russian-wordnet-rules73грамматические триграммы. Для интерпретации полученных изображений применяется следующий нечёткий критерий: если точки располагаются равномерно без видимых сгустков, трудно ожидать, что кластеризация таких векторов может иметь успех, и наоборот, если при визуализации во многих случаях точкисобираются в отдельные группы, то возможно подобрать такие параметры кластеризации, чтобы каждая из таких групп была определена как отдельный кластер.Несмотря на то, что такой критерий является субъективным, в данном случае еготрактовка очевидна: лексико-грамматические триграммы выделяют из словарныхтолкований признаки, которые позволяют сгруппировать похожие толкования иговорить об их классификации.
Несмотря на то, что лексико-грамматические триграммы сами по себе позволяют группировать толкования, базовые признаки были сохранены и использованы для того, чтобы относить выпадающие из какоголибо кластера случаи к одному из существующих кластеров.Таким образом, использование лексико-грамматических триграмм, состоящих из лексемы, входящей в толкование, и грамматических характеристик ее соседей, повышают качество кластеризации толкований.3.4.7Подбор параметров кластеризацииАлгоритмы кластеризации бывают с фиксированным числом кластеров ибез.
Следует иметь в виду, что данные распределены согласно закону Ципфа [118].Это значит, что без априорно установленного количества кластеров кластеризациядолжна порождать много кластеров, состоящих из одного элемента.Для преодоления этой проблемы была проведена предварительная кластеризация DBSCAN с различными параметрами ε. Были исследованы возможностипредварительного понижения размерности, а также подбор числа кластеров, затем кластеризация k-means.74Лексическое значение ТолкованиеКластер №3ВЫМПЕЛ3Узкий треугольный флажок, служащий знаком награды за какие-л. достижения.ГАВОТ1Старинный французский танец в умеренномтемпе.ГАЗ8Горьковский автомобильный завод.ГАЗИК1Вездеходный легковой автомобиль маркиГАЗГАЛА-КОНЦЕРТ1Большой праздничный концерт.ГАЛДЁЖ3громкий беспорядочный разговор.ГАЛЕРЕЯ5Длинный подземный ход, служащий для производственных, военных и т.п.
целей.ГАЛТЕЛЬ4Выструганный полукруглый желобок, выемка.ГАЛЬКА1Мелкий гладкий камень округлой формы.ПАРАДИГМАТИКА1МОТОСПОРТ1АРИЙЦЫ1ГиперонимФЛАЖОКТАНЕЦЗАВОДАВТОМОБИЛЬКОНЦЕРТХОДЖЕЛОБОККАМЕНЬКластер №30Аспект исследования языка, заключающий- ИССЛЕДОВАНИЕся в изучении парадигмыВид спорта — проведение состязаний мото- СПОРТциклистов на лучшее умение управлять мотоцикломНазвание народов, принадлежащих к во- НАРОДЫсточной ветви индоевропейской семьи языковРисунок 3.6 –– Пример кластеров словарных толкований3.4.8Правила, применяемые к кластеру толкованийПосле разбиения исходной выборки толкований на кластеры для кластероввручную были составлены правила выделения из толкования лексемы, находящейся в тезаурусном отношении с соответствующим лексическим значением.Рассмотрим, например, кластеры, представленные на рисунке 3.6Из текстов толкований кластера №3 можно вывести правило: первое существительное в именительном падеже — гипероним.75Russian.WNOnto.PTотношениеколичество точность количество точностьгипероним5324685.54%29,56359.10%синоним1004475.69%11,86286.10%«ошибки»7175 100.00%синонимы гиперонима416076.11%гипоним276153.71%холоним1017 100.00%1,28752.60%домен49551.72%инстанциация25361.26%гипероним второго уровня125 100.00%мероним10592.38%сумма по словарю5862183.93%3789876.64%Таблица 8 –– Оценка количества извлечённых отношений и точность извлеченияотношений в сравнении с Onto.PT.В кластере №30 второе словоупотребление в толковании является генитивным и его лексема задаёт гипероним к толкуемому лексическому значению.
Приэтом вершиной толкования является обычный обобщающий термин (например.«вид, отрасль, раздел, разновидность, разряд, род, сорт, тип, форма, аспект, название»).3.4.9 РезультатыЭтот раздел отвечает на два вопроса. Наиболее важный вопрос: наскольковыбранный подход подходит для извлечения каждого из типов отношений. Второй вопрос: насколько пригоден для извлечения отношений каждый из использованных лексико-грамматических шаблонов, заданных аннотатором.Для ответа на первый вопрос кластеры были сгруппированы по тому, какоеотношение может быть из них извлечено. Для каждой такой группы кластеровпосчитано общее число толкований в группе и совместная оценка точности. Оценить полноту извлечения тезаурусных отношений из словаря не представляется76возможным, так как для русскоязычного тезауруса подобного WordNet не существует заранее заданного золотого стандарта ни абсолютного, ни для его части,которую возможно построить по словарям.
Однако разумно предположить, чтокаждый узел тезауруса имеет в среднем приблизительно один гипероним (вершина тезауруса не имеет гиперонима, но при этом некоторые средние узлы могутиметь два гиперонима). Поэтому доля определений, для которых извлечён гипероним, является грубой оценкой полноты оцениваемого подхода.Нам не известно о существовании опубликованных работ, посвящённых автоматическому извлечению тезаурусных отношений из русскоязычных толковыхсловарей. Поэтому для того, чтобы оценивать качество использованных алгоритмов была выбрана онтология Onto.PT [91] как одна из лучших на сегодняшнийдень, построенных с помощью извлечения тезаурусных отношений из словарей.Onto.PT не ограничивается существительными, это делает невозможным сравнение полноты работы алгоритма.
В таблице 8 приведены результаты работы описанного здесь гибридного подхода с выдержкой из результатов извлечения отношений из словарей для Onto.PT.Видно, что точность извлечения гиперонимов и меронимов при примененииметода с предварительной кластеризацией толкований значительно выше, чем безнее, в то время, как извлечение синонимов требует дальнейшего улучшения.
Втаблице одним из частых типов отношений указано отношение «ошибки». Такаяпомета была присвоена нескольким кластерам, в которые объединились лексические значения, содержащие какие-либо ошибки предварительной обработки: лексемы без толкований (заданные ссылками на другие части речи), лексемы, в толкованиях которых находятся результаты ошибки разбора и реконструкции структуры статьи, лексемы, для которых определение части речи содержало ошибку.
Таким образом предварительная кластеризация оказывается устойчивой к наличиюнекоторых типов ошибок во входных данных, что являлось одним из требованийпри выборе подходов для извлечения отношений.Наиболее значимым результатом является то, что точность извлечения гиперонимических отношений превышает ожидаемую на примере Onto.PT оценкуна 25%. Часть разницы может объясняться различием в методах оценки точности,различиями языка и доступных для его обработки инструментами, и качествомисходных данных. Однако трудно предположить, чтобы эти факторы отвечали завсю разницу результатов.
Кажется разумным предположить, что часть улучшениядостигнута за счёт того, что лексико-грамматические шаблоны не применяются к77размер1st nominative noun493481nd nominative noun9804junk71751st genitive noun4165“human”29881st prepositional noun24871st noun after “часть”10171st genitive noun after “один” 7263rd nominative noun5561st dative noun3821st instrumental noun242“people”2181st instrumental noun after “с” 105“plant”86“name”82точность85.15%70.06%100.00%62.95%100.00%77.04%100.00%100.00%80.04%57.59%64.05%100.00%92.38%100.00%80.49%Таблица 9 –– Оценка числа толкований, к которым было применено правило, иточность применения правила.толкованиям, имеющим «не подходящую» для данного правила структуру. Этоснижает количество ошибок. Таким образом, кластеризация имеет эффект, сходный, но не равный усилению части правил, накладывающей ограничения на условия их применимости.