Резюме (1137513), страница 4
Текст из файла (страница 4)
Глава посвящена исследованию возможности применения выбранных алгоритмов для задачи извлечения тезаурусных отношений из корпусатолкований и возможности их модификации для улучшения результатов в рамкахпредложенной задачи. Для простоты в главе рассматриваются только гипонимогиперонимические отношения.Первая часть посвящена тестированию алгоритма Леска и его модификаций.Для этого поставлен эксперимент, в котором для алгоритма Леска сравниваютсяразличные подходы к извлечению признаков, возможные изменения весов, и возможность улучшения результатов за счёт привлечения базы данных ассоциативной схожести слов Serelex. В тексте описана среда потоковой обработки, созданная в рамках настоящего диссертационного исследования для массового тестирования алгоритмов дизамбигуации. Материалом для эксперимента служит корпустолкований, описанный в главе II.Процесс дизамбигуации разбит на шаги, для каждого из которых тестировалось несколько различных подходов.
Выделены следующие шаги:1. представление пары «смысл гипонима–смысл гиперонима» в виде декартова произведения множеств слов в толкованиях,2. подсчёт метрики близости одной пары слов,3. поправка метрики для учёта частоты слов,4. непараметрическая нелинейная поправка метрики,5. поправка метрики для придания большего приоритета первому существительному в определении,6. обобщение весов пар слов в единый вес кандидата в гиперонимы,7. выдача кандидата в гиперонимы с лучшим весом.Для тестирования выбраны несколько слов из различных доменов для ручной разметки. В данном разделе доменом названа компонента связности на графесмыслов слов с гиперонимическими рёбрами, полученном в результате запускаописанного алгоритма обработки с произвольно выбранными реализациями всехшагов обработки.16Таблица 2: Результаты работы различных алгоритмов снятия омонимии.AlgorithmCoreSet LargeSetrandom30.80%23.90%naive Lesk51.60%41.30%serelex49.50%38.00%advanced Lesk 53.80%33.30%prefix serelex38.00%53.80%Выбранные слова представлены аннотаторам для разметки.
Для каждого слова из выбранных перед каждым из аннотаторов поставлена задача отметить гипероним среди кандидатов, представленных алгоритмом. Аннотатор назначает длякаждого смысла слова либо один гипероним, либо ни одного. В исключительныхслучаях допускается присвоить слову два гиперонима. Один домен, содержащий175 толкований, определяющих 90 существительных и именных групп, выдандвум аннотаторам для определения согласия между аннотаторами. Оба аннотатора разметили в домене 145 гиперонимов, но при этом лишь 93 из них совпали.Таким образом, согласие между аннотаторами составляет приблизительно 0.6.93 смысла, размеченных одинаковым образом обоими аннотаторами, использованы в качестве основного материала для тестирования алгоритма.
Кроме того,дополнительные 300 смыслов слов размечены для того, чтобы проверить устойчивость выбора наилучших признаков и параметров алгоритма.В тексте описаны новые метрики, предложенные для второго шага алгоритмаразрешения неоднозначности, описанного выше: подсчёт метрики близости однойпары слов. В таблице2 приведена выдержка из результатов тестирования алгоритма в зависимости от выбранной метрики. Для каждой метрики проводился поисквозможных значений параметров для остальных шагов алгоритма, в таблице приведены наилучшие результаты поиска.В таблице приведены метрики:Метрика «random» соответствует выбору случайного ответа среди предложенных.Метрика «naive Lesk» назначает паре словоформ вес 1, если они совпадают, ивес 0 в противном случае.Метрика «serelex» назначает паре словоформ вес согласно базе данных семан17тической близости Serelex.Метрика «advanced Lesk» назначает паре словоформ вес, зависящий от длинысовпадающего начала двух словоформ.Метрика «prefix serelex» назначает паре словофом вес, путём поиска возможных начал каждого из двух слов в базе данных семантической близости.Показанная в эксперименте точность недостаточна для полностью автоматического построения семантической сети.
Кроме того, эксперимент показывает,что привлечение базы данных семантической близости приводит к улучшениюкачества предсказания, сравнимому с более простым поиском совпадающих частей слова.В тексте приводится подробное описание сравниваемых алгоритмов и подробный анализ результатов.Следующий раздел посвящён исследованию методов, использующих дистрибутивные семантические модели. В разделе кратко описывается история развития дистрибутивных семантических методов: на момент написания текста именно такие методы показывают наилучшие результаты во многих постановках задачи дизамбигуации. Описываются работы, посвящённые исследованию различныхподходов к использованию дистрибутивных моделей для создания семантического представления словоупотребления.
Краткий обзор завершается обоснованиемвыбора двух моделей дистрибутивной семантики и ограничения круга методов ихприменения для решения задачи дизамбигуации.В разделе описан эксперимент по сравнению различных подходов к дизамбигуации с использованием дистрибутивных семантических моделей. В эксперименте сравниваются различные методы извлечения лексических признаков иразличные методы машинного обучения для решения задачи дизамбигуации.
Основной вопрос, который выносится на проверку экспериментом, таков: возможноли улучшить качество решения задачи дизамбигуации путём привлечения на этапе обучения не размеченных данных наряду с размеченными? Материалом дляэксперимента служат гипонимо-гиперонимические отношения из коллекции троек толкование–связь–слово, описанной в главе II.В тексте подробно описан процесс аннотации обучающей выборки для решения задачи. Обучающая выборка состоит из 394 толкований, для которых выбраны гиперонимы. Обоими аннотаторами размечены 114 толкований. Разметка18допускает определение понятий строгой и нестрогой согласованности.
Согласованность авторов по метрике Fleiss kappaсоставляет κ = 0.36 для строгой согласованности или κ = 0.57 для нестрогой согласованности. В разделе подробноописываются метрики согласия аннотаторов и обосновывается выбор метрики κ.В тексте подробно описывается постановка эксперимента.
Данные в эксперименте представлены таким образом, чтобы к ним было возможно в равной мереприменять как классические методы классификации, так и машинное обучение счастичным привлечением учителя — серию методов, призванных улучшать результаты классификации путём привлечения на этапе обучения не аннотированных данных. В тексте подробно описаны рассмотренные подходы к извлечениюпризнаков для каждой из выбранных моделей дистрибутивной семантики, выбранные методы машинного обучения, тестируемые параметры и критерии выбора тестируемых наборов параметров для каждого метода. В ходе экспериментатестируются все возможные сочетания всех перечисленных вариативных частейалгоритма дизамбигуации.Раздел завершается описанием и анализом результатов.
Наилучший из протестированных дизамбигуаторов показывает на исследуемом наборе данных точность 0.7. В тексте показано, что такой точности недостаточно для полностью автоматического построения длинных гипонимо-гиперонимических цепочек. Приэтом построенное таким образом дерево смыслов требует небольшого количествапреобразований для исправления большинства ошибок, т. е.
даже в описанномсостоянии предложенный подход позволяет значительно уменьшить количествоэкспертного труда, необходимого для составления основы тезауруса. В текстеописывается вклад каждого признака и выдвигаются предположения о том, какиеизменения нужно внести в подход для последующего улучшения результатов.***В главе V «Заключение» подводятся итоги работы:• предложен новый подход к выделению семантических отношений из корпуса словарных толкований,• исследованы свойства разных подходов для дизамбигуации, применимыхдля выделения тезаурусных отношений в поставленной задаче,19• описан подход к получению цепочек смыслов слов, связанных тезаурусными отношениями, основанный на методах, исследованных в работе,• представлен корпус таких цепочек, построенных по Большому толковомусловарю под ред.
Кузнецова С. А. и исследованы их свойства.Наиболее сложной частью в построении цепочек смыслов, связанных тезаурусными отношениями, является дизамбигуация. В главе обобщаются наблюдения над свойствами алгоритмов дизамбигуации и выдвигаются гипотезы о новыхподходах, которые предстоит проверить в последующих экспериментах.В работе выдвинута гипотеза о том, что предложенная совокупность методовприменима для того, чтобы привлекая ограниченные экспертные ресурсы создавать основу тезаурусов для языков, не обеспеченных богатым инструментариемобработки текстов.
Проверка этой гипотезы и создание таким образом нового семейства тезаурусов предстоит провести в последующих работах.Основное содержание работы отражено в следующих публикациях:• Alexeyevsky, Daniil Andreevich. «BioNLP ontology extraction from a restrictedlanguage corpus with context-free grammars», Informatics and its Applications,vol. 10 issue 2, pp. 119–128, 2016, Moscow, Russian Academy of Sciences,Branch of Informatics, Computer Equipment and Automatization.• Alexeyevsky, Daniil, and Anastasiya V. Temchenko. «WSD in MonolingualDictionaries for Russian WordNet.» In Proceedings of the Eighth GlobalWordNet Conference, 10–15. Bucharest, Romania, 2016.• Alexeyevsky, Daniil.
«Semi-Supervised Relation Extraction from MonolingualDictionary for Russian WordNet.» In Proceedings of CICLing17 Conference.LNCS, 2018. (в печати).• Alexeyevsky, Daniil. «Word sense disambiguation features for taxonomyextraction». Computación y Sistemas, vol. 22 issue 3. 201820.