Диссертация (1137511), страница 2
Текст из файла (страница 2)
Автоматическое извлечение этих отношений может существенно облегчить работу экспертов. Указанные выше обстоятельства (требования, предъявляемые к методам,принципы организации толкований в толковых словарях) определяют цель настоящего исследования. Цель представленного исследования — разработать подход для извлечения тезаурусных отношений, позволяющий упростить построениеэлектронного тезауруса. Наименьшая часть тезауруса, обеспечивающая его применимость для автоматической обработки текстов, неизбежно включает в себягипо-гиперонимические отношения между лексическими значениями существительных. Поэтому наиболее эффективное пополнение этой части тезауруса представляет наибольший интерес.
Ещё одним критерием уточнения отдельных подзадач является выбор методов, позволяющих получать значительный объём качественных данных с привлечением наименьших усилий экспертов и стороннихлингвистических ресурсов. Основу электронного тезауруса составляет множестволексем, множество их значений, и множество отношений, связывающих значениямежду собой или значения с лексемами. Такие отношения мы называем тезаурусными. Существуют различные подходы к построению таких множеств отноше6ний. Тезаурусы может составлять вручную лексикограф.
Основу тезауруса могутсоставлять отношения, извлечённые из другого типа онтологий, из словарей, изкорпуса текстов, либо из базы данных семантической модели. Для настоящей работы в качестве метода выбрано извлечение отношений из корпуса определенийиз толкового словаря.В настоящей работе на защиту выносятся следующие положения:– предложенный в работе метод полуавтоматического извлечения тезаурусных отношений c использованием толкового словаря, позволяет получитьсписок пар значений лексем, находящихся в тезаурусных отношениях;это, прежде всего, пары, связанные гипо-гиперонимическим отношением; построение такого списка может значительно упростить работу эксперта по созданию тезауруса, отражающего иерархические семантические отношения;– предложенный в работе и реализованный метод группировки словарныхстатей из толкового словаря, представляющий собой кластеризацию толкований на основе лексико-грамматических n-граммных признаков, позволяет выявить различные структурные типы толкований;– проведенные в ходе работы эксперименты показывают, что использование лексико-грамматических триграмм (состоящих из лексем, входящихв толкование, и грамматических характеристик их соседей) в качествепризнаков кластеризации позволяет определить тип толкования с большей точностью по сравнению с использованием в качестве признаков лексических или частеречных униграмм или триграмм;– разным типам толкований можно поставить в соответствие разные шаблоны для выделения гиперонимичной лексемы из толкования; шаблоныможно извлечь в полуавтоматическом режиме на основе аннотированияпредставителей разных классов толкований экспертом;– исследование различных методов автоматической дизамбигуации лексем, входящих в гиперонимический ряд с использованием их толкованийпоказывает, что к данной задаче применимы как стандартные алгоритмы, основанные на алгоритме Леска, так и методы обучения с частичнымпривлечением учителя, а именно, метод Label Propagation [117], а такжеметоды дистрибутивной семантики, которые превосходят базовые методы по качеству.7– при разрешении многозначности гиперонима в паре [гипоним –гипероним] с использованием толкового словаря лучшее качестводостигается, если для обучения используются признаки, извлеченные израсширенного толкования, включающего само толкование и примеры.Основным материалом для исследования является корпус толкований Большого толкового словаря под ред.
Кузнецова С. А (далее БТС). В корпус входяттолкования лексем, относящихся к классу существительных. В исследовании используются также вспомогательные материалы. БТС является толковым словарём, построенным в соответствии с современными требованиями лексикографии.Соответственно, он имеет строгую организацию в том смысле, что в нем представлено относительно небольшое количество типов словарных толкований, каждый из которых последовательно выдерживается на протяжении всего словаря.Для извлечения отношений предложенными методами необходимы инструменты: инструмент для нормализации текста и его грамматической аннотации, а также инструмент для определения семантической близости языковых единиц (лексем, словоупотреблений или лексических значений).
В качестве первого в работеиспользован морфологический анализатор mystem компании Яндекс. В работе используются также несколько инструментов для определения семантической близости языковых единиц: база данных serelex и векторные семантические моделиword2vec и adagram. Для последних необходим обучающий корпус. В качествеобучающих корпусов использованы корпуса: RuWac, lib.ru, RuWiki.Научная новизна работы состоит в том, что предложена технология пополнения тезауруса отношениями с использованием толкового словаря. Представленный метод извлечения отношений требует ограниченных ресурсов эксперта.
Метод основывается на автоматической кластеризации толкований с использованием лексико-грамматических триграмм. В работе показано, каким образом такаякластеризация позволяет:– автоматически выделять различные структурные типы словарных толкований;– извлекать из них соответствующие гиперонимические лексемы.В работе также исследованы возможности применения векторных моделей длядизамбигуации гиперонимических лексем на основе толкований.На момент написания работы электронные тезаурусы представлены приблизительно для 100–200 языков. Таким образом представленная работа значима8для расширения множества языков, обладающих одним из важных лингвистических инструментов, что определяет актуальность работы.Теоретическая значимость исследования состоит в создании и исследовании набора тезаурусных отношений, позволяющем судить о таксономическойструктуре базовых понятий в русском языке; в исследовании лингвистическихпризнаков, значимых для извлечения тезаурусных отношений из толковых словарей.Практическая значимость исследования состоит в разработке подхода к построению набора тезаурусных отношений, публикации построенного набора отношений для русского языка и в исследовании алгоритмов, используемых для выделения таких отношений.Апробация работы.
Основные положения исследования и полученные результаты были представлены в следующих публикациях:– Алексеевский, Даниил Андреевич. «Применение контекстно-свободныхграмматик для извлечения онтологии из текстов коротких описаний статей биологической тематики.» Информатика и её применения 10.1 (2016):119-128.,– IX Русская летняя школа по информационному поиску (RuSSIR 2015),Санкт-Петербург, Россия, 24–28 августа 2015. Алексеевский Д.А., ТолдоваС.Ю. «Key noun phrases for biological fact extraction»,– The Eighth Global WordNet Conference 2016, Bucharest, Romania, January27–30 2016. Alexeyevsky D. A., Temchenko A.
V. «Word sense disambiguationin monolingual dictionaries for building russian wordnet.»,– X Русская летняя школа по информационному поиску (RuSSIR 2016),Саратов, Россия, 22–26 августа 2016. Алексеевский Д.А., Трегубова М.А.«Semi-supervised Relation Extraction from Monolingual Dictionary.»,– Alexeyevsky D. A. Word sense disambiguation features for taxonomyextraction. Computación y Sistemas. Vol 23, No 3 (2018).Структура диссертации.
Диссертация состоит из введения, четырёх глав,заключения и библиографии. Глава 1 даёт определение основным необходимымтерминам, кратко описывает историю создания тезаурусов и развития инструментов для их создания, которая является мотивацией для настоящей работы, в главеставится задача настоящей работы и описывается общая схема подхода. В главе 2приведён краткий обзор доступных толковых словарей для русского языка, описана постановка и решение задачи о создании корпуса толкований выбранного9словаря. В главе 3 описаны эксперименты по извлечению из словарных толкований омонимичных тезаурусных отношений, т.
е. таких тезаурусных отношений,в которых место лексических значений занимают омонимичные лексемы. Глава 4посвящена двум экспериментам по автоматической дизамбигуации тезаурусныхотношений. Наконец, в главе 4.7 подводятся итоги работы, кратко описываются её результаты и выдвигаются новые гипотезы для дальнейших исследованийпо теме работы. Полный объём диссертации составляет 142 страницы, включая21 рисунок и 14 таблиц. Список литературы содержит 120 наименований.10Глава 1. Построение электронных тезаурусов: мотивация, методы, источники1.1 Тезаурусы и тезаурусные отношенияПрежде чем перейти к описанию методов извлечения тезаурусных отношений, необходимо уточнить ряд понятий.Во-первых, само понятие тезауруса требует уточнения.
С одной стороны,говоря о тезаурусе, нередко имеют в виду систему представления знаний в виде сети лексических значений, между которыми установлены отношения определенного типа. С другой стороны, что касается собственно области лингвистики,тезаурус является лексикографическим ресурсом, в котором отражены семантические отношения между лексемами. Таким образом, необходимо рассмотреть,как устроены те лексикографические ресурсы, в которых отражены семантические (тезаурусные) отношения между лексемами (между отдельными значениямиразных лексем), какие из них представляют некоторый эталонный ресурс с точкизрения представленных в них отношений.Во-вторых, следует рассмотреть существующие методы автоматического иавтоматизированного извлечения отношений и определить, какое место среди нихзанимает выбранный в данной работе подход, в чем его преимущество.В-третьих, поскольку этот подход предполагает извлечение отношений изтолковых словарей, следует более подробно остановиться на организации толкований, на том, как они устроены.Иными словами, в настоящей главе уточняются основные понятия, из которых мы исходим в работе, обосновывается выбранный метод, возможности которого исследуются в работе, а также описываются основные принципы организации данных.1.1.1Понятие тезауруса.