Резюме (1137513)
Текст из файла
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»»На правах рукописиАлексеевский Даниил АндреевичМЕТОДЫ АВТОМАТИЧЕСКОГО ВЫДЕЛЕНИЯТЕЗАУРУСНЫХ ОТНОШЕНИЙ НА ОСНОВЕ СЛОВАРНЫХТОЛКОВАНИЙРезюмедиссертации на соискание учёной степеникандидата филологических наук НИУ ВШЭНаучный руководителькандидат филологических наукC. Ю. ТолдоваМосква 2018Общая характеристика исследованияРабота посвящена методам выделения тезаурусных (семантических) отношений,основанным на использовании словарных толкований. Задача автоматическогоизвлечения тезаурусных отношений является одной из актуальных задач автоматической обработки текста.
Решение этой задачи — необходимый этап построения тезаурусов и онтологий. Настоящая работа исследует автоматическое извлечение отношений как средство для построения электронных тезаурусов.Тезаурусы используются для решения многих задач обработки текстов, связанных с семантикой: в информационно-поисковых системах, в системах извлечения именованных сущностей и фактов, при классификации текстовых документов, в вопросно-ответных системах, а также при решении многих других задачанализа контента. Привлечение знаний об отношениях между понятиями, а также об отношениях между языковыми единицами, которые соответствуют этимпонятиям, неоднократно показывало свою эффективность при решении задач автоматической обработки текста (далее АОТ). Использование ресурсов, отражающих семантические отношения между языковыми единицами, нередко затруднено по целому ряду причин.
С одной стороны, существует достаточно давняя традиция применения тезаурусов, создаваемых экспертами-лингвистами вручную,в различных естественно-языковых приложениях. Однако создание и обновление таких ресурсов это трудоемкий процесс, занимающий достаточно длительный период времени. С другой стороны, для ряда задач извлечения информациииз текста используются автоматически созданные онтологии и тезаурусы, ориентированные на конкретные предметные области. При их создании используютсябольшие массивы текстов.
Существенным недостатком данных ресурсов является то, что они ориентированы на те отношения между лексическими значениями,которые релевантны для некоторой узкой предметной области. Современные методы дистрибутивной семантики, ориентированные на извлечение информациио семантической близости лексем из текстовых массивов значительных объемов,позволяют преодолевать тематическую ограниченность автоматически создаваемых ресурсов. Однако создаваемые такими методами ресурсы также имеют целыйряд ограничений.
Во-первых, как правило, в них понятие семантической близости трактуется слишком широко. Семантически близкими объявляются лексемы,1связанные достаточно разнородными отношениями, включая морфологическуюдеривацию. Во-вторых, ресурсы не содержат информации о типах семантическихотношений (являются ли лексемы синонимами, гиперонимами и т. п.) и не позволяют выстраивать иерархические цепочки понятий. Существенным недостаткомявляется также то, что объектами, между которыми устанавливаются отношения,являются лексемы, а не отдельные значения лексем в то время, как экспертные ресурсы, широко применяемые для задач АОТ, такие как, например, WordNet, учитывают многозначность лексем и связывают отношениями их конкретные значения.Таким образом, для создания тезаурусов, востребованных в различных приложениях с использованием АОТ, актуальной задачей является разработка технологии автоматизации извлечения тезаурусных отношений, т.
е. методов, которые, с одной стороны, опираются на экспертные лексикографические решения,с другой — позволяют автоматически извлекать необходимую для установленияэтих отношений информацию. Одним из путей решения данной задачи являетсяпривлечение существующих доступных в электронном виде лексикографическихисточников, созданных экспертами, таких как толковые словари. Данные источники содержат информацию о семантических отношениях в неявном виде.
Толкования отдельных значений лексем нередко содержат лексемы, находящиеся вгиперонимических или синонимических отношениях с этим значением. Автоматическое извлечение этих отношений может существенно облегчить работу экспертов. Указанные выше обстоятельства (требования, предъявляемые к методам,принципы организации толкований в толковых словарях) определяют цель настоящего исследования. Цель представленного исследования — разработать подход для извлечения тезаурусных отношений, позволяющий упростить построениеэлектронного тезауруса.
Наименьшая часть тезауруса, обеспечивающая его применимость для автоматической обработки текстов, неизбежно включает в себягипо-гиперонимические отношения между лексическими значениями существительных. Поэтому наиболее эффективное пополнение этой части тезауруса представляет наибольший интерес.
Ещё одним критерием уточнения отдельных подзадач является выбор методов, позволяющих получать значительный объём качественных данных с привлечением наименьших усилий экспертов и стороннихлингвистических ресурсов. Основу электронного тезауруса составляет множество2лексем, множество их значений, и множество отношений, связывающих значениямежду собой или значения с лексемами. Такие отношения мы называем тезаурусными. Существуют различные подходы к построению таких множеств отношений. Тезаурусы может составлять вручную лексикограф. Основу тезауруса могутсоставлять отношения, извлечённые из другого типа онтологий, из словарей, изкорпуса текстов, либо из базы данных семантической модели. Для настоящей работы в качестве метода выбрано извлечение отношений из корпуса определенийиз толкового словаря.В настоящей работе на защиту выносятся следующие положения:• предложенный в работе метод полуавтоматического извлечения тезаурусных отношений c использованием толкового словаря, позволяет получитьсписок пар значений лексем, находящихся в тезаурусных отношениях; это,прежде всего, пары, связанные гипо-гиперонимическим отношением; построение такого списка может значительно упростить работу эксперта посозданию тезауруса, отражающего иерархические семантические отношения;• предложенный в работе и реализованный метод группировки словарныхстатей из толкового словаря, представляющий собой кластеризацию толкований на основе лексико-грамматических n-граммных признаков, позволяетвыявить различные структурные типы толкований;• проведенные в ходе работы эксперименты показывают, что использованиелексико-грамматических триграмм (состоящих из лексем, входящих в толкование, и грамматических характеристик их соседей) в качестве признаковкластеризации позволяет определить тип толкования с большей точностьюпо сравнению с использованием в качестве признаков лексических или частеречных униграмм или триграмм;• разным типам толкований можно поставить в соответствие разные шаблоныдля выделения гиперонимичной лексемы из толкования; шаблоны можноизвлечь в полуавтоматическом режиме на основе аннотирования представителей разных классов толкований экспертом;• исследование различных методов автоматической дизамбигуации лексем,3входящих в гиперонимический ряд с использованием их толкований показывает, что к данной задаче применимы как стандартные алгоритмы, основанные на алгоритме Леска, так и методы обучения с частичным привлечением учителя, а именно, метод Label Propagation, а также методы дистрибутивной семантики, которые превосходят базовые методы по качеству.• при разрешении многозначности гиперонима в паре [гипоним – гипероним]с использованием толкового словаря лучшее качество достигается, если дляобучения используются признаки, извлеченные из расширенного толкования, включающего само толкование и примеры.Основным материалом для исследования является корпус толкований Большого толкового словаря под ред.
Кузнецова С. А (далее БТС). В корпус входят толкования лексем, относящихся к классу существительных. В исследованиииспользуются также вспомогательные материалы. БТС является толковым словарём, построенным в соответствии с современными требованиями лексикографии. Соответственно, он имеет строгую организацию в том смысле, что в немпредставлено относительно небольшое количество типов словарных толкований,каждый из которых последовательно выдерживается на протяжении всего словаря. Для извлечения отношений предложенными методами необходимы инструменты: инструмент для нормализации текста и его грамматической аннотации,а также инструмент для определения семантической близости языковых единиц(лексем, словоупотреблений или лексических значений).
В качестве первого в работе использован морфологический анализатор mystem компании Яндекс. В работе используются также несколько инструментов для определения семантическойблизости языковых единиц: база данных serelex и векторные семантические модели word2vec и adagram. Для последних необходим обучающий корпус. В качествеобучающих корпусов использованы корпуса: RuWac, lib.ru, RuWiki.Научная новизна работы состоит в том, что предложена технология пополнения тезауруса отношениями с использованием толкового словаря.
Представленный метод извлечения отношений требует ограниченных ресурсов эксперта. Метод основывается на автоматической кластеризации толкований с использованием лексико-грамматических триграмм. В работе показано, каким образом такаякластеризация позволяет:4• автоматически выделять различные структурные типы словарных толкований;• извлекать из них соответствующие гиперонимические лексемы.В работе также исследованы возможности применения векторных моделей длядизамбигуации гиперонимических лексем на основе толкований.На момент написания работы электронные тезаурусы представлены приблизительно для 100–200 языков. Таким образом представленная работа значима длярасширения множества языков, обладающих одним из важных лингвистическихинструментов, что определяет актуальность работы.Теоретическая значимость исследования состоит в создании и исследованиинабора тезаурусных отношений, позволяющем судить о таксономической структуре базовых понятий в русском языке; в исследовании лингвистических признаков, значимых для извлечения тезаурусных отношений из толковых словарей.Практическая значимость исследования состоит в разработке подхода к построению набора тезаурусных отношений, публикации построенного набора отношений для русского языка и в исследовании алгоритмов, используемых для выделения таких отношений.Апробация работы.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.