Диссертация (1137511)
Текст из файла
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»»На правах рукописиАлексеевский Даниил АндреевичМЕТОДЫ АВТОМАТИЧЕСКОГО ВЫДЕЛЕНИЯТЕЗАУРУСНЫХ ОТНОШЕНИЙ НА ОСНОВЕ СЛОВАРНЫХТОЛКОВАНИЙСпециальность (10.02.21) «Прикладная и математическая лингвистика»Диссертация на соискание учёной степеникандидата филологических наук НИУ ВШЭНаучный руководитель:кандидат филологических наукТолдова Светлана ЮрьевнаМосква 2018ОглавлениеСтр.Введение . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Глава 1. Построение электронных тезаурусов: мотивация, методы,источники . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1.1 Тезаурусы и тезаурусные отношения . . . . . . . . . . . . . . . .1.1.1 Понятие тезауруса. Основные типы тезаурусов . . . . .1.1.2 Princeton WordNet . . . . . . . . .
. . . . . . . . . . . . .1.1.3 Семантические сети и электронные тезаурусы . . . . . .1.1.4 Семантические сети для языков мира . . . . . . . . . . .1.1.5 Русскоязычные электронные тезаурусы . . . . . . . . . .1.1.6 Применение семантических сетей . . . . . . . . . . . . .1.1.7 Постановка задачи .
. . . . . . . . . . . . . . . . . . . .1.2 Методы построения электронных тезаурусов . . . . . . . . . . .1.2.1 Методы, основанные на ручном труде . . . . . . . . . . .1.2.2 Методы, основанные на массовых опросах . . . . . . . .1.2.3 Методы, использующие существующиеструктурированные ресурсы .
. . . . . . . . . . . . . . .1.2.4 Методы, использующие переводные структурированныересурсы . . . . . . . . . . . . . . . . . . . . . . . . . . .1.2.5 Методы, использующие толковые словари . . . . . . . .1.2.6 Методы, использующие текстовые корпуса . . . . . . . .1.2.7 Методы, использующие дистрибутивные семантическиемодели .
. . . . . . . . . . . . . . . . . . . . . . . . . . .1.2.8 Сравнение методов . . . . . . . . . . . . . . . . . . . . .1.3 Постановка задачи: уточнение параметров . . . . . . . . . . . .Глава 2. Толковые словари как источник полуструктурированныхданных . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .2.1 Типы словарей . . . . . . . . . . . . . . . . . . . . . . . . . . .2.1.1 Классификация толковых словарей . . . . . . . . . . .2.2 Организация словарной статьи . . . . . . . . . . . . . . . . . .2............................5111111151517182021232323. . 24.
. 25. . 25. . 27. . 28. . 28. . 29........32333339Стр.2.32.42.52.6Типы толкований . . . . . . . . . . . . . . . . . . . . . .Современные толковые словари русского языка . . . .Машиночитаемые словари . . . . . . . . . . . . . . . .Принципы выбора толкового словаря для исследования............42454749Глава 3. Выделение отношений . . .
. . . . . . . . . . . . . . . . . . .3.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3.2 Исходные данные . . . . . . . . . . . . . . . . . . . . . . . . . .3.2.1 Большой толковый словарь русского языка . . . . . . . .3.2.2 Электронная версия словаря . .
. . . . . . . . . . . . . .3.2.3 Восстановление структуры словарной статьи . . . . . .3.2.4 Выделение толкований из словарной статьи . . . . . . .3.2.5 Определение частей речи . . . . . . . . . . . . . . . . . .3.2.6 Результаты . . . . . . . . . . . . . . . . . . . . . . . . . .3.3 Контрольный эксперимент: носитель семантическогоотношения — вершина именной группы из толкования .
. . . .3.3.1 Исходные допущения . . . . . . . . . . . . . . . . . . . .3.3.2 Описание эксперимента . . . . . . . . . . . . . . . . . .3.3.3 Результаты и анализ . . . . . . . . . . . . . . . . . . . . .3.4 Извлечение отношений с частичным привлечением учителя.Автоматическая кластеризация толкований . . . . . . . .
. . . .3.4.1 Машинное обучение с частичным привлечением учителя3.4.2 Общее описание эксперимента . . . . . . . . . . . . . . .3.4.3 Признаки, используемые для кластеризации . . . . . . .3.4.4 Лексико-грамматические n-граммы . . . . . . . . . . . .3.4.5 Материалы и методы . . . . .
. . . . . . . . . . . . . . .3.4.6 Кластеризация толкований. Эффект применениялексико-грамматических триграмм . . . . . . . . . . . .3.4.7 Подбор параметров кластеризации . . . . . . . . . . . .3.4.8 Правила, применяемые к кластеру толкований . . .
. . .3.4.9 Результаты . . . . . . . . . . . . . . . . . . . . . . . . . .3.5 Обсуждение . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3.6 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...................505052525354575860........61616364............656666687172............7374757679813................Стр.Глава 4. Дизамбигуация тезаурусных отношений . . . . . . . . . . .
. . 854.14.24.34.44.54.64.7Задача дизамбигуации в контексте извлечениягипо-гиперонимических отношений из словаря . . . . . . . . . .Подходы к задаче разрешения семантической неоднозначности .4.2.1 Алгоритм Леска и его усовершенствования . . . . . . . .4.2.2 Методы машинного обучения в задачах разрешениянеоднозначности . . . . . . . . .
. . . . . . . . . . . . .4.2.3 Векторные семантические модели . . . . . . . . . . . . .4.2.4 Выбор методов . . . . . . . . . . . . . . . . . . . . . . .Материалы исследования . . . . . . . . . . . . . . . . . . . . . .4.3.1 Корпус лексических значений: БТС . . . . . . . . . . . .4.3.2 Корпус омонимичных отношений . . .
. . . . . . . . . .4.3.3 Материал для построения векторных моделей . . . . . .4.3.4 Аннотация данных . . . . . . . . . . . . . . . . . . . . .Постановка эксперимента . . . . . . . . . . . . . . . . . . . . . .Результаты . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .Анализ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 87. . 90. . 90........................929396979899100103110115120123Заключение . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 124Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127Список рисунков . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140Список таблиц . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . 1424ВведениеРабота посвящена методам выделения тезаурусных (семантических) отношений, основанным на использовании словарных толкований. Задача автоматического извлечения тезаурусных отношений является одной из актуальных задачавтоматической обработки текста. Решение этой задачи — необходимый этап построения тезаурусов и онтологий. Настоящая работа исследует автоматическоеизвлечение отношений как средство для построения электронных тезаурусов.Тезаурусы используются для решения многих задач обработки текстов, связанных с семантикой: в информационно-поисковых системах, в системах извлечения именованных сущностей и фактов, при классификации текстовых документов, в вопросно-ответных системах, а также при решении многих других задачанализа контента.
Привлечение знаний об отношениях между понятиями, а также об отношениях между языковыми единицами, которые соответствуют этимпонятиям, неоднократно показывало свою эффективность при решении задач автоматической обработки текста (далее АОТ). Использование ресурсов, отражающих семантические отношения между языковыми единицами, нередко затруднено по целому ряду причин. С одной стороны, существует достаточно давняя традиция применения тезаурусов, создаваемых экспертами-лингвистами вручную,в различных естественно-языковых приложениях.
Однако создание и обновление таких ресурсов это трудоемкий процесс, занимающий достаточно длительный период времени. С другой стороны, для ряда задач извлечения информациииз текста используются автоматически созданные онтологии и тезаурусы, ориентированные на конкретные предметные области.
При их создании используютсябольшие массивы текстов. Существенным недостатком данных ресурсов является то, что они ориентированы на те отношения между лексическими значениями,которые релевантны для некоторой узкой предметной области. Современные методы дистрибутивной семантики, ориентированные на извлечение информациио семантической близости лексем из текстовых массивов значительных объемов,позволяют преодолевать тематическую ограниченность автоматически создаваемых ресурсов. Однако создаваемые такими методами ресурсы также имеют целыйряд ограничений.
Во-первых, как правило, в них понятие семантической близости трактуется слишком широко. Семантически близкими объявляются лексемы,связанные достаточно разнородными отношениями, включая морфологическую5деривацию. Во-вторых, ресурсы не содержат информации о типах семантическихотношений (являются ли лексемы синонимами, гиперонимами и т. п.) и не позволяют выстраивать иерархические цепочки понятий. Существенным недостаткомявляется также то, что объектами, между которыми устанавливаются отношения,являются лексемы, а не отдельные значения лексем в то время, как экспертные ресурсы, широко применяемые для задач АОТ, такие как, например, WordNet [58],учитывают многозначность лексем и связывают отношениями их конкретные значения.Таким образом, для создания тезаурусов, востребованных в различных приложениях с использованием АОТ, актуальной задачей является разработка технологии автоматизации извлечения тезаурусных отношений, т.
е. методов, которые, с одной стороны, опираются на экспертные лексикографические решения,с другой — позволяют автоматически извлекать необходимую для установленияэтих отношений информацию. Одним из путей решения данной задачи являетсяпривлечение существующих доступных в электронном виде лексикографическихисточников, созданных экспертами, таких как толковые словари. Данные источники содержат информацию о семантических отношениях в неявном виде. Толкования отдельных значений лексем нередко содержат лексемы, находящиеся вгиперонимических или синонимических отношениях с этим значением.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.