Диссертация (1137511)

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований)Диссертация (1137511)2019-05-202019-05-20СтудИзба

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»»На правах рукописиАлексеевский Даниил АндреевичМЕТОДЫ АВТОМАТИЧЕСКОГО ВЫДЕЛЕНИЯТЕЗАУРУСНЫХ ОТНОШЕНИЙ НА ОСНОВЕ СЛОВАРНЫХТОЛКОВАНИЙСпециальность (10.02.21) «Прикладная и математическая лингвистика»Диссертация на соискание учёной степеникандидата филологических наук НИУ ВШЭНаучный руководитель:кандидат филологических наукТолдова Светлана ЮрьевнаМосква 2018ОглавлениеСтр.Введение . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Глава 1. Построение электронных тезаурусов: мотивация, методы,источники . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1.1 Тезаурусы и тезаурусные отношения . . . . . . . . . . . . . . . .1.1.1 Понятие тезауруса. Основные типы тезаурусов . . . . .1.1.2 Princeton WordNet . . . . . . . . .

. . . . . . . . . . . . .1.1.3 Семантические сети и электронные тезаурусы . . . . . .1.1.4 Семантические сети для языков мира . . . . . . . . . . .1.1.5 Русскоязычные электронные тезаурусы . . . . . . . . . .1.1.6 Применение семантических сетей . . . . . . . . . . . . .1.1.7 Постановка задачи .

. . . . . . . . . . . . . . . . . . . .1.2 Методы построения электронных тезаурусов . . . . . . . . . . .1.2.1 Методы, основанные на ручном труде . . . . . . . . . . .1.2.2 Методы, основанные на массовых опросах . . . . . . . .1.2.3 Методы, использующие существующиеструктурированные ресурсы .

. . . . . . . . . . . . . . .1.2.4 Методы, использующие переводные структурированныересурсы . . . . . . . . . . . . . . . . . . . . . . . . . . .1.2.5 Методы, использующие толковые словари . . . . . . . .1.2.6 Методы, использующие текстовые корпуса . . . . . . . .1.2.7 Методы, использующие дистрибутивные семантическиемодели .

. . . . . . . . . . . . . . . . . . . . . . . . . . .1.2.8 Сравнение методов . . . . . . . . . . . . . . . . . . . . .1.3 Постановка задачи: уточнение параметров . . . . . . . . . . . .Глава 2. Толковые словари как источник полуструктурированныхданных . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .2.1 Типы словарей . . . . . . . . . . . . . . . . . . . . . . . . . . .2.1.1 Классификация толковых словарей . . . . . . . . . . .2.2 Организация словарной статьи . . . . . . . . . . . . . . . . . .2............................5111111151517182021232323. . 24.

. 25. . 25. . 27. . 28. . 28. . 29........32333339Стр.2.32.42.52.6Типы толкований . . . . . . . . . . . . . . . . . . . . . .Современные толковые словари русского языка . . . .Машиночитаемые словари . . . . . . . . . . . . . . . .Принципы выбора толкового словаря для исследования............42454749Глава 3. Выделение отношений . . .

. . . . . . . . . . . . . . . . . . .3.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3.2 Исходные данные . . . . . . . . . . . . . . . . . . . . . . . . . .3.2.1 Большой толковый словарь русского языка . . . . . . . .3.2.2 Электронная версия словаря . .

. . . . . . . . . . . . . .3.2.3 Восстановление структуры словарной статьи . . . . . .3.2.4 Выделение толкований из словарной статьи . . . . . . .3.2.5 Определение частей речи . . . . . . . . . . . . . . . . . .3.2.6 Результаты . . . . . . . . . . . . . . . . . . . . . . . . . .3.3 Контрольный эксперимент: носитель семантическогоотношения — вершина именной группы из толкования .

. . . .3.3.1 Исходные допущения . . . . . . . . . . . . . . . . . . . .3.3.2 Описание эксперимента . . . . . . . . . . . . . . . . . .3.3.3 Результаты и анализ . . . . . . . . . . . . . . . . . . . . .3.4 Извлечение отношений с частичным привлечением учителя.Автоматическая кластеризация толкований . . . . . . . .

. . . .3.4.1 Машинное обучение с частичным привлечением учителя3.4.2 Общее описание эксперимента . . . . . . . . . . . . . . .3.4.3 Признаки, используемые для кластеризации . . . . . . .3.4.4 Лексико-грамматические n-граммы . . . . . . . . . . . .3.4.5 Материалы и методы . . . . .

. . . . . . . . . . . . . . .3.4.6 Кластеризация толкований. Эффект применениялексико-грамматических триграмм . . . . . . . . . . . .3.4.7 Подбор параметров кластеризации . . . . . . . . . . . .3.4.8 Правила, применяемые к кластеру толкований . . .

. . .3.4.9 Результаты . . . . . . . . . . . . . . . . . . . . . . . . . .3.5 Обсуждение . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3.6 Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...................505052525354575860........61616364............656666687172............7374757679813................Стр.Глава 4. Дизамбигуация тезаурусных отношений . . . . . . . . . . .

. . 854.14.24.34.44.54.64.7Задача дизамбигуации в контексте извлечениягипо-гиперонимических отношений из словаря . . . . . . . . . .Подходы к задаче разрешения семантической неоднозначности .4.2.1 Алгоритм Леска и его усовершенствования . . . . . . . .4.2.2 Методы машинного обучения в задачах разрешениянеоднозначности . . . . . . . . .

. . . . . . . . . . . . .4.2.3 Векторные семантические модели . . . . . . . . . . . . .4.2.4 Выбор методов . . . . . . . . . . . . . . . . . . . . . . .Материалы исследования . . . . . . . . . . . . . . . . . . . . . .4.3.1 Корпус лексических значений: БТС . . . . . . . . . . . .4.3.2 Корпус омонимичных отношений . . .

. . . . . . . . . .4.3.3 Материал для построения векторных моделей . . . . . .4.3.4 Аннотация данных . . . . . . . . . . . . . . . . . . . . .Постановка эксперимента . . . . . . . . . . . . . . . . . . . . . .Результаты . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .Анализ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 87. . 90. . 90........................929396979899100103110115120123Заключение . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . 124Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127Список рисунков . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140Список таблиц . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . 1424ВведениеРабота посвящена методам выделения тезаурусных (семантических) отношений, основанным на использовании словарных толкований. Задача автоматического извлечения тезаурусных отношений является одной из актуальных задачавтоматической обработки текста. Решение этой задачи — необходимый этап построения тезаурусов и онтологий. Настоящая работа исследует автоматическоеизвлечение отношений как средство для построения электронных тезаурусов.Тезаурусы используются для решения многих задач обработки текстов, связанных с семантикой: в информационно-поисковых системах, в системах извлечения именованных сущностей и фактов, при классификации текстовых документов, в вопросно-ответных системах, а также при решении многих других задачанализа контента.

Привлечение знаний об отношениях между понятиями, а также об отношениях между языковыми единицами, которые соответствуют этимпонятиям, неоднократно показывало свою эффективность при решении задач автоматической обработки текста (далее АОТ). Использование ресурсов, отражающих семантические отношения между языковыми единицами, нередко затруднено по целому ряду причин. С одной стороны, существует достаточно давняя традиция применения тезаурусов, создаваемых экспертами-лингвистами вручную,в различных естественно-языковых приложениях.

Однако создание и обновление таких ресурсов это трудоемкий процесс, занимающий достаточно длительный период времени. С другой стороны, для ряда задач извлечения информациииз текста используются автоматически созданные онтологии и тезаурусы, ориентированные на конкретные предметные области.

При их создании используютсябольшие массивы текстов. Существенным недостатком данных ресурсов является то, что они ориентированы на те отношения между лексическими значениями,которые релевантны для некоторой узкой предметной области. Современные методы дистрибутивной семантики, ориентированные на извлечение информациио семантической близости лексем из текстовых массивов значительных объемов,позволяют преодолевать тематическую ограниченность автоматически создаваемых ресурсов. Однако создаваемые такими методами ресурсы также имеют целыйряд ограничений.

Во-первых, как правило, в них понятие семантической близости трактуется слишком широко. Семантически близкими объявляются лексемы,связанные достаточно разнородными отношениями, включая морфологическую5деривацию. Во-вторых, ресурсы не содержат информации о типах семантическихотношений (являются ли лексемы синонимами, гиперонимами и т. п.) и не позволяют выстраивать иерархические цепочки понятий. Существенным недостаткомявляется также то, что объектами, между которыми устанавливаются отношения,являются лексемы, а не отдельные значения лексем в то время, как экспертные ресурсы, широко применяемые для задач АОТ, такие как, например, WordNet [58],учитывают многозначность лексем и связывают отношениями их конкретные значения.Таким образом, для создания тезаурусов, востребованных в различных приложениях с использованием АОТ, актуальной задачей является разработка технологии автоматизации извлечения тезаурусных отношений, т.

е. методов, которые, с одной стороны, опираются на экспертные лексикографические решения,с другой — позволяют автоматически извлекать необходимую для установленияэтих отношений информацию. Одним из путей решения данной задачи являетсяпривлечение существующих доступных в электронном виде лексикографическихисточников, созданных экспертами, таких как толковые словари. Данные источники содержат информацию о семантических отношениях в неявном виде. Толкования отдельных значений лексем нередко содержат лексемы, находящиеся вгиперонимических или синонимических отношениях с этим значением.

Характеристики

Тип файла

PDF-файл

Размер

1,14 Mb

Материал

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов диссертации

metody-avtomaticheskogo-vydelenija-tezaurusnyh-otnoshenij-na-osnove-slovarnyh-tolkovanij.rar

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.