Резюме (1137513), страница 4

Файл №1137513 Резюме (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 4 страницаРезюме (1137513) страница 42019-05-202019-05-20СтудИзба

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 4)

Глава посвящена исследованию возможности применения выбранных алгоритмов для задачи извлечения тезаурусных отношений из корпусатолкований и возможности их модификации для улучшения результатов в рамкахпредложенной задачи. Для простоты в главе рассматриваются только гипонимогиперонимические отношения.Первая часть посвящена тестированию алгоритма Леска и его модификаций.Для этого поставлен эксперимент, в котором для алгоритма Леска сравниваютсяразличные подходы к извлечению признаков, возможные изменения весов, и возможность улучшения результатов за счёт привлечения базы данных ассоциативной схожести слов Serelex. В тексте описана среда потоковой обработки, созданная в рамках настоящего диссертационного исследования для массового тестирования алгоритмов дизамбигуации. Материалом для эксперимента служит корпустолкований, описанный в главе II.Процесс дизамбигуации разбит на шаги, для каждого из которых тестировалось несколько различных подходов.

Выделены следующие шаги:1. представление пары «смысл гипонима–смысл гиперонима» в виде декартова произведения множеств слов в толкованиях,2. подсчёт метрики близости одной пары слов,3. поправка метрики для учёта частоты слов,4. непараметрическая нелинейная поправка метрики,5. поправка метрики для придания большего приоритета первому существительному в определении,6. обобщение весов пар слов в единый вес кандидата в гиперонимы,7. выдача кандидата в гиперонимы с лучшим весом.Для тестирования выбраны несколько слов из различных доменов для ручной разметки. В данном разделе доменом названа компонента связности на графесмыслов слов с гиперонимическими рёбрами, полученном в результате запускаописанного алгоритма обработки с произвольно выбранными реализациями всехшагов обработки.16Таблица 2: Результаты работы различных алгоритмов снятия омонимии.AlgorithmCoreSet LargeSetrandom30.80%23.90%naive Lesk51.60%41.30%serelex49.50%38.00%advanced Lesk 53.80%33.30%prefix serelex38.00%53.80%Выбранные слова представлены аннотаторам для разметки.

Для каждого слова из выбранных перед каждым из аннотаторов поставлена задача отметить гипероним среди кандидатов, представленных алгоритмом. Аннотатор назначает длякаждого смысла слова либо один гипероним, либо ни одного. В исключительныхслучаях допускается присвоить слову два гиперонима. Один домен, содержащий175 толкований, определяющих 90 существительных и именных групп, выдандвум аннотаторам для определения согласия между аннотаторами. Оба аннотатора разметили в домене 145 гиперонимов, но при этом лишь 93 из них совпали.Таким образом, согласие между аннотаторами составляет приблизительно 0.6.93 смысла, размеченных одинаковым образом обоими аннотаторами, использованы в качестве основного материала для тестирования алгоритма.

Кроме того,дополнительные 300 смыслов слов размечены для того, чтобы проверить устойчивость выбора наилучших признаков и параметров алгоритма.В тексте описаны новые метрики, предложенные для второго шага алгоритмаразрешения неоднозначности, описанного выше: подсчёт метрики близости однойпары слов. В таблице2 приведена выдержка из результатов тестирования алгоритма в зависимости от выбранной метрики. Для каждой метрики проводился поисквозможных значений параметров для остальных шагов алгоритма, в таблице приведены наилучшие результаты поиска.В таблице приведены метрики:Метрика «random» соответствует выбору случайного ответа среди предложенных.Метрика «naive Lesk» назначает паре словоформ вес 1, если они совпадают, ивес 0 в противном случае.Метрика «serelex» назначает паре словоформ вес согласно базе данных семан17тической близости Serelex.Метрика «advanced Lesk» назначает паре словоформ вес, зависящий от длинысовпадающего начала двух словоформ.Метрика «prefix serelex» назначает паре словофом вес, путём поиска возможных начал каждого из двух слов в базе данных семантической близости.Показанная в эксперименте точность недостаточна для полностью автоматического построения семантической сети.

Кроме того, эксперимент показывает,что привлечение базы данных семантической близости приводит к улучшениюкачества предсказания, сравнимому с более простым поиском совпадающих частей слова.В тексте приводится подробное описание сравниваемых алгоритмов и подробный анализ результатов.Следующий раздел посвящён исследованию методов, использующих дистрибутивные семантические модели. В разделе кратко описывается история развития дистрибутивных семантических методов: на момент написания текста именно такие методы показывают наилучшие результаты во многих постановках задачи дизамбигуации. Описываются работы, посвящённые исследованию различныхподходов к использованию дистрибутивных моделей для создания семантического представления словоупотребления.

Краткий обзор завершается обоснованиемвыбора двух моделей дистрибутивной семантики и ограничения круга методов ихприменения для решения задачи дизамбигуации.В разделе описан эксперимент по сравнению различных подходов к дизамбигуации с использованием дистрибутивных семантических моделей. В эксперименте сравниваются различные методы извлечения лексических признаков иразличные методы машинного обучения для решения задачи дизамбигуации.

Основной вопрос, который выносится на проверку экспериментом, таков: возможноли улучшить качество решения задачи дизамбигуации путём привлечения на этапе обучения не размеченных данных наряду с размеченными? Материалом дляэксперимента служат гипонимо-гиперонимические отношения из коллекции троек толкование–связь–слово, описанной в главе II.В тексте подробно описан процесс аннотации обучающей выборки для решения задачи. Обучающая выборка состоит из 394 толкований, для которых выбраны гиперонимы. Обоими аннотаторами размечены 114 толкований. Разметка18допускает определение понятий строгой и нестрогой согласованности.

Согласованность авторов по метрике Fleiss kappaсоставляет κ = 0.36 для строгой согласованности или κ = 0.57 для нестрогой согласованности. В разделе подробноописываются метрики согласия аннотаторов и обосновывается выбор метрики κ.В тексте подробно описывается постановка эксперимента.

Данные в эксперименте представлены таким образом, чтобы к ним было возможно в равной мереприменять как классические методы классификации, так и машинное обучение счастичным привлечением учителя — серию методов, призванных улучшать результаты классификации путём привлечения на этапе обучения не аннотированных данных. В тексте подробно описаны рассмотренные подходы к извлечениюпризнаков для каждой из выбранных моделей дистрибутивной семантики, выбранные методы машинного обучения, тестируемые параметры и критерии выбора тестируемых наборов параметров для каждого метода. В ходе экспериментатестируются все возможные сочетания всех перечисленных вариативных частейалгоритма дизамбигуации.Раздел завершается описанием и анализом результатов.

Наилучший из протестированных дизамбигуаторов показывает на исследуемом наборе данных точность 0.7. В тексте показано, что такой точности недостаточно для полностью автоматического построения длинных гипонимо-гиперонимических цепочек. Приэтом построенное таким образом дерево смыслов требует небольшого количествапреобразований для исправления большинства ошибок, т. е.

даже в описанномсостоянии предложенный подход позволяет значительно уменьшить количествоэкспертного труда, необходимого для составления основы тезауруса. В текстеописывается вклад каждого признака и выдвигаются предположения о том, какиеизменения нужно внести в подход для последующего улучшения результатов.***В главе V «Заключение» подводятся итоги работы:• предложен новый подход к выделению семантических отношений из корпуса словарных толкований,• исследованы свойства разных подходов для дизамбигуации, применимыхдля выделения тезаурусных отношений в поставленной задаче,19• описан подход к получению цепочек смыслов слов, связанных тезаурусными отношениями, основанный на методах, исследованных в работе,• представлен корпус таких цепочек, построенных по Большому толковомусловарю под ред.

Кузнецова С. А. и исследованы их свойства.Наиболее сложной частью в построении цепочек смыслов, связанных тезаурусными отношениями, является дизамбигуация. В главе обобщаются наблюдения над свойствами алгоритмов дизамбигуации и выдвигаются гипотезы о новыхподходах, которые предстоит проверить в последующих экспериментах.В работе выдвинута гипотеза о том, что предложенная совокупность методовприменима для того, чтобы привлекая ограниченные экспертные ресурсы создавать основу тезаурусов для языков, не обеспеченных богатым инструментариемобработки текстов.

Проверка этой гипотезы и создание таким образом нового семейства тезаурусов предстоит провести в последующих работах.Основное содержание работы отражено в следующих публикациях:• Alexeyevsky, Daniil Andreevich. «BioNLP ontology extraction from a restrictedlanguage corpus with context-free grammars», Informatics and its Applications,vol. 10 issue 2, pp. 119–128, 2016, Moscow, Russian Academy of Sciences,Branch of Informatics, Computer Equipment and Automatization.• Alexeyevsky, Daniil, and Anastasiya V. Temchenko. «WSD in MonolingualDictionaries for Russian WordNet.» In Proceedings of the Eighth GlobalWordNet Conference, 10–15. Bucharest, Romania, 2016.• Alexeyevsky, Daniil.

«Semi-Supervised Relation Extraction from MonolingualDictionary for Russian WordNet.» In Proceedings of CICLing17 Conference.LNCS, 2018. (в печати).• Alexeyevsky, Daniil. «Word sense disambiguation features for taxonomyextraction». Computación y Sistemas, vol. 22 issue 3. 201820.

Характеристики

Тип файла

PDF-файл

Размер

169,73 Kb

Материал

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-avtomaticheskogo-vydelenija-tezaurusnyh-otnoshenij-na-osnove-slovarnyh-tolkovanij.rar

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.