Диссертация (1137511), страница 23

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 23 страницаДиссертация (1137511) страница 232019-05-202019-05-20СтудИзба

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 23)

Из этих типов информации в настоящей работе использованы лексема, толкование и расширенное толкование (состоящее из толкования, словарных помет и примеров). В таблице 14 приведены наилучшие значения точности,показанные дизамбигуаторами в зависимости от того, какой источник информации использовался в качестве контекста для получения векторного представлениялексического значения. В рамках настоящей работы точность извлечения увеличивалась по мере расширения используемого контекста.

Это расходится с классическими корпусными исследованиями, в которых показано, что для получения117Рисунок 4.8 –– Наилучшие результаты дизамбигуации в зависимости отсоотношения признаков толкования и расширенного толкования. Признаки дляклассификации получаются согласно формулеvw (G,Ge ) = w · v(G) + (1 − w) · v(Ge ), где w — вес, отложенный на графике пооси абсцисс, G, Ge — толкование и расширенное толкование соответственно,v, vw — исходная и модифицированная функции построения векторногопредставления соответственно.наилучших результатов дизамбигуации необходимо ограничивать используемыйконтекст [67]. Одна из гипотез, возникающих при анализе таких результатов состоит в том, что корпусные примеры, содержащиеся в словарных толкованиях,содержат более важную контекстную информацию, чем сами толкований.В настоящей работе показано, что это неверно: собственно толкование также является ценным источником контекстной информации.

Для проверки этойгипотезы были проведены дополнительные испытания, основанные на использовании взвешенного среднего между векторными представлениями толкованияи расширенного толкования. В этой части экспериментов испытывалась толькомодель word2vec: во-первых, как показавшая наилучший результат, а во-вторых,как модель, для которой показана интерпретируемость линейных операций.Взвешивание производится по формуле: vw (G,Ge ) = w·v(G)+(1−w)·v(Ge ),где w — вес толкования, G — толкование, Ge — расширенное толкование, v(G) —векторное представление толкования согласно модели word2vec, vw — итоговоевзвешенное векторное представление контекста.

На рис. 4.8 проиллюстрированазависимость наилучшей точности дизамбигуаторов при каждом испытанном зна118Рисунок 4.9 –– Влияние выбора классификатора на результат дизамбигуации.чении веса. Следует обратить внимание, что несмотря на небольшое количествоиспытанных значений веса, можно заключить о том, что зависимость точности отвеса является выпуклой функцией, которая достигает своего максимума в диапазоне [0,1]. Среди испытанных значений наилучшая точность дизамбигуации показана при весе 0.5.

Так как расширенное толкование включает в себя собственнотолкование, то такой результат позволяет заключить о том, что придание словарным пометам и примерам веса, превышающего половину веса толкования, приводит к снижению результатов дизамбигуации.На рис. 4.7 зависимость точности дизамбигуации от выбранного контекста приведена в виде «скрипичной диаграммы».

Здесь по оси ординат отображается точность, достигаемая дизамбигуаторами, при этом толщина «скрипки»пропорциональна количеству дизамбигуаторов, показавших выбранное значениеточности. Наиболее толстая часть графика указывает на моду: дизамбигуатор сослучайным набором параметров, использующий выбранное представление лексического значения, с наибольшей вероятностью будет иметь указанную точность.Чем ниже находится расширение, тем ниже мода точности алгоритмов с выбранными признаками, и, следовательно, тем более аккуратно необходимо проводитьперебор параметров для того, чтобы дизамбигуатор показал максимальную точность. Если на графике имеется расширение около верхнего края, то это можно119интерпретировать следующим образом: среди параметров дизамбигуатора имеется много таких, которые не ухудшают его результаты.

Т. е. в таком случае выбранные признаки можно считать одним из главных факторов, оказывающих влияниена результат дизамбигуации. Если на графике имеется сужение около верхнегокрая, то это обозначает, что такие результаты дизамбигуации достигаются толькопри одном сочетании параметров: хотя это может указывать на полезную интерференцию параметров, но без пристального исследования следует предположить,что высокие результаты являются случайными.Приведённые выше результаты показывают модели, методы и параметры,оказывающие наибольшее влияние на точность дизамбигуации.

На рис. 4.9 в виде «скрипичной диаграммы» изображена зависимость результатов дизамбигуации от выбранного классификатора. Согласно выбранной метрике наилучшие изалгоритмов, учитывающих наличие гипонимов для той же лексемы гиперонима, показали такой же результат, как и наилучшие из алгоритмов, игнорировавших наличие других гипонимов. Такой результат показывает, что в рамках проведённых экспериментов не был найден метод, способный использовать информацию о наличии сходных гипо-гиперонимических пар. Значимым результатомпри этом является и то, что использование информации о наличии сходных гипогиперонимических пар не привело к снижению точности дизамбигуаторов.Вопрос о поиске алгоритма, использующего группу сходных задач разрешения неоднозначности для улучшения решения каждой отдельной задачи можносчитать открытым.

Кроме того, это открывает вопрос о выборе правильной метрики для оценки результатов дизамбигуации в случае, когда речь идёт о построениитезауруса.4.6 АнализНа иллюстрации 4.10 приведены примеры гиперонимических цепочек, автоматически полученных в настоящей работе. Как видно на примерах, приблизительно треть связей действительно является ошибочной, что согласуется с полученной в работе точностью около 61%. Так, заведомо ошибочна одна из связей:либо ТАРЕЛКА3 ← БЛЮДО1 , либо БЛЮДО1 ← КРЕМ1 . Там же заведомо ошибочен переход НАЗВАНИЕ1 ← ТАРЕЛКА3 и ИЗОБРАЖЕНИЕ1 ← ЗНАК2 . Во второй цепочке нет120ИЗОБРАЖЕНИЕ1 ← ЗНАК2 ← ОБОЗНАЧЕНИЕ2 ← НАЗВАНИЕ1 ← ТАРЕЛКА3 ← БЛЮДО1 ←КРЕМ1ПОЛОЖЕНИЕ3 ← ОСНОВА1 ← СУЩНОСТЬ1 ← ВЕЩЕСТВО1 ← СПЛАВ1 ← ДЮРАЛЮМИНИЙ1ЛИЦО2 ← ЧЕЛОВЕК1 ← СПЕЦИАЛИСТ1 ← ВРАЧ1 ← ДАНТИСТ1Рисунок 4.10 –– Гиперонимические цепочки, полученные в результате извлеченияиз толкового словаря.

К значениям слов приписаны индексы, соответствующиепорядковому номеру значения в словаре. Стрелка указывает от гипонима кгиперониму.степень: сравнительная величина, характеризующая что-л., мера чего-л.гипонимы:– артикуляция: степень отчётливости произношения.– балльность: степень интенсивности ветра, землетрясения, характеризуемая в баллах.– бешенство: крайняя степень раздражения, гнева.степень: учёное звание.гипонимы:– бакалавр: первая учёная степень, присваиваемая выпускникам университетов и другихвысших учебных заведений, после сдачи дополнительных экзаменов.– доктор: высшая учёная степень.– доктор: лицо, которому присуждена эта степень.степень: уровень, ступень, на которой находится, которой достигает кто-, что-л.гипонимы:– апогей: высшая степень проявления чего-л., вершина, расцвет.– вершина: высшая степень, ступень чего-л.– гений: высшая степень творческой одаренности, талантливости.– дар: высокая степень одарённости.Рисунок 4.11 –– Примеры наборов ко-гипонимов к различным значениям лексемы«степень».

Гипонимы получены в результате извлечения из толкового словаря.видимых ошибок вплоть до СУЩНОСТЬ1 . Третья же цепочка не содержит ошибоквовсе. Тем не менее, следовало бы с осторожностью относиться к применению полученных гиперонимических цепочек без дополнительной ручной проверки илиавтоматической обработки.Иллюстрация 4.11 приводит примеры значений, для которых гиперонимомбыла выбрана лексема СТЕПЕНЬ : .

Здесь мы видим, что при определении значения гиперонима ошибки распределены не равномерно: наборы ко-гипонимов собраны преимущественно верно, в то время, как для целиком собранного набора121может быть выбрано неправильное значение гиперонима. Такое распределениеошибок имеет значительное преимущество для составителя тезауруса, так как вэтом случае все ошибки вместе исправляются одним действием замены неправильного значения гиперонима на правильное.Необходимо ввести новую метрику качества работы дизамбигуации, которая отвечала бы на вопрос: сколько действий необходимо совершить аннотаторудля исправления полученного полученных данных до безупречного результата.Важно также заметить, что в то время, как у аннотатора имеется несколько вариантов для того, чтобы отвергнуть некорректное задание на снятие неоднозначности, у автоматических инструментов для разрешения неоднозначноститакой возможности нет.

Характеристики

Тип файла

PDF-файл

Размер

1,14 Mb

Материал

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-avtomaticheskogo-vydelenija-tezaurusnyh-otnoshenij-na-osnove-slovarnyh-tolkovanij.rar

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.