Диссертация (1137511), страница 21

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 21 страницаДиссертация (1137511) страница 212019-05-202019-05-20СтудИзба

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 21)

Было проведено пилотное испытания аннотации с такой постановкой задания. Результаты испытания, включающего разметку и эксперименты по дизамбигуации с помощью вариаций алгоритма Леска,опубликованы [35]. Испытания выявили несколько проблем с подходом к аннотации, предполагающим детерминированный выбор одного лексического значенияиз нескольких:– в некоторых случаях в корпусе словарных толкований встречаются синонимичные значения, которые аннотаторы не способны различить; причины и примеры таких случаев приведены на рис. 4.6;–––––––––108– при изучении результатов дизамбигуации эксперты признавали приемлемыми сточки зрения построения итоговой таксономии некоторые результаты, которыене были размечены как таковые в исходном корпусе;– качество аннотации существенно зависит как от мотивированности, так и оттеоретической подготовленности аннотатора, что значительно ограничиваеткруг потенциальных аннотаторов;– аннотация выбора одного варианта из нескольких позволяет создавать агрегированную разметку золотого стандарта путём выбора наиболее частого ответалишь в случае участия в эксперименте значительного числа аннотаторов и одновременно высокого уровня согласия между ними.В результате анализа было принято решение допустить отметку несколькихлексических значений допустимыми гиперонимами, а также предоставить аннотатору инструмент для отметки случаев их неуверенности в ответе.

Вместо того,чтобы составлять эталонный корпус, содержащий единственно-верный ответ аннотатора, в настоящей работе принято решение сохранять ответы всех аннотаторов и порождать оценки на основе их агрегации. Так, для того, чтобы получитьстрогую оценку, достаточно выбрать для каждой пары [гипоним – лексема гиперонима] наименьшую из оценок аннотаторов. Для того, чтобы получить мягкуюоценку, наоборот, необходимо выбрать максимум из оценок.Аннотированный набор данных содержит 1537 пар [лексическое значениегипонима – лексема гиперонима], аннотированных хотя бы одним экспертом. Изних 646 пар аннотированы двумя экспертами.

Как описано выше, некоторые парыбыли отклонены аннотаторами: из 646 пар, аннотированных двумя экспертами,только 342 не были отвергнуты хотя бы одним из них. Малый объём пересечения аннотированных данных частично процедурой построения длинных цепочекв процессе аннотации: если в начале цепочки аннотаторы выбирали разные лексические значения, то вся последующая гиперонимическая цепочка аннотироваласьими по-разному.Задача семантической аннотации является сложной задачей и часто имеетневысокое согласие аннотаторов. Для вычисления согласия в настоящей работеиспользовалось несколько метрик: доля согласия и κ Фляйса [59], для каждой изних посчитана строгая и мягкая оценка:– 19% — процент согласия в строгом смысле: два гипонима считаются размеченными одинаково, если множество лексических значений, получивших наивысшую оценку аннотаторов среди них совпадают;109– 52% — процент согласия в мягком смысле: два гипонима считаются размеченными одинаково, если для них существует хотя бы одно лексическое значение,принятое обоими аннотаторами;– κ = 0.34 ± 0.06 — согласие аннотаторов в следующем смысле: каждая пара[лексическое значение гипонима – лексическое значение гиперонима] оценивается как допущенная аннотатором, если она получила оценку 5;– κ = 0.34 ± 0.06 — аналогично, если допустимыми считаются оценки 3, 4, 5.4.4 Постановка экспериментаДля ответа на вопросы, поставленные в настоящем разделе, была разработана потоковая среда тестирования дизамбигуаторов, имеющих сходное устройство, но содержащих несколько вариабельных частей.

Общая структура каждогодизамбигуатора такова:1. чтение корпуса извлечённых отношений в виде пар [значение гипонима –лексема гиперонима] и объединение их в группы по совпадению лексемы гиперонима,затем для каждой такой группы:2. построение векторного представления каждого гипонима и каждого значениялексемы гиперонима,3. применение классификатора для предсказания значения гиперонима для каждого из гипонимов в группе,4.

применение классификатора для выбора лексемы гиперонима в случае, еслидля одного значения гипонима указано более одной леммы гиперонима.Для шагов 2 и 3 в эксперименте протестированы различные реализации.Некоторые реализации некоторых шагов имеют параметры, для которых задан перечень допустимых значений. Подробное описание реализаций шагов и их параметров приведено ниже. Целью эксперимента является перебор всех возможныхсочетаний реализаций и их параметров, исследование результатов их применения к размеченным данным и выбор оптимальной реализации алгоритма с точкизрения точности разрешения неоднозначности.При разметке данных аннотаторы показывали большую скорость и уверенность в разметке, если им подряд предъявлялись задания на дизамбигуацию с од110ним гиперонимом, чем в случае, если гипероним менялся от задания к заданию.Возможное объяснение этому наблюдению состоит в том, что аннотатор обнаруживает сходство между гипонимами соседних заданий и это даёт ему возможность применять один и тот же ответ к ко-гипонимам одного лексического значения гиперонима.

Одной из задач эксперимента является попытка воспроизведения такого поведения применительно к автоматическим дизамбигуаторам. Длядостижения этого задачей шага 1 является объединение в одну группу всех значений одной лексемы (гиперонима) и всех лексических значений, для которыхданная лексема была идентифицирована в данных как гипероним.После группировки лексических значений выбранных гипонимов и одного гиперонима задачу дизамбигуации возможно сформулировать следующим образом: имея группу лексических значений, где каждому лексическому значениюгиперонима присвоен «правильный ответ» — номер его значения — необходимо автоматически присвоить ответ каждому лексическому значению гипонима.

Втакой формулировке задача очень похожа на задачу машинного обучения с учителем с одной особенностью: обучающая выборка для каждого класса содержиттолько одну точку данных. В рамках такой точки зрения на постановку задачипереход от машинного обучения с учителем к машинному обучению с частичным применением учителя обозначает автоматическое пополнение обучающейвыборки теми гипонимами, решение задачи дизамбигуации для которых очевидно. Таким образом, простейшим подходом для симуляции поведения аннотаторовпри такой постановки задачи является сравнение методов машинного обучения сучителем и методов машинного обучения с частичным привлечением учителя наподготовленных таким образом данных.

При этом необходимо отметить, что такая постановка задания не является машинным обучением с учителем в привычном понимании, так как размеченные аннотатором данные никак не участвуют вобучении.Кроме группировки лексических значений, шаг 1 включает необходимыетехнологические действия: чтение корпуса омонимичных отношений в виде пар[лексическое значение гипонима – лексема гиперонима], чтение словаря, выбор изсловаря всех лексических значений гиперонима.Шаг 2 сводится к тому, чтобы назначить векторное представление каждому лексическому значению в группе. Лексическое значение представлено в виде набора из: уникального идентификатора, лексемы, толкования, расширенного111толкования.

Процесс назначения векторного представления зависит от выбраннойсемантической модели: алгоритм Леска, word2vec, AdaGram.– Алгоритм Леска определяет способ присвоения векторного представления словоупотреблению в заданном контексте. Векторное представление лексическогозначения задаёт число вхождений каждой леммы словаря в толкование значения.Для данной модели в настоящей работе определён один параметр: какая частьтолкования используется для получения векторного представления, в качествезначения возможны любые комбинации из самой лексемы, толкования и расширенного толкования.– Модель word2vec определяет векторное представление для каждой лексемы.Представление лексического значения в настоящем эксперименте подбираетсяв виде взвешенной суммы векторных представлений токенов толкования.Для данной модели в настоящей работе определено два параметра: выбор части толкования для построения векторного представления, принцип назначениявесов.В качестве толкования может быть использована любая комбинация из: лексемы, толкования, расширенного толкования.В качестве принципа назначения весов могут быть использованы: равные весадля всех токенов; веса согласно метрике TF·IDF; равные веса в окне ±5 вокругупотребления леммы гиперонима в толковании при весе 0 у всех остальныхтокенов.– Модель AdaGram определяет векторное представление каждого лексическогозначения, а также алгоритм предсказания вероятности каждого лексическогозначения в заданном контексте.

Характеристики

Тип файла

PDF-файл

Размер

1,14 Mb

Материал

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-avtomaticheskogo-vydelenija-tezaurusnyh-otnoshenij-na-osnove-slovarnyh-tolkovanij.rar

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.