Диссертация (1137511), страница 20

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 20 страницаДиссертация (1137511) страница 202019-05-202019-05-20СтудИзба

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 20)

Оцениваемая доля словоупотреблений корпуса тол102Рисунок 4.3 –– Рабочее место разметчика омонимичных данных длядизамбигуации. Слева направо: форма идентификация аннотатора для началаработы, пример окна разметки, персональная история разметки аннотатора.кового словаря, оцениваемая на основе такой классификации с учётом частотытокенов, составляет 0.0008 от всех словоупотреблений.

Таким образом кажетсядопустимым предположить, что различие в параметрах обучения окажет незначительное влияние на результаты обучения и на поведение обученной модели.4.3.4 Аннотация данныхДля сравнения различных подходов к снятию неоднозначности необходимэталонный набор данных, размеченных экспертами.Для разметки данных экспертами разработана среда для аннотации данныхрабочее место разметчика в виде веб-приложения. На рис. 4.3 приведены три основных экрана рабочего места разметчика. Для допуска аннотатора к разметкеэкспериментатор предлагает аннотатору ознакомиться с инструкцией по аннотации данных и добавляет его учётную запись в настройках среды. После ознакомления с инструкцией аннотатор переходит в веб-интерфейс рабочего места разметчика по ссылке, содержащейся в инструкции.

Работа в веб-интерфейсе начинается с аутентификации аннотатора. После аутентификации аннотатор сразу получает возможность разметить корпусный пример. По завершению разметки одного примера аннотатору предлагается очередной пример. Кроме разметки примеров у аннотатора имеется возможность изучить историю примеров, размеченных им, и, при необходимости, разметить заново некоторые из них.103Рисунок 4.4 –– Пример задания аннотатору с различными леммами,идентифицированными для одной лексемы гиперонима.При разметке корпусного примера эксперту предъявляется гипоним и список возможных гиперонимов.

Как гипоним, так и каждый кандидат в гиперонимыпредставлен в виде пары: [лексема – толкование одного её значения]. Кандидатыв гиперонимы могут представлять как значения одной и той же лексемы, так инескольких разных. Последнее возможно в двух случаях: либо в корпусе отношений для данного значения гипонима предложено несколько возможных гиперонимов (пример 4.4), либо в случае если словарное представление гиперонима можетсоответствовать нескольким леммам (пример 4.5).Задача аннотатора состоит в том, чтобы выбрать одно или несколько значений кандидатов в гиперонимы, которые в наибольшей степени приемлемы вкачестве гиперонима для выбранного значения гипонима. Каждому кандидату вгиперонимы аннотатор может выставить оценку: 0, 3, 4, 5.

Оценка 5 обозначает, что данное значение действительно является гиперонимом для представленного гипонима. Аннотатор может выставить оценку 5 нескольким кандидатам в104Рисунок 4.5 –– Пример задания аннотатору с несколькими кандидатами вгиперонимы.гиперонимы, если они синонимичны между собой.

При такой постановке эксперимента есть две причины возникновения синонимичных кандидатов: во-первых,если для гипонима было выделено несколько лексем гиперонимов, среди значений которых действительно находятся синонимичные; во-вторых, один из типовтолкований в словаре предполагает перечисление нескольких синонимов либо гиперонимов для определяемого понятия через точку с запятой. Оценка 4 обозначает косвенную гиперонимию (например, предложенный кандидат в гиперонимы в действительности является гиперонимом для другого понятия, являющегося гиперонимом для представленного гипонима), либо значение, которое трудноотличить от гиперонима. Оценка 3 обозначает, что выбранное значение ассоциировано с предложенным гипонимом, однако либо удалено от него по цепочкегиперонимических отношений, либо связно с ним вовсе другим семантическимотношением.

Для всех остальных кандидатов в гиперонимы аннотатор выставляет оценку 0. Кроме этого аннотатор имеет возможность сообщить о нескольких105видах ошибки в постановке задачи: ошибка определения части речи для предложенного гипонима, отсутствие среди предложенных значений соответствующегогиперониму, либо ошибка в определении слова, представляющего гипероним.Задания для аннотатора собраны в блок: набор значений-гипонимов, длякаждого из которых аннотатору необходимо выбрать гиперонимы. Для того, чтобы у аннотатора сложилось более полное представление о семантическом контексте размечаемых данных, ему предложено для каждого размечаемого значениягипонима построить максимально длинную цепочку гиперонимических отношений. После того, как аннотатор разметил для гипонима Ai гипероним Bj , емупредлагается выбрать гипероним для Bj . Если аннотатор счёл, что Ai имеетнесколько допустимых гиперонимов, интерфейс разметки выбирает из них первый.

Интерфейс разметки предлагает аннотатору перейти к следующему заданиюв блоке лишь после того, как для очередного гипонима не отмечено ни одного гиперонима.Для уменьшения объёма рутинной работы аннотатору в режиме автоматической разметки никогда не предлагается повторно размечать уже размеченныезначения. Если аннотатор считает, что допустил ошибку, он имеет возможностьпросмотреть историю размеченных лексем и разметить выбранную лексему повторно. При использовании данных разметки в эксперименте всегда используетсятолько последний результат разметки каждой лексемы каждым аннотатором.Согласно инструкции аннотатору разрешено указывать высокую оценку (4)значению, для которого он не уверен, является ли оно гиперонимом или синонимом.

Наличие такого допущения приводит к тому, что в аннотированных данных могут образовываться циклы, т. е. цепочки лексических значений, для которых каждое последующее аннотировано как гипероним предыдущего, а первоеаннотировано как гипероним последнего. В этом случае каждый элемент циклаявляется либо синонимом, либо гиперонимом каждого другого элемента цикла,что возможно только при синонимии всех элементов цикла.

Таким образом такаяразметка и соответствующее ей поведение дизамбигуатора помогает объединятьлексические значения в синсеты.В корпусе толкований количество значений (толкований) у лексемы имеетэкспоненциальное распределение. Очевидно, как аннотатору, так и автоматическому алгоритму снятия неоднозначности проще всего указать правильное значение гиперонима в случае, если лексема гиперонима однозначна. В свою очередьмногозначные лексемы создаются в словаре в том случае, если составители счи106тают, что различие некоторых из сходных значений необходимо подчеркнуть изафиксировать в словаре. Поэтому снятие неоднозначности в случае, когда гиперонимом оказывается такого рода многозначная лексема, сложнее как аннотатору,так и алгоритму.

Вследствие таких рассуждений нам кажется необходимым включить в размеченную аннотаторами выборку примеры с гиперонимами, имеющимиразличное количество значений. Интересным было бы включить в размеченнуювыборку большое количество примеров для нескольких классов гиперонимов сэтой точки зрения, однако в силу трудности семантической разметки для аннотатора набрать необходимое для этого количество данных оказалось невозможным.Наряду с этим корпус извлечённых из толкований семантических отношений, построенный в главе 3, проявляет разнообразие в ещё одном сходном свойстве: количестве гипонимов, которое было выделено для какой-либо лексемы.Количество гипонимов также распределено согласно экспоненциальному закону.Трудно выявить свойства, общие для задач дизамбигуации, в которых у даннойлексемы есть лишь один гипоним.

Однако в случае, если у данной лексемы выделено несколько тысяч гипонимов, то можно предположить, что для многих гипонимов выделенное отношение является не гипо-гиперонимическим, а отношением принадлежности лексического значения к семантическому классу. В такомслучае задача разрешения неоднозначности состоит в выделении в большом объёме отношений экземпляр-класс небольшого количества действительных гипогиперонимических пар, выделении среди значений лексемы «гиперонима» тогозначения, которое в наибольшей мере можно принять за описывающее класс ирешению задачи разрешения собственно неоднозначности для действительныхгипо-гиперонимических пар. В случаях, если для лексемы количество выделенных гипонимов превышает количество значений лексемы гиперонима, можно заметить, что аннотатору проще размечать все такие случаи подряд, не перемежаядругими парами [гипоним – гипероним]. То есть наблюдение общих свойств ипротивопоставление различных среди одних только гипонимов помогает аннотатору выбирать правильное значение гиперонима.

Кажется интересным вопрос,возможно ли аналогичным образом упростить задачу и автоматическому классификатору.Опираясь на перечисленные пожелания мы составили размечаемый наборданных. В описании ниже для простоты задачей аннотации мы называем пару:[значение гипонима – лексема гиперонима]. Набор данных составлен следующимобразом:107– Особенности преобразования словаря в табличное представление, ср.:«ПЕШЕХОД1 : Человек, идущий пешком»«ПЕШЕХОД2 : пеший человек.»– Соответствие нескольких лексем одной лемме, ср.:«ЧЕЛОВЕК1 : Лицо, являющееся носителем каких-л. внутренних характерных качеств,свойств, принадлежащее к какой-л. среде, обществу и т.п.»«ЛЮДИ2 : Те, кто принадлежит к одной общественной среде, характеризующиеся наличием каких-л.

общих признаков.»– Значения, не являющиеся синонимами в строгом смысле, но в равной мере допустимые в качестве гиперонимов в некоторых контекстах, ср.:«ЛАВАШ1 : плоский, в виде большой лепёшки, пшеничный пресный хлеб.»«ХЛЕБ1 : Пищевой продукт, выпекаемый из муки.»«ХЛЕБ2 : Такой продукт в виде изделия какой-л. определённой формы.»Рисунок 4.6 –– Причины возникновения синонимичных значений в корпусесловарных толкований10 задач таких что: для гипероним выделено менее 10 гипонимов,20 задач выбрано случайным образом из корпуса извлечённых отношений40 задач таких что: для гиперонима выделено 40 гипонимов,40 задач таких что: для гиперонима выделено более 1000 гипонимов,58 задач таких что: гипероним имеет более 16 значений,48 задач таких что: гипероним имеет 8–16 значений,34 задачи таких что: гипероним имеет 5–7 значений,33 задачи таких что: гипероним имеет 2–4 значений,1000 задач таких, что: гипероним имеет более 1 значения.Сущностной задачей для аннотатора является выбор одного лексическогозначения из предложенного списка.

Характеристики

Тип файла

PDF-файл

Размер

1,14 Mb

Материал

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-avtomaticheskogo-vydelenija-tezaurusnyh-otnoshenij-na-osnove-slovarnyh-tolkovanij.rar

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.