Главная » Просмотр файлов » Диссертация

Диссертация (1137511), страница 17

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 17 страницаДиссертация (1137511) страница 172019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 17)

В корпусе существуют пары лексических значений, которые эксперт назвалбы синонимическими. В настоящем разделе мы игнорируем синонимичность таких лексических значений, и в целом считаем любые два лексических значенияв корпусе различными. В силу ошибок выбранного алгоритма анализа толковогословаря некоторые лексические значения, описанные в толковом словаре как одно значение, могут быть представлены в корпусе как две части этого значения.

Вомногих случаях эксперту очевидна синонимичность таких значений. В рамках настоящего раздела мы игнорируем и такой вид синонимичности и считаем, что всезначения одной лексемы различны. В отношении таких синонимичных значенийв рамках настоящей работы мы считаем задачу выделения отношений и дизамбигуации успешно решённой, если они будут обозначены ко-гипонимами одного итого же лексического значения.В действительности же не все ко-гипонимы будут обозначены гипонимамиодного и того же лексического значения, так как их общий гипероним также мо88жет оказаться представленным несколькими лексическими значениями, не объединёнными в силу нашего допущения, в синсет.

Однако при этом мы видим, чтотакое допущение не является совершенно беспочвенным. Оно согласуется с тем,что разграничение синонимов и ко-гипонимов вызывает трудности при разметкеданных экспертами.Поскольку задача дизамбигуации сводится к идентификации значения словоупотребления в конкретном контексте, технологическую цепочку дизамбигуации гиперонима можно представить следующим образом: на вход алгоритму подается существительное, а также все его толкования из словаря. Необходимо выбрать одно толкование входного существительного, используя в качестве данныхдля обучения лемму и толкование его гипонима.Решение задачи предусматривает следующие шаги:– выбор для испытания методов машинного обучения, моделей представлениялингвистических признаков;– выбор множества параметров для выбранных методов и моделей, дающий возможность провести испытание всех возможных сочетаний выбранных методов,моделей, параметров, но при этом ограниченный таким образом, чтобы потребности экспериментов в вычислительных ресурсах оказались приемлемыми;– создание золотого стандарта для оценки качества алгоритмов; золотой стандартдолжен описывать четвёрки: лексема гипонима, лексическое значение (толкование) гипонима, лексема гиперонима, лексическое значение гиперонима;– эксперименты по подбору классификаторов, параметров классификаторов, модели представления лексических признаков, параметров модели.Настоящая глава преследует несколько целей.

Первая цель состоит в том,чтобы оценить влияние на результат дизамбигуации свойств некоторых частейдизамбигуатора:– метода машинного обучения из выбранного множества,– параметров машинного обучения,– выбора частей словарной статьи, использованных для извлечения признаков,– модели представления лингвистических признаков,– параметров модели.Вторая цель состоит в том, чтобы получить пилотный набор дизамбигуированных тезаурусных отношений, используя наилучший из исследованных в этойглаве методов.

Наконец, ещё одной целью настоящей главы является изучениесвойств полученного набора отношений с тем, чтобы получить масштабную оцен89ку трудоёмкости создания полноценного тезауруса на основе полученного набора отношений и в целом применимости метода для автоматического порожденияэлектронных тезаурусов.4.2 Подходы к задаче разрешения семантической неоднозначностиЗадача автоматического разрешения семантической неоднозначности (wordsense disambiguation, WSD) является достаточно активно обсуждаемой на протяжении уже многих лет. Для ее решения представлено достаточно много стандартных алгоритмов (см., например, обзор в [87]).Все подходы имеют общую отправную точку: значение лексемы определяетконтекст словоупотребления.

Различие между подходами состоит в том, что в нихсчитается контекстом, какие признаки контекста используются, каким образомконтекст переводится в вычислимое представление, и какие алгоритмы используются для выбора значения лексемы среди предложенных. В частности, достаточно много работ посвящено тому, каким образом можно расширить признакидиагностического контекста, ассоциированного с данным значением, используяэкспертные лексикографические источники.4.2.1Алгоритм Леска и его усовершенствованияОдним из первых алгоритмов для дизамбигуации был алгоритм, предложенный Леском [76].

Он опирается на толкования слов в словаре.Алгоритм состоит из трёх шагов. Вначале для всех слов контекста извлекаются все толкования из словаря. Далее вычисляются пересечения между толкованиями. Наконец, в качестве ответа выбирается то значение многозначной лексемы, которое соответствует толкованию, имеющему максимальное пересечение столкованиями слов-соседей. Пример 4.1 иллюстрирует работу данного алгоритма.У алгоритма Леска имеется несколько проблем.

Главная проблема это проблема разреженности данных: в любом контексте любого слова встречается оченьнебольшая доля лексем словаря. Если взять предложение «сорви лук», то скорее90«Зеленый лук можно вырастить самим»ЛУКВЫРАСТИТЬЛУК1 : Огородное или дикорастущее рас-ВЫРАСТИТЬ1 : Ухаживая (за растением,тениеЛУК2 : Ручное оружие для метания стрелживотным), вскармливаяВЫРАСТИТЬ2 : То же, что воспитать|ЛУК2 ∩ ВЫРАСТИТЬ1 | = 0,|ЛУК1 ∩ ВЫРАСТИТЬ2 | = 0,|ЛУК2 ∩ ВЫРАСТИТЬ2 | = 0,|ЛУК1 ∩ ВЫРАСТИТЬ1 | = 1Максимальное пересечение достигается при ЛУК=ЛУК1Рисунок 4.1 –– Алгоритм Леска.

Пример разрешения омонимиисуществительного ЛУКвсего пересечение лексем из толкования ЛУК1 и любого из толкований глагола СОРВАТЬ будет пусто. Также алгоритм Леска игнорирует синтаксическую структурутолкования, из-за этого алгоритм Леска и его модификации как правило не способны отличить синонимы или гиперонимы от антонимов.Одна из первых попыток улучшения алгоритма Леска состояла в итеративном расширении толкований за счёт присоединения предложений из корпуса, наиболее близких к толкованию по метрике Леска. Такой подход позволяет снизитьвлияние разреженности данных, так как вследствие него толкования содержатбольшую долю словарных лексем.В некоторых работах проблема отсутствия пересечений между подходящимдля данного контекста значения лексемы и толкованием соседней лексемы решается решается за счет расширения толкования с использованием ресурсов типаWordNet.

В качестве дополнительных признаков выбираются слова, которые семантически близки словам из толкования по некоторой метрике семантическойблизости. Банерджи [41] показал значительные улучшения результатов дизамбигуации, используя синсеты в WordNet для увеличения количества совпадений присравнении контекстов словоупотреблений.Алгоритм Леска нередко используется в задачах дизамбигуации как базовый алгоритм, задающий нижнюю границу качества.

Этот алгоритм и его усовершенствованные аналоги до сих пор используются в приложениях из-за своейпростоты. Расширения алгоритма нередко дают качество, сопоставимое с более91сложными алгоритмами. Так, группа под руководством Оливейра [92] использовала алгоритм Леска для пополнения тезауруса португальского языка Onto.PT. Вих работе показана точность около 80%.4.2.2Методы машинного обучения в задачах разрешения неоднозначностиМногие работы посвящены применению методов машинного обучения длярешения задачи дизамбигуации. В литературе описаны применения латентногоразмещения Дирихле [48], классификаторов на основе метода максимальной энтропии [103], и т.

п. Однако применение классификаторов не приводило к значительному улучшению результатов. Основным ограничением для значительногоулучшения качества семантической обработки текста оставалась разреженностьданных.Многие достижения этого поколения методов были продемонстрированына дорожке соревнований SemEval 2007и принципиально не изменялись до появления новых методов извлечения признаков.Так, например, в работе [48] описывается метод, основанный на скрытом размещении Дирихле, который позволил авторам работы выиграть дорожкуSemEval 2007 по решению задачи дизамбигуации на ограниченном наборе лексики [88].

Авторы работы использовали помимо лексических признаков еще исинтаксические. Набор синтаксических признаков для каждой части речи определялся отдельно.Победители дорожки SemEval 2007 [103] по решению задачи дизамбигуации на полном (неограниченном) лексиконе [97] включили в предобработку синтаксический анализ и разметку семантических ролей. На основе предобработкикоманда извлекала признаки, включающие контекст дизамбигуируемой лексемы,синтаксические отношения и семантические классы слов в контексте. Сам процесс дизамбигуации выполнялся классификатором на основе методов максимальной энтропии.924.2.3 Векторные семантические моделиЗначительного улучшения результата удалось достичь при применении нейронных сетей-автоэнкодеров для снижения размерности и решения проблемы разреженных данных. Попытки применить к решению задачи дизамбигуации нейронные сети с топологией автоэнкодера начались ещё в 1990 году с работы Вернуа [107].

Характеристики

Список файлов диссертации

Методы автоматического выделения тезаурусных отношений на основе словарных толкований
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6353
Авторов
на СтудИзбе
311
Средний доход
с одного платного файла
Обучение Подробнее