Главная » Просмотр файлов » Диссертация

Диссертация (1137511), страница 16

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 16 страницаДиссертация (1137511) страница 162019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 16)

В случае гипонимических отношенийзадача зеркальная: гипоним задан лексемой, а гипероним — лексическим значением.Таким образом, разработанный и описываемый в данной главе метод позволяет автоматически группировать словарные толкования по сходству лексикограмматической организации, что понижает трудоемкость написания шаблоновдля извлечения тезаурусных отношений и повышает точность применения такихшаблонов.В результате работы, описанной в настоящей главе, получен корпус омонимичных тезаурусных отношений, где каждое отношение представлено тройкой: [лексическое значение – тип отношения – связанная лексема].

Для построения из такого корпуса отношений семантической сети необходимо определить,какое значение связанной лексемы соответствует такой тройке, т. е. произвестидизамбигуацию лексемы в контексте этого отношения.84Глава 4. Дизамбигуация тезаурусных отношенийНастоящая глава посвящена следующему шагу построения электронноготезауруса: переходу от набора тезаурусных отношений, в которых участвуют лексемы, к набору тезаурусных отношений, связывающих между собой лексическиезначения. Как мы покажем ниже, такой переход является частным случаем задачидизамбигуации.Алгоритмическую часть решения задачи дизамбигуации как правило можноразделить на две большие части:– получение векторных представлений контекста омонимичной лексемы и еёлексических значений,– применение алгоритма классификации для выбора одного из лексических значений.Для получения векторных представлений контекста в рамках настоящегоисследования были выбраны дистрибутивные семантические модели, являющиеся на момент написания текста наиболее широко применяемым инструментомдля разрешения неоднозначности.Наиболее широко применяемые векторные семантические модели, такиекак word2vec [85], задают векторное представление для лексемы.

При этом цельюприменении их для решения задачи дизамбигуации является получение векторного представления лексического значения в заданном контексте. Таким образомодин из вопросов, который возникает при применении векторной семантическоймодели для разрешения неоднозначности на материале тезауруса состоит в том,каким образом перейти от векторного представления лексем к векторному представлению значений или векторному представлению толкований.Вопрос о том, каким образом строится векторное представление контекстав различных системах автоматического разрешения неоднозначности обсуждается в разделе 4.2. Отдельное внимание уделяется в этом разделе новому классувекторных моделей, которые позволяют получать не общие вектора для лексемывне зависимости от ее возможных значений, а строить вектора, соответствующиеодному значению лексемы.Известно несколько классов алгоритмов классификации, применяемых длярешения задач дизамбигуации.

Краткий их обзор приведён в разделе 4.2. Дизамбигуация на материала словарных толкований значительно отличается от такой85же задачи на классическом корпусе двумя свойствами, которые влияют на выборметодов дизамбигуации:– Во-первых, применимый контекст у омонимичной лексемы строго ограничен.Очевидно, в качестве контекста лексемы имеет смысл рассматривать лишь еётолкование и относящиеся к её толкованию части словарной статьи. Текст, состоящий из составленных вместе толкований, невозможно считать текстом одной темы.

В то же время одна из основных трудностей корпусных методов дизамбигуации состоит в том, чтобы выбрать максимально большой контекст словоупотребления, остающийся в рамках одной темы. Кроме того, контекст словоупотребления в словарном толковании включает, как правило, только именную группу. В силу этого при выборе алгоритмов классификации в настоящейработе остались за рамками рассмотрения алгоритмы, получающие значительное преимущество от расширения контекста.– Во-вторых, на материале толкового словаря многие задачи дизамбигуации одинаковой лексемы имеют более сходные контексты.

Причиной этому служит использование лексикографами ограниченного набора шаблонов для составлениятекста толкований, описанное в главе 2. Наличие сходных контекстов может какусложнять решение задачи дизамбигуации за счёт того, что меньшая часть контекста влияет на выбор лексического значения, так и упрощать её, если дизамбигуатор может противопоставлять между собой разные толкования или группировать сходные. В настоящей работе поднимается вопрос о том, возможноли использовать информацию о сходных задачах дизамбигуации.

В качествепилотного исследования этого вопроса в работе сравниваются методы классификации, которые решают каждую задачу дизамбигуации независимо, с методами, которые решают одновременно набор сходных задач.В настоящей главе описывается серия экспериментов, которая ставит своей целью перебор ограниченного набора методов дизамбигуации, их параметров,и способов представления лингвистических признаков для дизамбигуации с последующим выделением тех из них, которые оказывают наибольшее влияние напроцесс дизамбигуации. В работе исследуется влияние следующих параметровметода:– выбор модели векторного представления контекста: алгоритм Леска, word2vecили AdaGram,– выбор способа перехода от векторного представления каждой лексемы толкования к векторному представлению значения выбранной лексемы,86– выбор метрики сравнения векторов,– выбор методики поиска значения гиперонима среди нескольких методик, использующих информацию о всех найденных гипонимах заданного гиперонима, либо использующих только информацию о текущем гипониме и значенияхгиперонима.Глава организована следующим образом:Раздел 4.1 посвящен мотивировке и уточнению решаемой задачи.

В разделе 4.2 обсуждаются современные методы разрешения неоднозначности и обосновывается выбор методов для проведения серии экспериментов по дизамбигуации. Раздел описывает мотивацию и завершается описанием выбора методов длянастоящей главы. В разделе 4.3 описываются материалы исследования, к которым относятся: корпус омонимичных отношений, полученный в главе 3, корпусадля построения векторных семантических моделей. Ключевым материалом дляисследования методов дизамбигуации является эталонный корпус.

Его созданиюуделяется особое внимание. Решение задачи, поставленной в настоящей главе,требует специальной подготовки входных данных, массового перебора дизамбигуаторов, применения их к тестовым данным и анализа полученных результатов.В разделе 4.4 описана схема эксперимента, позволяющая провести такой перебор.Результаты эксперимента приведены в разделе 4.5.

В разделе 4.6 анализируютсяошибки различных алгоритмов, обсуждается ограничения их применимости. Вразделе 4.7 перечисляются основные результаты работы.Описанные в настоящей главе эксперименты опубликованы [34; 35].4.1Задача дизамбигуации в контексте извлечения гипо-гиперонимическихотношений из словаряРезультатом этапа извлечения тезаурусных отношений из толкований, описанного в главе 3, является множество троек: [лексическое значение – тип отношения – связанная лексема].

В этой паре отношение устанавливается между сущностями разного типа: отдельным лексическим значением и лексемой. При этом лексема извлечена из толкования связанного с ней лексического значения. Для того,чтобы построить отношение между двумя лексическими значениями необходимо87определить, какое значение лексемы использовано в толковании. Это показывает,что такая задача является частным случаем общей задачи дизамбигуации.С точки зрения задачи построения семантической сети, в корпусе уже имеется информация о тезаурусном отношении между двумя лексемами и о значениилексемы для одного из участников отношения. Для построения семантической сети необходимо восстановить такую информацию и для второго участника отношения.Поставленная задача требует ряд уточнений.

В настоящей главе мы рассматриваем только гипо-гиперонимические отношения и только случай, когда задачудизамбигуации нужно решить для гиперонима. Гипо-гиперонимические отношения являются наиболее значимой частью семантической сети, и такое упрощениесоответствует поставленной в главе 1 задаче.В разделе 4.2 приводится описание известных методов дизамбигуации. Привыборе методов дизамбигуации необходимо учитывать, что решаемая в настоящей главе задача дизамбигуации имеет особенности:– дизамбигуируется значение лексемы с учетом ее вхождения в гиперонимическое отношение,– контекстом, из которого можно извлекать признаки для разрешения многозначности, является толкование.Кроме того, лексическое значение в корпусе не представлено синсетом, чтобыло бы более удобным источником данных для создания электронного тезауруса.

Характеристики

Список файлов диссертации

Методы автоматического выделения тезаурусных отношений на основе словарных толкований
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6392
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее