Главная » Просмотр файлов » Диссертация

Диссертация (1137511), страница 24

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 24 страницаДиссертация (1137511) страница 242019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 24)

Отношения, полученные применением корректных алгоритмов к некорректным входным данным, были проигнорированы при измеренииточности различных алгоритмов, однако остаются в полученных в результате работы гиперонимических цепочках. Исследование вопроса о том, в каких случаяхалгоритм классификации должен вовсе отказаться от принятия решения, можетспособствовать улучшению получаемых в результате данных.Полезно заметить, что дизамбигуация гипо-гиперонимических отношенийне является произвольно выбранным примером применения универсальных подходов.

Например, для дизамбигуации отношений синонимии предложенные подходы могут показывать значительно более низкие результаты, так как контексты,в которых в словаре описаны синонимические наборы, содержат слишком малослов. Одновременно для объединения синсетов доступен куда более подходящийисточник данных: уже построенные гипо-гиперонимические цепочки. Само положение какого-либо значения слова в окружении известных для него гипонимови гиперонимов является гораздо более значимым источником контекстной информации.

В то же время мы предполагаем, что для меронимо-холонимических отношений между существительными те же методы, которые приводятся в настоящейглаве, должны показать сходные результаты, хотя и не подкрепляем в это предположение экспериментальной проверкой.1224.7ЗаключениеВ настоящей главе проведено сравнение нескольких методов разрешениянеоднозначности на корпусе тезаурусных отношений, полученном в главе 3.В результате работы, описанной в настоящей главе, получен набор из 42556гипо-гиперонимических пар с разрешённой неоднозначностью.

Полученный массив данных легко представляется в виде гипо-гиперонимических цепочек, наборов ко-гипонимов или вовсе в виде графа. Его можно применять для решения задач автоматической обработки текстов: в качестве меры семантической близостии в качестве инструмента для обобщения. Однако делать это следует с осторожностью, так как точность полученных данных недостаточна для доверия длиннымгиперонимическим цепочкам.123ЗаключениеПредставленная работа преследует общую цель изучения методов частичной автоматизации труда экспертов при создании электронного тезауруса. Основное внимание в работе уделяется части тезауруса, состоящей из лексических значений существительных, связанных отношениями гипо-гиперонимии.Работа базируется на подробном исследовании существующих электронных тезаурусов и методов их построения, проведённом в главе 1. На основанииобзора методов в работе выбран общий подход к построению тезауруса на основе извлечения отношений из толкового словаря.

Основными этапами построениятезауруса в рамках этого подхода являются:– извлечение омонимичных тезаурусных отношений из цифрового представления толкового словаря;– дизамбигуация омонимичных отношений;– построение синсетов, объединение отношений в связный граф;– верификация, ручное исправление ошибок, и дальнейшее пополнение тезауруса.Из описанного подхода в фокусе работы находятся первые два шага: извлечениеомонимичных отношений и их дизамбигуация.Основным источником информации для построения тезауруса в работе выбраны толковые словари. В главе 2 исследуются свойства, которыми обладаюттолковые словари в качестве корпуса на ограниченном подмножестве естественного языка. Для этого рассматриваются классификации толковых словарей, описываются возможные характеристики словарных статей.

Ключевую роль для последующей работы играет исследование типологий словарных толкований; именно оно ложится в основу последующих экспериментов по извлечению отношений.Результатами главы являются: описание требований к толковому словарю для использования в работах, аналогичных описываемой; и выбор толкового словаря,используемого в качестве основного материала для дальнейшей работы.Глава 3 описывает основную часть исследования: извлечение отношений изсловарных толкований. В главе приведён обзор существующих методов извлечения отношений и их свойств как в применении к толковым словарям, так и к традиционным корпусам. Важную роль в главе занимает описание подготовки толкового словаря для использования в качестве корпуса толкований.

В главе описано124два метода извлечения отношений: пилотный метод для определения нижнего порога допустимой точности метода и основной метод. В качестве основного предложен новый метод извлечения, ранее не описанный в литературе. Предложенныйметод отталкивается от широко применяемого метода лексико-грамматическихшаблонов и преследует цели: ускорить составление шаблонов и увеличить точность извлечения. Предложенный метод состоит из двух шагов: кластеризациятолкований и извлечение из них отношений при помощи лексико-грамматическихшаблонов. Предложенный для кластеризации толкований тип признаков: лексикограмматические триграммы — также почти не встречается в литературе.

В главеописана серия экспериментов, которая показывает применимость предложенныхметодов для извлечения отношений. Практическим результатом, полученным входе экспериментов, описанных в главе, является корпус тезаурусных отношениймежду существительными, связанных отношениями:– гипо-гиперонимия,– меро-холонимия,– синонимия,– домен-экземпляр,Указанный тезаурусных отношений омонимичен: каждый тип отношенийв нём представлен набором пар [лексическое значение – лексема]. Для построения из него семантической сети необходимо преобразовать его в корпус, в котором отношения представлены наборами пар [лексическое значение – лексическоезначение], то есть дизамбигуировать. Этому преобразованию посвящена глава 4.Отправной точкой главы является подробное описание выбранной для решения внастоящей главе задачи.

Для исследования выбрана задача широкого автоматического перебора возможных сочетаний методов, применимых на различных этапахдизамбигуации. В рамках описываемых в главе экспериментов принято решениеограничиться только гипо-гиперонимическими отношениями. В главе проводится обзор методов дизамбигуации и выбор методов, исследуемых в настоящей работе.

Большой частью описываемого исследования являлась разработка инструмента для аннотации и организация процесса аннотации корпуса омонимичныхотношений, описанию этого уделено соответствующее внимание в тексте главы.Ключевой частью главы является описание постановки и результатов эксперимента.Практическим результатом работы является создание и описание фрагментов семантической сети, содержащих лексические значения существительных125связанных отношением гипо-гиперонимии. Представленный результат требуетпродолжения работы для объединения фрагментов семантической сети в единуюкомпоненту связности.

На данный момент это представляется разумным делатьлишь с помощью ручного труда лексикографа и осталось за пределами представленной работы.Другим важным открытым практическим вопросом является включение впостроенные фрагменты семантической сети других типов отношений, присутствующих в омонимичном корпусе. Интересной темой для исследования являетсясравнение различных методов дизамбигуации в применении к различным типамотношений. Наиболее интересным её аспектом является поиск особенных признаков, позволяющим значительно улучшить результаты по сравнению с корпусными методами дизамбигуации: так, например, для Задача пополнения синсетови отождествления синонимичных фрагментов полученной семантической сети.Представленные цепочки возможно использовать в качестве ограниченного инструмента для определения семантической близости и без дополнительнойобработки: но в этом случае ответ о расстояниями между двумя понятиями возможно получить лишь для семантически близких лексем.В то же время множество интересных подходов к задаче построения тезауруса осталось за рамками рассмотрения.

Все из описанных подходов либо требуют привлечения дополнительных лингвистических ресурсов, либо показываютнизкие результаты. Кажется возможным использовать в качестве такого ресурсафрагменты электронного тезауруса, являющиеся результатом работы. Интересной задачей является исследование возможности зацикливания процедуры создания тезауруса и получения улучшенного тезауруса за счёт привлечения толькочто полученного. Эту задачу предстоит решить в будущем. Одновременно с этимактивно развиваются подходы, основанные на использовании нейронных сетей ивекторных семантических моделей. Хотя на данный момент эти подходы не показывают достаточно высоких результатов и требуют значительных лингвистических ресурсов, их развитие и применение безусловно является интересным направлением для последующей работы.Все данные, полученные в результате работы, а также исходные тексты программ, использованных для получения данных, опубликованы также в электронном виде: http://web-corpora.net/wsgi3/thesaurus-relations/126Список литературы1.

Апресян В. Ю., Апресян Ю. Д., Бабаева Е. Э. [и др.]. Активный словарь русского языка. Т. 3. Москва, Санкт-Петербург : Общество с ограниченной ответственностью «Нестор-История», 2017. ISBN: 978-5-4469-1187-5.2. Апресян В. Ю., Апресян Ю. Д., Бабаева Е. Э. [и др.]. Проспект Активногословаря русского языка. Языки славянских культур М, 2010. ISBN: 978-59551-0452-2.3. Азарова ИВ, Синопальникова АА, Яворская МВ. Принципы построенияwordnet-тезауруса RussNet // Компьютерная лингвистика и интеллектуальные технологии: труды международной конференции Диалог / Под ред.ИМ Кобозева, АС Нариньяни, ВП Селегей.

2004. С. 542–547.4. Апресян Юрий Дереникович. Избранные труды: Интегральное описание языка и системная лексикография. Москва : Школа «Языки русской культуры»,1995. Т. 2 из Язык, семиотика, культура. ISBN: 978-5-88766-045-5.5. Герд Александр Сергеевич. Прикладная лингвистика. Санкт-Петербург : Издательство С.-Петербургского университета, 2005. ISBN: 978-5-288-03920-1.6. Даль Владимир Иванович. Толковый словарь живаго великорускаго языка.

Втипографии А. Семена, 1865. Т. 3.7. Волин БМ, Ушаков ДН. Толковый словарь русского языка. Москва, 1940.8. Щерба Лев Владимирович. Опыт общей теории лексикографии // Щерба ЛВЯзыковая система и речевая деятельность. 1974. С. 265–304.9. Шелов Сергей Дмитриевич. Термин. Терминологичность. Терминологические определения. Санкт-Петербург : Филологический факультет СанктПетербургского государственного университета, 2003. ISBN: 5-8465-0093-5.10. Ожегов СИ. О трех типах толковых словарей современного русского языка //Вопросы языкознания.

1952. Т. 2. С. 85–103.11. Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы // Казань: КГУ. 2006.12712. Иомдин Борис Леонидович, Лопухина Анастасия А., Носырев Григорий В. Ксозданию частотного словаря значений слов.

// Материалы ежегодной Международной конференции «Диалог». Бекасово, Россия : РГГУ, 2014. С. 199–212.13. Ожегов Сергей Иванович, Шведова Наталья Юльевна. Толковый словарьрусского языка. Москва : АЗЪ, 1995.14. Баранов О С. Идеографический словарь русского языка. ETS polyglossumdictionaries, 1995. ISBN: 5-86455-050-7.15. Шведова Н.

Характеристики

Список файлов диссертации

Методы автоматического выделения тезаурусных отношений на основе словарных толкований
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6367
Авторов
на СтудИзбе
310
Средний доход
с одного платного файла
Обучение Подробнее