Резюме (1137513), страница 2

Файл №1137513 Резюме (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 2 страницаРезюме (1137513) страница 22019-05-202019-05-20СтудИзба

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

Основные положения исследования и полученные результаты были представлены в следующих публикациях:• Алексеевский, Даниил Андреевич. «Применение контекстно-свободныхграмматик для извлечения онтологии из текстов коротких описаний статейбиологической тематики.» Информатика и её применения 10.1 (2016): 119128.,• IX Русская летняя школа по информационному поиску (RuSSIR 2015),Санкт-Петербург, Россия, 24–28 августа 2015.

Алексеевский Д.А., ТолдоваС.Ю. «Key noun phrases for biological fact extraction»,• The Eighth Global WordNet Conference 2016, Bucharest, Romania, January 27–30 2016. Alexeyevsky D. A., Temchenko A. V. «Word sense disambiguation inmonolingual dictionaries for building russian wordnet.»,• X Русская летняя школа по информационному поиску (RuSSIR 2016), Сара5тов, Россия, 22–26 августа 2016. Алексеевский Д.А., Трегубова М.А. «Semisupervised Relation Extraction from Monolingual Dictionary.»,• Alexeyevsky D. A.

Word sense disambiguation features for taxonomy extraction.Computación y Sistemas. Vol 23, No 3 (2018).Структура диссертации. Диссертация состоит из введения, четырёх глав, заключения и библиографии. Глава I «Построение электронных тезаурусов: мотивация, методы, источники» даёт определение основным необходимым терминам,кратко описывает историю создания тезаурусов и развития инструментов для ихсоздания, которая является мотивацией для настоящей работы, в главе ставитсязадача настоящей работы и описывается общая схема подхода. В главе II «Толковые словари как источник полуструктурированных данных» приведён краткийобзор доступных толковых словарей для русского языка, описана постановка ирешение задачи о создании корпуса толкований выбранного словаря.

В главе III«Выделение отношений» описаны эксперименты по извлечению из словарныхтолкований омонимичных тезаурусных отношений, т. е. таких тезаурусных отношений, в которых место лексических значений занимают омонимичные лексемы.Глава IV «Дизамбигуация тезаурусных отношений» посвящена двум экспериментам по автоматической дизамбигуации тезаурусных отношений. Наконец, в главе V «Заключение» подводятся итоги работы, кратко описываются её результатыи выдвигаются новые гипотезы для дальнейших исследований по теме работы.Полный объём диссертации составляет 142 страницы, включая 21 рисунок и 14таблиц. Список литературы содержит 120 наименований.Основное содержание работы***В главе I «Построение электронных тезаурусов: мотивация, методы, источники» приводится описание всех необходимых терминов, выдвигается постановкапроблемы, предметная область всей работы: тезаурусы, тезаурусные отношения,электронные тезаурусы, области их применения, методы построения; выдвигается постановка задачи, и описывается общая схема работы.6В работе под термином «тезаурус» понимается лексический справочник, в котором входом является не лексема, а смысл, и смыслы сгруппированы по схожести.

Этот определение термина соответствует англоязычной традиции именования. В главе приводится краткое описание истории термина, начиная с тезаурусаРоже и предшествующих ему античных идеографических словарей, и приведёнкраткий обзор основных применений классических тезаурусов. В то же время,работа посвящена не классическим тезаурусам, как таковым, а электронным тезаурусам, которые, хотя и являются развитием классических тезаурусов, представляют совершенно самостоятельный объект.Толчок к развитию интереса к электронным тезаурусам дал Princeton WordNet(PWN), который во многих источниках называется тезаурусом, однако сами авторы скромно именуют его лексической базой данных.

В тексте дано краткое описание PWN, истории его разработки, его архитектуре. Главными понятиями дляPWN явлюется синсет — множество синонимичных слов или словосочетаний, исвязь между двумя синсетами.PWN оказался важным инструментом для автоматической обработки текстовна естественных языках. В работе подчёркивается важность этого инструментадля ряда направлений автоматической обработки текстов на естественных языка.

В качестве иллюстрации приведены несколько работ по обработке текстов, вкоторых привлечение WordNet как семантического ресурса приводило к значимому улучшению результатов, либо и вовсе невозможно без такого ресурса. Примеры задач относятся к областям: семантической дизамбигуации, информационногопоиска, тематической классификации текстов, машинного перевода, построениядиалоговых систем, обнаружения перефразирований, автоматического реферирования, определения логической связанности двух предложений, автоматическойгенерации кроссвордов и др.Вслед за Princeton WordNet были созданы аналогичные тезаурусы для многих языков.

Особый интерес как для исследователей языка и лексической типологии, так и для прикладных задач, таких, как машинный перевод, представляетновый вид ресурсов: электронный тезаурус, для синсетов которого указаны синонимичные синсеты PWN. Вслед за появлением нескольких таких ресурсов, начали появляться комитеты, координирующие развитие таких ресурсов. Такимистали EuroWordNet, организующий взаимосвязь тезаурусов для языков Европы,7CWN, способствующий становлению тезаурусов сино-тибетских и дальневосточных языков, GWN и UWN, стремящиеся объединить все опубликованные электронные тезаурусы.В литературе несколько подходов к созданию аналогичных тезаурусов. В работе приводится описание таких подходов и указываются примеры тезаурусов,построенных с применением каждого из подходов, особый упор при этом делается на работы, связанные с русским языком.

Здесь лишь перечислим эти подходы:ручной труд лексикографов, «краудсорсинг», т.е. труд множества неквалифицированных аннотаторов, конвертация из существующих ресурсов, перевод тезаурусас другого языка, извлечение отношений из толкового словаря, извлечение отношений из не размеченного корпуса, извлечение отношений из векторных моделей. Каждый из описанных подходов являет собой некоторый компромисс междукачеством построенного тезауруса, свойствами характерных для него ошибок, инеобходимыми ресурсами для построения тезауруса.В работе показано, что извлечение тезаурусных отношений из корпуса определений из толкового словаря является одним из наиболее перспективных подходов для построения электронных тезаурусов, позволяющих строить большуючасть тезауруса с небольшим количеством ошибок применяя ограниченные ресурсы экспертов.

На материала русского языка исследования в этом направлениилишь начаты.Цель настоящей работы в том, чтобы разработать метод, который позволяет получить качественный корпус тезаурусных отношений, который может бытьположен в основу тезауруса.

Дополнительно автор исследует вопрос о том, насколько малых ресурсов как экспертных, так и электронных, достаточно для получения приемлемого результата. Создание инструмента, позволяющего создавать корпус тезаурусных отношений, обладая ограниченными ресурсами, позволит значительно расширить множество языков, для которых в свободном доступепредставлены электронные тезаурусы. Выбранный метод позволяет исследоватьв типологию организации таксономических отношений между основными понятиями у носителей разных языков.Для настоящей работы выбран подход из следующих шагов:• подготовка корпуса толкований,8• извлечение из толкований троек «смысл–отношение–слово», связывающихзаданный смысл заданным тезаурусным отношением с заданным словом,• дизамбигуация извлечённых слов, т.е.

автоматический подбор толкованиядля извлечённого слова.Результатом такого подхода являются цепочки смыслов слов, связанных тезаурусными отношениями. Для использования в качестве основы тезауруса такиецепочки требуют дополнительной проверки, объединения синонимов и объединения в единое дерево смыслов. Важно отметить, что несмотря на необходимостьдополнительной обработки такой материал значительно уменьшает количествотруда эксперта, необходимое для создания полноценного тезауруса. Кроме того,такие цепочки представляют ценность и как самостоятельный лингвистическийресурс, так как они применимы для многих целей, для которых используется полноценный электронный тезаурус. Наконец, этот ресурс применим для верификации и пополнения существующих тезаурусов.***В главе II «Толковые словари как источник полуструктурированных данных» приведён краткий обзор доступных толковых словарей для русского языка, описанапостановка и решение задачи о создании корпуса толкований выбранного словаря.В главе приведена кратко история развития российской лексикографии и приведено несколько примеров европейских лексикографических ресурсов и тенденций, интересных с точки зрения настоящей работы.

По мере развития лексикографии однородность изложения и структуры толковых словарей возрастала. С точкизрения русскоязычной лексикографии значимыми примерами можно назвать такие толковые словари: Словарь Академии Российской, толковый словарь живоговеликого русского языка В. И. Даля, толковый словарь С. И. Ожегова.

Некоторые требования новейшей лексикографии можно проиллюстрировать лишь иноязычными толковыми словарями. Например, словарь LDOCEстрого определяетминимальный набор слов, используемых в толкованиях, нумерует их смыслы иприписывает словам в толковании индексы, указывающие на номер смысла. Новейшая лексикография требует от словарей наличие электронного представления9и отделения оформления словаря от смыслового назначения его разметки. Удовлетворяющие этим требованиям словари называют машиночитаемыми.

Характеристики

Тип файла

PDF-файл

Размер

169,73 Kb

Материал

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-avtomaticheskogo-vydelenija-tezaurusnyh-otnoshenij-na-osnove-slovarnyh-tolkovanij.rar

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.