Диссертация (1137511), страница 4

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 4 страницаДиссертация (1137511) страница 42019-05-202019-05-20СтудИзба

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 4)

Он является гипонимом синсета car, auto, automobile, machine,motorcar (a motor vehicle with four wheels; usually propelled by an internal combustionengine), для которого задан мероним roof (protective covering on top of a motorvehicle). В то же время для синсета jeep, landrover (a car suitable for travelingover rough terrain), указано только одно отношение: его гиперонимом является car,auto, automobile, machine, motorcar. Таким образом, пользователь WordNet не может с уверенностью утверждать о меронимо-холонимических отношениях синсета, гипероним которого состоит в меронимо-холонимических отношениях с другим синсетом.Несмотря на описанные трудности, PWN оказался важным инструментомдля автоматической обработки текстов на естественных языках, что будет проиллюстрировано ниже. Создание и успешное использование PWN в системах АОТвдохновило многие коллективы и многих авторов на создание аналогичных семантических сетей для разных языков.Были созданы ассоциации, поставившие своей задачей создание ворднетовдля разных семейств языков.

В частности, был создан Global WordNet Association,16который поставил своей целью отслеживать и способствовать созданию подобных PWN электронных тезаурусов для различных языков. Подобными PWN былиназваны семантические сети, обладающие хотя бы следующими тремя свойствами:– описаны узлы хотя бы для имён существительных,– среди связей существует хотя бы гипо-гиперонимическое отношение,– для многих узлов установлено соответствие с узлом PWN или другой семантической сети, для которого установлено соответствие с узлом PWN.Следует отметить, что данными свойствами обладают не только обсуждаемые вработе тезаурусы, но и такие онтологии верхнего уровня как SUMO или такиекраудсорсинговые ресурсы как Wikipedia.1.1.4Семантические сети для языков мираОсобый интерес как для исследователей языка и лексической типологии,так и для прикладных задач, таких, как машинный перевод, представляют тезаурусы, для лексических значений которых установлено соответствие с синсетами WordNet [46; 101].

Вслед за появлением нескольких таких ресурсов, началипоявляться комитеты, координирующие развитие таких ресурсов. Такими сталиEuroWordNet [110], организующий взаимосвязь тезаурусов для языков Европы,MLSN [51], CWN [66], курирующий развитие тезаурусов сино-тибетских и дальневосточных языков, BalkaNet [104], проект UWN [52], стремящийся объединитьвсе опубликованные электронные тезаурусы.Проект EuroWordNet, впервые опубликованный в 1998 году [109], ставитсвоей целью создание выровненных тезаурусов для всех европейских языков.Проект включает в себя тезаурусы для голландского, итальянского, испанского,немецкого, французского, чешского, эстонского и английского языков.Вслед за EuroWordNet в 2004 был создан проект BalkaNet [104], включающий в себя болгарский, греческий, румынский, сербский и турецкий языки.171.1.5Русскоязычные электронные тезаурусыПервые попытки создать русскоязычный тезаурус, аналогичный PWN,предприняла группа Азаровой [3; 39] в проекте RussNet3 .

Группа использовала «объединяющий подход»: первым шагом лексикографы создают ядро базовых концептов совмещая частотные лексемы русского языка и так называемое«ядро национального ментального лексикона», а затем устанавливают связи сEuroWordNet. На момент написания текста на сайте RussNet говорится о существовании 5500 синонимических групп, однако в свободном доступе они не представлены.Коллектив авторов [40] опубликовал сведения о том, что им успешно удалось создать полноценный WordNet-образный тезаурус, содержащий 145 000 синонимических наборов. Проект основан на гибридном подходе, включающем использование переводных и толковых словарей и ручной труд лексикографов. Нужно заметить, что сами полученные данные тезауруса не опубликованы и такимобразом говорить о том, что в доступе учёных имеется тезаурус, аналогичныйWordNet, не представляется возможным.Проект WordNet2 [60] основан на полностью автоматическом переводеPWN на русский язык с использованием электронных словарей.

Данный ресурсимеет целый ряд недостатков. То, что он получен автоматически, само по себевлечет множество различных ошибок. В частности, он содержит ряд не вполнеадекватных переводов, например корневой синсет «entity» переведён как «бытие». Кроме того он содержит ошибочные связи между лексемами, поскольку неучитывает полисемию. Например, тезаурус содержит следующую гиперонимическую цепочку: «пища, питание → твердое тело → вещество».

При этом значенияполисемичной лексемы в одном языке не соответствуют значениям ее переводного эквивалента в другом.Проект РуТез (RuThes, [81]) посвящён созданию лингвистическимотивированной онтологии и потому значительно отличается от WordNetподобных тезаурусов. Проект был ориентирован на создание лингвистическойонтологии для применения в системах АОТ и, согласно разработчикам [81],совмещает свойства сразу трех типов ресурсов: информационно-поисковыхтезаурусов, ресурсов типа WordNet, а также формальных онтологий. Единицами3 http://project.phil.spbu.ru/RussNet/18этого ресурса являются термины различных предметных областей, включаямногословные термины. Синсеты включают общепринятые в информационнопоисковых тезаурусах синонимы, например, сокращения (ср.

«автозаправочнаястанция АЗС»). При выделении отношений учитываются разные типы релевантных для информационного поиска отношений, в частности, различныетипы отношений онтологической зависимости (например, «пианино–пианист»).Авторы РуТез выделяют в качестве понятийных единиц значения реально существующих языковых единиц, не объединяя в одну единицу похожие значения,если для каждого из них существует свой синоним. В основе ресурса лежитлогико-терминологическая иерархия понятий; используемые в нем отношенияимеют формальные определения и формальные свойства. Принципы выделения синсетов несколько отличаются от принципов PWN, авторы РуТез вводятпонятие онтологических синонимов.Проект YARN основан на коллективном составлении тезауруса силамиочень большого числа непрофессиональных аннотаторов, т. н. подход «краудсорсинг» [105].

На момент написания текста результат работы проекта насчитывалболее 46 500 синсетов, включающих более 119 500 лексем, но не включает ниодной связи между синсетами.Таким образом, при разработке тезаурусов актуальными являются следующие вопросы:– между какими единицами устанавливаются тезаурусные отношения;– исходя из каких принципов задается набор единиц, между которыминеобходимо установить отношения;– каков набор отношенийДля данной работы существенными являются следующие принципы, принятые в вышеописанных ресурсах.

Входами тезауруса являются отдельные лексические значения. Это позволяет при автоматизации процедуры составлениятезауруса опираться на лексические значения в толковых словарях. Тезаурусдолжен представлять иерархию понятий, что соответствует тому, что в центревнимания настоящего исследования преимущественно методы извлечения гипогиперонимических отношений.191.1.6Применение семантических сетейPWN активно используется для решения самых разных задач АОТ. Ниже мыперечислим лишь несколько примеров его применения.Во многих задачах АОТ используются различные метрики семантическойблизости лексем, предложений или текстов. Одно из наиболее распространенныхприменений WordNet это расчет расстояния между значениями или лексемамив иерархии WordNet. Простейшим подходом к построению таких метрик является метрика, предложенная в [98], равная длине кратчайшего пути по связям вWordNet между синсетами, содержащими две заданных лексемы.В то же время, в качестве базы лексических значений, используемых для аннотации корпусов WordNet остаётся главным инструментом наравне с электронными онтологиями.Одним из ключевых применений для семантических сетей были и остаютсязадачи разрешения анафоры, корефененции, бриджинга, см.

[84].В качестве метрики близости WordNet используется и в других задачах, таких как извлечение фактов или отношений [77].При наличии семантических сетей для двух языков, между которыми установлено соответствие на уровне синсетов, становится возможным их применениедля машинного перевода [32].Ещё одно полезное свойство WordNet состоит в возможности заменять слово на обобщающее и, наоборот, определять значимость данного слова. Наряду сопределением значимости предложения это свойство используется для автоматического реферирования [43].Ресурсы, предоставляющие структурированные представления семантикипредложения являются одним из ключевых для генерации текста, и, в особенности, для генерации текста в диалоговых системах [93].

Как правило, структурированные представления используют в качестве способа представления семантических единиц семантическую сеть: тезаурус или онтологию.201.1.7Постановка задачиИтак, как было показано выше, электронный тезаурус является одним изважнейших инструментов, используемых при автоматической обработке текста.В последние годы появились несколько электронных тезаурусов для русского языка, применимых для решения задач АОТ.

Несмотря на это задача построения электронных тезаурусов остаётся важной:– Большой интерес для АОТ представляет обработка не только корпусов собщей лексикой, но и специальных корпусов. При этом электронные тезаурусы на момент написания настоящего текста существуют лишь дляобщей лексики. Таким образом, задача упрощения составления электронных тезаурусов для специальной лексики представляет интерес. На примере русского языка нетрудно перечислить множество качественных толковых словарей различных предметных областей, и это даёт основанияполагать, что для задачи построения таких тезаурусов возможно найтирешение, требующее ограниченного количества усилий экспертов.– Как было показано выше, для большинства современных языков электронных тезаурусов не создано. В то же время для некоторых из них ужесозданы другие структурированные лексикографические ресурсы, такиекак толковые словари, использование которых позволяет упростить создание электронного тезауруса.

Характеристики

Тип файла

PDF-файл

Размер

1,14 Mb

Материал

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-avtomaticheskogo-vydelenija-tezaurusnyh-otnoshenij-na-osnove-slovarnyh-tolkovanij.rar

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.