Диссертация (1137511), страница 3

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 3 страницаДиссертация (1137511) страница 32019-05-202019-05-20СтудИзба

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Основные типы тезаурусовВажным источником информации об организации лексического составаязыка являются различные лексикографические ресурсы. Среди них выделяется11особый класс ресурсов, которые не просто отражают семантические свойства отдельных лексем (их толкования, переводные эквиваленты и т. п.), но и отражаютотношения между понятиями, которые эти лексемы обозначают, т. е.

отображаютструктурированные знания о мире. К таким ресурсам можно отнести предметные указатели, глоссарии (списки терминов с пояснениями к ним на естественном языке), терминологические словари, рубрикаторы, контролируемые словари, которые представляют собой конечные списки терминов, информационнопоисковые тезаурусы для отдельных предметных областей (таксономия таких ресурсов приведена, в частности, в [11]).

Ресурсы, отражающие более общие знанияо мире, это различные лексико-семантические базы данных, семантические словари, словари ассоциаций, идеографические словари и тезаурусы, а также специальные лингвистически-ориентированные онтологии.Лексические значения в таких ресурсах упорядочены не по алфавиту, а, содной стороны, в соответствии с некоторой онтологической классификацией объектов действительности и событий/явлений, с другой, — с точки зрения семантических отношений между языковыми единицами, отражающих логические связимежду концептами.

Подробное обсуждение соотношения формально-логическойиерархии между концептами и информации о семантических отношениях междуязыковыми единицами обсуждается в [26]. В. В. Морковкин [27] отмечает необходимость такой книги, «которая, предоставив в наше распоряжение всю совокупность слов, объединенных той или иной идеей, облегчила бы активное владениеязыком (идеографический словарь)».

В зависимости от того, какая именно информация содержится в ресурсах обсуждаемого типа, К. Марелло [82] выделяет тривида тезаурусов:1. кумулятивные; в них лексемы группируются, однако, не приводятся толкования;2. дефинитивные; для каждой лексемы из группы приводится толкование;3. дву- и многоязычные тезаурусы для путешественников.Значимыми для уточнения понятия тезаурус является работа [73] (см. также [26], где приводится подробный обзор различных тезаурусов и их организации). Согласно этой работе можно предложить следующую классификацию лексикографических ресурсов, по отношению к которым в литературе употребляетсятермин «тезаурус»:121.

идеографические словари, где лексика организована по тематическомупринципу, что облегчает задачу подбора близких по смыслу слов принаписании текстов;2. информационно-поисковые тезаурусы, описывающие отношения междутерминами некоторой узкой предметной области, что обеспечивает болееэффективный информационный поиск;3. лингвистические ресурсы типа WordNet, в которых отношения междулексическими значениями слов в естественном языке представлены в виде иерархической структуры;4.

ассоциативные словари, где лексемы сгруппированы либо в соответствии с психологическими ассоциациями, возникающие у людей, либов соответствии с устойчивой совместной встречаемостью лексем в корпусах.Общим для всех этих ресурсов является то, что лексемы в них объединеныпо близости значений.

Такая организация позволяет пользователю словаря подбирать лексику по её значению исходя из понятного ему контекста, что помогаетизбегать неправильного использования лексем.Таким образом, здесь и далее под тезаурусом мы будем понимать такой словарь, в котором определяемой единицей является семантическое поле и материалпредставлен в ономасиологическом порядке, т. е. порядок изложения определяется не алфавитом, а семантической близостью.

Следует уточнить, что ресурсытипа 2 и 4 в настоящей работе не рассматриваются.Одним из первых идеографических словарей, получивших широкую известность в Европе, является тезаурус Роже [99]. Лексемы в нем сгруппированы по близости значений в категории.

Такая организация позволила использоватьтезаурус для подбора синонимов, провести первые эксперименты по использованию сведений о семантической близости лексем в информационном поиске. Однако использование тезауруса Роже затруднено тем, что в нем в одну категориюпопадают лексемы, находящиеся в различных семантических отношениях, конкретные отношения не указаны. Кроме того, одна и та же лексема может попадать в разные рубрики из-за своей многозначности, при этом в тезаурусе никак неотражено, какое именно значение лексемы соответствует данной тематическойрубрики. Для немецкого языка одним из известных идеографических словарейявляется словарь Ф.

Дорнзайффа (восьмое переиздание словаря в 2004г.) [55].В словаре представлено 20 разделов, которые внутри поделены на тематические13группы. Словарная статья задается понятием, с которым семантически соотносятся лексические единицы, помещенные в данную словарную статью. Что касаетсярусского языка, то одним из первых словарей можно назвать «Русский семантический словарь» Ю. Н. Караулова и др. (ответственный редактор С. Г.

Бархударов [22]) 1983 г. издания. Словарь представляет собой шеститомное издание (издано 4 тома, 1998–2007). Всего он содержит 300 000 лексических единиц (значений), которые сгруппированы по лексико-семантическим классам. Следует такжеупомянуть идеографический словарь русского языка под ред. О. С. Баранова 1995года [14], словари под ред. Л. Г. Бабенко: Большой толковый словарь русских существительных [16], Большой толковый словарь русских глаголов [17], Русскийсемантический словарь под ред. Н.

Ю. Шведовой [15] (1998–2007).Особую роль среди ресурсов, в которых отражена тематическая группировка лексем, играют тезаурусы и специализированные словари, в которых указываются семантические отношения между лексемами, такие как синонимия, гипогиперонимия и др. Существенным шагом стало создание электронных тезаурусов,в которых лексические значения организованы в некоторую иерархию. Появлениетезаурусов такого типа дало толчок большому количеству исследований в области АОТ по использованию тезаурусной информации в различных задачах автоматической обработки текста, таких как расширение запросов в информационномпоиске, автоматическая рубрикация, извлечение фактов и др (см., например, [25],а также [26]).В силу того, что в центре внимания настоящей работы находится задача извлечения тезаурусных отношений, организация таких ресурсов может служитьэталоном для решения данной задачи.Первым таким ресурсом был компьютерный тезаурус WordNet ( [58], подробнее см.

раздел 1.1.2). Следует также упомянуть РуТез — тезаурус русскогоязыка [81]1 , был создан Центром информационных исследований как инструментдля автоматического индексирования; разрабатывается с 1997 года по настоящеевремя, он содержит 45 тысяч лексических значений, 107 тысяч лексем и выражений, 177 тысяч отношений). На основе данного ресурса был создан RuWordNet2 .Ниже рассмотрим организацию ресурсов обсуждаемого типа более подробно.1 http://www.labinform.ru/pub/ruthes/index.htm2 http://www.labinform.ru/pub/ruwordnet/index.htm141.1.2Princeton WordNetВ 1984 году группа под руководством Дж.

Миллера в Принстонском университете приступила к созданию WordNet [86] — тезауруса, разрабатываемогополностью в электронном виде. Далее используется сокращение PWN (PrincetonWordNet). WordNet подпадает под используемое здесь определение тезауруса, однако сами авторы скромно именуют его лексической базой данных.

В 1985 PWNстал доступен в Интернете. Первоначально WordNet создавался как ресурс, относящийся к области психолингвистики.Важными для настоящей работы являются следующие принципы организации PWN:– семантические отношения устанавливаются не между лексемами (как вомногих идеографических словарях), а между лексическими значениями;– различным частям речи соответствуют различные наборы указываемыхсемантических отношений.Основным структурным элементом PWN является набор синонимов, соответствующих отдельному лексическому значению, или синсеты (synset). Почти все синсеты соответствуют понятиям, для которых в языке имеется однословное описание. Синсеты снабжены толкованиями. Лексемы в PWN организованы в 117 тысяч лексических значений, или синсетов, в нем представлено более 200 тысяч пар[лексема – значение].Основными семантическими отношениями для существительных вPWN являются отношения синонимии, антонимии, часть-целое и гипогиперонимические.

Центральными для данной работы являются родовидовыеотношения. Видовой синсет соответствуют лексическому значению-гипониму,родовой — гиперониму.1.1.3 Семантические сети и электронные тезаурусыСемантическая сеть — это способ формального представления знаний. Семантическая сеть является графом, в котором узлы являются семантическими полями, а рёбра описывают семантические связи.15Таким образом, WordNet является примером семантической сети.В настоящей работе мы будем использовать термин «электронный тезаурус», опирающийся в качестве прототипа на PWN. «Электронный тезаурус» —это семантическая сеть, в которой присутствуют гипо-гиперонимические отношения, причём в них участвуют почти все узлы сети.Princeton WordNet находится в промежуточном положении между идеографическим словарём (в англоязычной традиции тезаурусом) и электронной онтологией, что приводит к некоторым трудностям.Так, например, по-разному может быть отражена в нём ситуация, в которой про цепочку синсетов, связанных отношением гипо-гиперонимии, известно, что каждый из них состоит вдобавок в некотором меронимо-холонимическом(«часть–целое») отношении с одним и тем же синсетом.

В некоторых случаяхдля такой цепочки участие в меронимо-холонимическое отношение будет отмечено лишь для наиболее гиперонимичного синсета, в некоторых случаях для всехучаствующих синсетах. В некоторых случаях для синсета в толковании указано,что он не участвует в некоторой связи, в которой участвует его гипероним, ноформального средства для отображения таких случаев не предусмотрено.Для иллюстрации рассмотрим синсет roadster, runabout, two-seater (an openautomobile having a front seat and a rumble seat), который описывает автомобиль без крыши.

Характеристики

Тип файла

PDF-файл

Размер

1,14 Mb

Материал

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-avtomaticheskogo-vydelenija-tezaurusnyh-otnoshenij-na-osnove-slovarnyh-tolkovanij.rar

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.