Диссертация (1137511), страница 3
Текст из файла (страница 3)
Основные типы тезаурусовВажным источником информации об организации лексического составаязыка являются различные лексикографические ресурсы. Среди них выделяется11особый класс ресурсов, которые не просто отражают семантические свойства отдельных лексем (их толкования, переводные эквиваленты и т. п.), но и отражаютотношения между понятиями, которые эти лексемы обозначают, т. е.
отображаютструктурированные знания о мире. К таким ресурсам можно отнести предметные указатели, глоссарии (списки терминов с пояснениями к ним на естественном языке), терминологические словари, рубрикаторы, контролируемые словари, которые представляют собой конечные списки терминов, информационнопоисковые тезаурусы для отдельных предметных областей (таксономия таких ресурсов приведена, в частности, в [11]).
Ресурсы, отражающие более общие знанияо мире, это различные лексико-семантические базы данных, семантические словари, словари ассоциаций, идеографические словари и тезаурусы, а также специальные лингвистически-ориентированные онтологии.Лексические значения в таких ресурсах упорядочены не по алфавиту, а, содной стороны, в соответствии с некоторой онтологической классификацией объектов действительности и событий/явлений, с другой, — с точки зрения семантических отношений между языковыми единицами, отражающих логические связимежду концептами.
Подробное обсуждение соотношения формально-логическойиерархии между концептами и информации о семантических отношениях междуязыковыми единицами обсуждается в [26]. В. В. Морковкин [27] отмечает необходимость такой книги, «которая, предоставив в наше распоряжение всю совокупность слов, объединенных той или иной идеей, облегчила бы активное владениеязыком (идеографический словарь)».
В зависимости от того, какая именно информация содержится в ресурсах обсуждаемого типа, К. Марелло [82] выделяет тривида тезаурусов:1. кумулятивные; в них лексемы группируются, однако, не приводятся толкования;2. дефинитивные; для каждой лексемы из группы приводится толкование;3. дву- и многоязычные тезаурусы для путешественников.Значимыми для уточнения понятия тезаурус является работа [73] (см. также [26], где приводится подробный обзор различных тезаурусов и их организации). Согласно этой работе можно предложить следующую классификацию лексикографических ресурсов, по отношению к которым в литературе употребляетсятермин «тезаурус»:121.
идеографические словари, где лексика организована по тематическомупринципу, что облегчает задачу подбора близких по смыслу слов принаписании текстов;2. информационно-поисковые тезаурусы, описывающие отношения междутерминами некоторой узкой предметной области, что обеспечивает болееэффективный информационный поиск;3. лингвистические ресурсы типа WordNet, в которых отношения междулексическими значениями слов в естественном языке представлены в виде иерархической структуры;4.
ассоциативные словари, где лексемы сгруппированы либо в соответствии с психологическими ассоциациями, возникающие у людей, либов соответствии с устойчивой совместной встречаемостью лексем в корпусах.Общим для всех этих ресурсов является то, что лексемы в них объединеныпо близости значений.
Такая организация позволяет пользователю словаря подбирать лексику по её значению исходя из понятного ему контекста, что помогаетизбегать неправильного использования лексем.Таким образом, здесь и далее под тезаурусом мы будем понимать такой словарь, в котором определяемой единицей является семантическое поле и материалпредставлен в ономасиологическом порядке, т. е. порядок изложения определяется не алфавитом, а семантической близостью.
Следует уточнить, что ресурсытипа 2 и 4 в настоящей работе не рассматриваются.Одним из первых идеографических словарей, получивших широкую известность в Европе, является тезаурус Роже [99]. Лексемы в нем сгруппированы по близости значений в категории.
Такая организация позволила использоватьтезаурус для подбора синонимов, провести первые эксперименты по использованию сведений о семантической близости лексем в информационном поиске. Однако использование тезауруса Роже затруднено тем, что в нем в одну категориюпопадают лексемы, находящиеся в различных семантических отношениях, конкретные отношения не указаны. Кроме того, одна и та же лексема может попадать в разные рубрики из-за своей многозначности, при этом в тезаурусе никак неотражено, какое именно значение лексемы соответствует данной тематическойрубрики. Для немецкого языка одним из известных идеографических словарейявляется словарь Ф.
Дорнзайффа (восьмое переиздание словаря в 2004г.) [55].В словаре представлено 20 разделов, которые внутри поделены на тематические13группы. Словарная статья задается понятием, с которым семантически соотносятся лексические единицы, помещенные в данную словарную статью. Что касаетсярусского языка, то одним из первых словарей можно назвать «Русский семантический словарь» Ю. Н. Караулова и др. (ответственный редактор С. Г.
Бархударов [22]) 1983 г. издания. Словарь представляет собой шеститомное издание (издано 4 тома, 1998–2007). Всего он содержит 300 000 лексических единиц (значений), которые сгруппированы по лексико-семантическим классам. Следует такжеупомянуть идеографический словарь русского языка под ред. О. С. Баранова 1995года [14], словари под ред. Л. Г. Бабенко: Большой толковый словарь русских существительных [16], Большой толковый словарь русских глаголов [17], Русскийсемантический словарь под ред. Н.
Ю. Шведовой [15] (1998–2007).Особую роль среди ресурсов, в которых отражена тематическая группировка лексем, играют тезаурусы и специализированные словари, в которых указываются семантические отношения между лексемами, такие как синонимия, гипогиперонимия и др. Существенным шагом стало создание электронных тезаурусов,в которых лексические значения организованы в некоторую иерархию. Появлениетезаурусов такого типа дало толчок большому количеству исследований в области АОТ по использованию тезаурусной информации в различных задачах автоматической обработки текста, таких как расширение запросов в информационномпоиске, автоматическая рубрикация, извлечение фактов и др (см., например, [25],а также [26]).В силу того, что в центре внимания настоящей работы находится задача извлечения тезаурусных отношений, организация таких ресурсов может служитьэталоном для решения данной задачи.Первым таким ресурсом был компьютерный тезаурус WordNet ( [58], подробнее см.
раздел 1.1.2). Следует также упомянуть РуТез — тезаурус русскогоязыка [81]1 , был создан Центром информационных исследований как инструментдля автоматического индексирования; разрабатывается с 1997 года по настоящеевремя, он содержит 45 тысяч лексических значений, 107 тысяч лексем и выражений, 177 тысяч отношений). На основе данного ресурса был создан RuWordNet2 .Ниже рассмотрим организацию ресурсов обсуждаемого типа более подробно.1 http://www.labinform.ru/pub/ruthes/index.htm2 http://www.labinform.ru/pub/ruwordnet/index.htm141.1.2Princeton WordNetВ 1984 году группа под руководством Дж.
Миллера в Принстонском университете приступила к созданию WordNet [86] — тезауруса, разрабатываемогополностью в электронном виде. Далее используется сокращение PWN (PrincetonWordNet). WordNet подпадает под используемое здесь определение тезауруса, однако сами авторы скромно именуют его лексической базой данных.
В 1985 PWNстал доступен в Интернете. Первоначально WordNet создавался как ресурс, относящийся к области психолингвистики.Важными для настоящей работы являются следующие принципы организации PWN:– семантические отношения устанавливаются не между лексемами (как вомногих идеографических словарях), а между лексическими значениями;– различным частям речи соответствуют различные наборы указываемыхсемантических отношений.Основным структурным элементом PWN является набор синонимов, соответствующих отдельному лексическому значению, или синсеты (synset). Почти все синсеты соответствуют понятиям, для которых в языке имеется однословное описание. Синсеты снабжены толкованиями. Лексемы в PWN организованы в 117 тысяч лексических значений, или синсетов, в нем представлено более 200 тысяч пар[лексема – значение].Основными семантическими отношениями для существительных вPWN являются отношения синонимии, антонимии, часть-целое и гипогиперонимические.
Центральными для данной работы являются родовидовыеотношения. Видовой синсет соответствуют лексическому значению-гипониму,родовой — гиперониму.1.1.3 Семантические сети и электронные тезаурусыСемантическая сеть — это способ формального представления знаний. Семантическая сеть является графом, в котором узлы являются семантическими полями, а рёбра описывают семантические связи.15Таким образом, WordNet является примером семантической сети.В настоящей работе мы будем использовать термин «электронный тезаурус», опирающийся в качестве прототипа на PWN. «Электронный тезаурус» —это семантическая сеть, в которой присутствуют гипо-гиперонимические отношения, причём в них участвуют почти все узлы сети.Princeton WordNet находится в промежуточном положении между идеографическим словарём (в англоязычной традиции тезаурусом) и электронной онтологией, что приводит к некоторым трудностям.Так, например, по-разному может быть отражена в нём ситуация, в которой про цепочку синсетов, связанных отношением гипо-гиперонимии, известно, что каждый из них состоит вдобавок в некотором меронимо-холонимическом(«часть–целое») отношении с одним и тем же синсетом.
В некоторых случаяхдля такой цепочки участие в меронимо-холонимическое отношение будет отмечено лишь для наиболее гиперонимичного синсета, в некоторых случаях для всехучаствующих синсетах. В некоторых случаях для синсета в толковании указано,что он не участвует в некоторой связи, в которой участвует его гипероним, ноформального средства для отображения таких случаев не предусмотрено.Для иллюстрации рассмотрим синсет roadster, runabout, two-seater (an openautomobile having a front seat and a rumble seat), который описывает автомобиль без крыши.