Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 67
Текст из файла (страница 67)
Эти ресурсы характеризуютсяразными наборами отношений между своими единицами.В исходном наборе отношений Принстонского WordNet многие исследователиотмечали нехватку отношений, что проявлялось, например, в возникновении «тенниснойпроблемы» (см. п. 2.5.3.1). Сделанная впоследствии жесткая разметка синсетов WordNetобластями-доменами до некоторой степени смягчает, но не решает эту проблему.Такие отношения WordNet как часть-целое (мероним-холоним) описаны так, чтопозволяется одновременная принадлежность синсета-части многим синсетам-целым (см.п.
8.6.2.). Это означает, что прежде, чем использовать такого рода отношения дляавтоматического логического вывода, необходимо установить, о каком целом идет речь вданном контексте, что не всегда возможно.В большинстве информационно-поисковых тезаурусов используется оченьнебольшой набор отношений между дескрипторами: отношение ВЫШЕ-НИЖЕ иотношение АССОЦИАЦИИ.Как указывалось в разделе 1.2.2, отношение АССОЦИАЦИИ часторассматривается как проблемное отношение по следующим причинам:- по принципам установления это отношение является симметричным, а частообозначаемые им отношения явно не симметричны,- это отношения часто устанавливается субъективно,- с этим отношением возникают серьезные проблемы при использовании вавтоматических режимах расширения запроса, вывода рубрики и т.п.Поэтому в литературе имеется много предложений по замене отношенияАССОЦИАЦИИ на более подробные наборы отношений, что была реализовано в рядетезаурусов, например, медицинской тематики.В последнее время активно обсуждается вопрос о преобразовании существующихинформационно-поисковых тезаурусов в более формализованные онтологическиересурсы, с более подробной системой отношений, с возможностью логического вывода набазе аксиом, связанных с каждым отношением (см.
п.4.5.3).Однако, на наш взгляд, существуют серьезные проблемы на пути преобразованияинформационно-поискового тезауруса в такого рода онтологию и использование в248приложениях информационного поиска, поскольку при автоматическом анализе текстадалеко не всегда можно быть уверенным в том, что в тексте упомянуто именноопределенное отношение между сущностями, а это значит, что сложные онтологическиеформализмы, построенные на шатком базисе, не смогут работать эффективно.Таким образом, мы полагаем, что среди потенциального множества отношенийпонятия наиболее стабильно можно опираться на те отношения, которые не исчезают, неменяются в течение всего срока существования любого или подавляющего большинстваэкземпляров понятия (Loukachevitch, Dobrov, 2004а; Лукашевич, Добров, 2004b; Добров,Лукашевич, 2008).
Например, любой лес всегда состоит из деревьев.Наиболее известным типом отношения, которое выполняется для всехэкземпляров, является таксономическое отношение. Так, если С1 упомянуто в тексте, и С1является видом С2, это означает, что в тексте упомянуто и С2. Если данный текстрелевантен запросу о С1, то он будет релевантен и запросу о С2.В условиях невозможности использования сложных правил вывода дляосуществления вывода по тексту важно найти и описывать в тезаурусе другие типыотношений, которые, с одной стороны, минимально зависят от контекста упоминанияпонятия, с другой стороны, обладающие свойствами транзитивности и наследования,подобно таксономическим отношениям.17.1.
Принципы описания отношенийВ результате исследований и экспериментов мы пришли к набору отношенийресурса, предназначенного для эффективной автоматической работы в информационнопоисковых приложениях.В тезаурусе РуТез имеется четыре основных типа отношений.Первый тип отношений – родовидовое отношение НИЖЕ-ВЫШЕ, представляетсобой отношение таксономии, обладает свойствами транзитивности и наследования.Второе тип отношений – отношение ЧАСТЬ-ЦЕЛОЕ. Используется не только дляописания физических частей, но и для других внутренних сущностей понятия, таких каксвойства или роли для ситуаций. Важным условием при установлении этого отношенияявляется то, что понятия-части должны быть жестко связаны со своим целым, то естькаждый пример понятия-части должен в течение всего времени своего существованияявляться частью для понятия-целого, и не относиться к чему-либо другому.В этих условиях удается выполнить свойство транзитивности введенного такимобразом отношения ЧАСТЬ-ЦЕЛОЕ, что очень важно для автоматического вывода впроцессе автоматической обработки текстов.Еще один тип отношения, называемого несимметричной ассоциацией АСЦ2АСЦ1, связывает два понятия, которые не могут быть связаны выше рассмотреннымиотношениями, но когда одно из которых не существовало бы без существования другого.Например, понятие САММИТ требует существования понятия ГЛАВА ГОСУДАРСТВА.
Вонтологических исследованиях такое отношение называется отношением онтологическойзависимости (см. пп.9.2, 17.4).Последний тип отношений – симметричная ассоциация связывает, например,понятия очень близкие по смыслу, но которые разработчики не решились соединить водно понятие (см.п. 17.5).Отношения ВЫШЕ-НИЖЕ, ЧАСТЬ-ЦЕЛОЕ и несимметричная ассоциацияявляются иерархическими отношениями.
Таким образом, на основе свойствиерархичности, транзитивности и наследования для каждого понятия может бытьопределена совокупность понятий, которые являются для него нижестоящими понятиямипо иерархии – так называемое «дерево-вниз», а также может быть определенасовокупность понятий, которые являются для него вышестоящими по иерархии – такназываемое «дерево-вверх». Эти иерархические деревья не обязательно являютсядеревьями в строгом математическом смысле слова.249Рассмотрим далее принципы описания отношений в тезаурусе РуТез болееподробно.17.2. Описание родовидовых отношений в тезаурусе РуТез17.2.1. Принципы описания родовидовых отношенийОтношения ВЫШЕ-НИЖЕ, устанавливаемые в информационно-поисковыхтезаурусах, не обязательно являются таксономическими отношениями в смыслеонтологического моделирования.
Так, например, в некоторых тезаурусах в качествеотношений ВЫШЕ-НИЖЕ могут записываться отношения ЧАСТЬ-ЦЕЛОЕ (см. например,AGROVOC, EUROVOC).При разработке ресурсов для автоматической обработки текста, пригодных длялогического вывода, важно, чтобы отношения, называемые одинаково, обладалиодинаковыми свойствами. В тезаурусе РуТез мы используем отношение ВЫШЕ-НИЖЕдля обозначения онтологических отношений, который обладают свойствамионтологических отношений класс-подкласс, описанных в главе 6, а именно:- каждый пример видового понятия в любой момент своего существованиядолжен быть примером родового понятия,- видовое понятие должно относиться к тому же семантическому классу, что иродовое понятие,- видовое понятие должно наследовать основные свойства родового понятия.Помимо отношений класс-подкласс такими же свойствами обладают отношениямежду ролевым понятием и понятием-классом в тех случаях, когда экземпляры толькоэтого понятия-класса могут выступать в данной роли (РАБОТНИК - ЧЕЛОВЕК).Другим типом отношений, обладающим такими свойствами, является отношениемежду фазой какой-либо физической сущности и собственно этой сущностью (ЩЕНОК –СОБАКА).Таким образом, мы предполагаем, у отношения ВЫШЕ-НИЖЕ свойстванесимметричности и транзитивности:ВЫШЕ(X,Y) ВЫШЕ (Y,Z) ВЫШЕ(X,Z)НИЖЕ (Х,Y) НИЖЕ (Y,Z) НИЖЕ(X,Z)ВЫШЕ (Х,Y) НИЖЕ (Y,X)Одной из серьезных проблем описания таксономических отношений в онтологияхявляется их смешение с описанием ролевых отношений (см.
главу 7.). В следующемразделе мы рассмотрим причины возникновения этой частой проблемы и методыописания ролевых отношений в тезаурусе РуТез.17.2.2 Принципы описания ролевых отношений вТезаурусе русского языка РуТезПроблема смешения таксономических и ролевых отношений связана с тем, что втекстах эти отношения часто выражаются сходными языковыми конструкциями.
Приразработке ресурса для автоматической обработки текстов приходится много информациивводить в тезаурус на основе знаний, полученных из текстов (Лукашевич, 2007b;Лукашевич, 2007c).Например, следующий фрагмент (http://www.giord.ru/0705211117391.php):наиболее используемыми консервантами являются: поваренная соль, этиловыйспирт, уксусная, сернистая, сорбиновая, бензойная кислоты и некоторые их соли250может показаться хорошим источником информации для того, чтобы описать видыконсервантов.Определение электролита:Электролит - проводник второго рода; вещество, обладающиепроводимостью.