Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 30
Текст из файла (страница 30)
Единицы онтологий часто носят языковыеили мнемонические названия, тем самым дополнительно «провоцируя» применениенеоднозначных языковых тестов (см. п.4.4.).В любом случае, на наш взгляд, в «языковую ловушку» может попасть разработчикпонятийных ресурсов в самых различных областях и для различных компьютерныхприложений. Поэтому важно описать наиболее частые случаи проблемного установленияродовидовых отношений, а также возможные способы выявления таких неточностей вмомент описания. Кроме того, при использовании транзитивности родовидовыхотношений локальная неточность может перерасти в серьезное искажение в процессемногошагового логического вывода.Далее мы рассмотрим типы проблемного установления родовидовых отношений, атакже возможные критерии для проверки правильности установления этих отношений.6.2.
Возможные критерии проверки правильности установленияродовидовых отношенийКритерии проверки правильности установления родовидовых отношений связаны спроверкой выполнения свойств транзитивности и наследования.На проверке транзитивности родовидового отношения основано следующееправило:Нижестоящее понятие и вышестоящее понятие должны относиться к одному итому же наиболее общему семантическому классу, такому как =действие=,=свойство=, =объект= и т.п.Так, стандарты и методические руководства по разработке информационнопоисковых тезаурусов рекомендуют использовать такой принцип для описанияиерархических отношений в тезаурусах.В качестве реальной ситуации, при которой неправильный семантический класспомог выявить неточно установленное родовидовое отношение, приведем следующийпример.
При установлении отношений в тезаурусе РуТез (см. часть 4) первоначально былаустановлена следующая цепочка родовидовых отношений:РЕКА – выше – ВОДОЕМ – выше – ВОДНЫЙ ОБЪЕКТ – выше – ВОДА – выше –ВЕЩЕСТВО,в результате чего получилось, что все конкретные реки относятся ксемантическому классу ВЕЩЕСТВО, что неправильно.В этой цепочке наиболее проблематичным является отношение ВОДНЫЙ ОБЪЕКТ– выше – ВОДА, изменение которого на другой тип отношения устранит возникшуюпроблему (подробнее см. п.
6.5).112Второй тип критериев проверки правильности установления родовидовыхотношений связан с проверкой свойства наследования.Проверка может носить частный характер, быть связанной именно с конкретнойпарой понятий. Например, в словарях изюм определяется как «сушеные ягодывинограда».
Следует ли из этого определения, что нужно установить родовидовоеотношение между понятиями ИЗЮМ и ЯГОДА ВИНОГРАДА? С точки зрениянаследования свойств ответ на этот вопрос должен быть отрицательным, поскольку изюмне несет многих свойств ягод как плодов некоторого растения: он не растет, не зреет, егоне собирают.Проверка свойств наследования может производиться и на основе общезначимыхформальных свойств понятий.
Так, для анализа правильности родовидовых отношений Н.Гуарино и К. Велти (Guarino, Welty, 2002) предлагают проверять наследование на видовыепонятия такого свойства вышестоящего понятия как «критерий идентичности» .Суть критерия идентичности некоторого понятия заключаются в том, чтобыопределить, что означает, что две сущности, представляющие примеры одного и того жепонятия, являются одним и тем же, как может сущность меняться, сохраняя своюидентичность, какие свойства существенны для сохранения своей идентичности и др.,Можно говорить о достаточных условиях идентичности, то есть какие условияиспользуются, чтобы определить идентичность и о необходимых условиях идентичности,то есть, что следует из того, что два объекта идентичны.Например, два человека должны быть признаны одним и тем же лицом, если онинаходились в одном и том же месте в одно и то же время. Таким образом, условиемидентичности физических лиц является физическое совпадение нахождения по месту ивремени.
Если предполагаемое родовое и видовое понятие имеют разные условияидентичности, то это означает, что между ними не может быть установлено родовидовоеотношение.В дальнейших разделах будут рассмотрены конкретные типы ошибочногоописания родовидовых отношений и показано, какие именно критерии могут помочь недопустить такого рода ошибки.6.3. Смешение типов и ролейОдной из частых проблем, встречающихся при описании родовидовых отношений,является смешение так наззываемых типов и ролей в одной иерархии.Например, отношения «тип-тип» (береза – это дерево) и отношения «тип-роль»(яблоко – это пища) в равной степени могут быть выражено всеми диагностическимитестами, применяемыми для установления родовидовых отношений.
Различиезаключается в том, что береза остается деревом в каждый момент своего существования, аяблоко может быть использовано в пищу, может быть использовано для других целей,может вообще никак не использоваться.Достаточно распространенной ошибкой при описании предметной областиявляется размещение понятий-ролей как родовых понятий над понятиями-типами.Например, поскольку работодателем может быть человек или организация, то понятиеРАБОТОДАТЕЛЬ представляется как вышестоящее, родовое понятие, а понятияЧЕЛОВЕК и ОРГАНИЗАЦИЯ представляются как нижестоящие, видовые понятия(Steinmann, 2000).
Однако такое представление неточно описывает свойства сущностей,поскольку не каждый человек является работодателем.Во многих случаях анализ отношения может выявить нарушение основногопринципа установления родовидовых отношений о принадлежности всех примеровнижестоящего понятия к классу вышестоящих понятий (см. п. 6.1.), как это происходитпри неправильном установлении отношения ЧЕЛОВЕК – выше – РАБОТОДАТЕЛЬ. Дляработы системы логического вывода такая неточность приведет к тому, что система для113каждого экземпляра понятия ЧЕЛОВЕК будет делать вывод, что это экземпляр понятияРАБОТОДАТЕЛЬ, что в общем случае неверно.В других случаях проблема не столь очевидна. Например, при установленииотношения ЯБЛОКО – ПИЩА разработчик онтологии может учитывать особенностимоделируемой предметной области, в которой все или подавляющее большинство яблокмогут рассматриваться как пища.В главе 7 мы подробно рассмотрим, как можно определить ролевые понятия, какможно описать знание о основных ролях того или иного понятия, оставаясь в рамкахпростых моделей представления знаний и не нарушая принципов установленияродовидовых отношений.Несмотря на то, что размещение ролей как родовых понятий для типов неподчиняется одному из наиболее известных принципов описания родовидовых связей,который заключается в том, что все примеры видового понятия должны всегда бытьпримерами родового понятия, но эта проблема остается серьезной, поскольку«провоцируется» многими текстовыми источниками.Например, следующий фрагмент (http://www.giord.ru/0705211117391.php):наиболее используемыми консервантами являются: поваренная соль, этиловыйспирт, уксусная, сернистая, сорбиновая, бензойная кислоты и некоторые их солиможет показаться хорошим источником информации для того, чтобы описать видыконсервантов: поваренная соль, этиловый спирт и т.п.Определение электролита:Электролит - проводник второго рода;проводимостью.
Электролитами являются:-вещество,расплавы солей, оксидов или гидроксидов;растворы солей, кислот или основанийа также + твердые электролиты.вобладающиеполярныхионнойрастворителях;может показаться основанием, например, для установления отношения, что сольявляется видом электролита.Однако в таких случаях нужно помнить, что консервант и электролит являютсяролями веществ - вещество становится консервантом или электролитом только, еслипопадает в некоторые условия. А поваренная соль и соль как химическое соединениеявляются типами веществ.Устанавливая родовидовую связь от типа к роли, мы сообщаем системенекорректное знание, состоящее, например, в том, что любое вещество, относящееся кклассу солей, в любой момент времени своего существования в любой ситуации, являетсяэлектролитом, что далеко не так.6.4.
Смешение отношений класс-подкласс и класс-экземплярСовременное онтологическое моделирование (Cyc Ontology Guide; Guarino, 1998;Noy, McGuinness, 2001) достаточно четко отличает отношения экземпляр-класс отродовидовых отношений. Это отношение связывает индивидуальные сущности, например,такие как конкретный город – Москва и классы сущностей как ГОРОД. Отношениеэкземпляр-класс характеризуется тем, что в отличие от родовидовых отношений, неявляется транзитивным отношением.Многие руководства указывают, что экземпляры – это самые конкретныепонятийные единицы, представленные в базе знаний. Так, в (Noy, McGuinness, 2001)приводится пример, что, если в моделируемой предметной области необходимо описатьтолько подбор сочетаний вина и еды, то нас не будут интересовать конкретныематериальные бутылки вина.
Поэтому такие термины как Sterling Vineyards Merlot,114вероятно, будут самыми конкретными используемыми понятийными единицами.Следовательно, Sterling Vineyards Merlot будет экземпляром в базе знаний и между этимвином и классом вин должно быть установлено отношение экземпляр-класс.Сложность, приводящая к смешению этих двух видов отношений, заключается втом, что вопреки сложившемуся мнению отношение экземпляр-класс может встретитьсяна любом иерархическом уровне понятийной системы, а не только на самых нижнихуровнях.Так, понятие СПАНИЕЛЬ связано родовидовым отношением с понятием СОБАКАи отношением экземпляр-класс с понятием ПОРОДА СОБАК, понятие ШКОЛЬНЫЙУЧИТЕЛЬ связано родовидовым отношением с понятием ПЕДАГОГИЧЕСКИЙРАБОТНИК, и отношением экземпляр-класс с понятием ПРОФЕССИЯ.
В таких случаяхразличать эти отношения не всегда просто.Для различения родовидовых отношений и отношений экземпляр-класс можновоспользоваться принципом идентичности (см. п.6.2.), который утверждает, что уродового понятия и видового понятия должны быть одни и те же критерии идентичности.Если мы выполним анализ критерия идентичности, например, для понятийСПАНИЕЛЬ и ПОРОДА СОБАК, то увидим, что критерии идентичности для спаниелей ипороды животных различаются. Породы собак идентифицируются с их позицией внекоторой классификации собак.