Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 33
Текст из файла (страница 33)
Действительно, такое представление неточно описывает свойствасущностей, поскольку не каждый человек является работодателем. Нарушается основнойпринцип установления родовидовых отношений (см. п. 6.1.)РАБОТОДАТЕЛЬЧЕЛОВЕКОРГАНИЗАЦИЯРис.7.1. Расположение роли над типами сущностей нарушает основной принципустановления родовидовых отношенийВо-вторых (2.2), роли можно описывать как нижестоящие понятия для сущностей,которые могут их занимать.Тогда понятие РАБОТОДАТЕЛЬ может быть представлено, например, какнижестоящее понятие для понятия ОРГАНИЗАЦИЯ (Рис.7.2). Однако, если нужноотразить знание, что работодателем может быть и человек, то ситуация несколькоусложняется.
Если теперь представить понятие РАБОТОДАТЕЛЬ как подтип понятийЧЕЛОВЕК и ОРГАНИЗАЦИЯ, то получится, что работодатель одновременно и человек, иорганизация.ЧЕЛОВЕКОРГАНИЗАЦИЯРАБОТОДАТЕЛЬРис. 7.2. Расположение роли под двумя возможными типами может привести кнеправильному логическому выводуЧтобы описать, что работодатель может быть человеком или организацией, можетбыть введено дополнительное понятие, например, с названием СУБЪЕКТДЕЯТЕЛЬНОСТИ (Рис.7.3), подтипами которого являются понятия ЧЕЛОВЕК иОРГАНИЗАЦИЯ.СУБЪЕКТ ДЕЯТЕЛЬНОСТИЧЕЛОВЕКРАБОТОДАТЕЛЬОРГАНИЗАЦИЯРис. 7.3. Введение дополнительного понятия для отражения сложныхвзаимоотношений между типами и ролями122Далее устанавливается отношение между понятием РАБОТОДАТЕЛЬ и понятиемСУБЪЕКТ ДЕЯТЕЛЬНОСТИ.
Таким образом, понятие РАБОТОДАТЕЛЬ оказывается наодном уровне иерархии с понятиями ЧЕЛОВЕК и ОРГАНИЗАЦИЯ, что, с одной стороны,не описывает первоначального утверждения, что работодатель является либо человеком,либо организацией, а с другой стороны все-таки может использоваться как модель дляпредставления ролевых понятий.В работе (Gangemi и др., 2001b) авторы для уточнения возможностей совмещенияпредставления ролей и типов в одних и тех же иерархиях разделяют роли на два подтипа:материальные роли и формальные роли.Как указывают авторы, формальные роли не несут идентичности, то есть неотносятся ни к какому конкретному типу, могут быть применены к любому типу.
Вкачестве формальных ролей можно привести пример таких ролей как часть и целое,инструмент и т.п.В качестве материальных ролей рассматриваются такие роли как студент (долженотноситься к типу человек) или еда (является физической сущностью).Авторы считают, что формальные роли должны представляться только втаксономиях ролей, материальные роли могут быть представлены как видовые понятиядля классов и ролей, а сами могут подчинять как видовые понятия только материальныероли.Наконец, в третьем подходе (3) предполагается, что иерархия ролей должна бытьпредставлена отдельно от иерархии типов.
Иерархия ролей подчиняется самому верхнемуузлу иерархии. В таком представлении понятия-роли описываются независимо от типов,но каждый пример роли существует только как пример типа, то есть пример роли неможет существовать независимо от примера типа, которые может занимать эту роль.Существуют и значительно более сложные представления ролей, назначениякоторых предоставить формализм, в рамках которого можно описать все особенностиролей (см. например, (Masolo и др., 2004; Mizoguchi и др., 2007)).Однако, при представлении ролей с помощью усложненных формализмов,возникает ряд специфических проблем.
Авторы работы (Mizoguchi и др., 2007) в качествепримера трудностей приводят роли врача и медсестры в онтологии больницы. Авторыработы указывают, что люди предпочитают рассматривать эти сущности как базисныепонятия, типы при построении таких онтологий, поскольку предполагается, что вонтологии больницы врач всегда врач, а медсестра –всегда медсестра. Необходимость вусложненном рассмотрении этих сущностей как ролей возникает, когда врач заболевает иприходит в больницу на прием в качестве пациента.7.6. Роли в тезаурусахПроблемы описания понятий-ролей, отношений тип-роль находят свое отражение ив процессе построения и использования тезаурусов разных типов.Так, одной из проблем WordNet, на которую обращали внимание многиеисследователи, является смешение нескольких разных отношений под именем отношениягипонимии-гиперонимии (см. п.
2.5.3.2.)Указывая на смешение типов и ролей в Wordnet, Н. Гуарино (Guarino, 1998) привелследующие примеры описания из WordNet:Человек – это живое существо и каузальный агент.Яблоко – это фрукт и еда.Человек всегда живое существо, но он (она) начинает играть роль каузальногоагента только в некоторых ситуациях. Та же проблема возникает для яблока, котороевсегда плод растения, и в некоторых ситуациях может быть пищей. Проблема в том, что123человек и яблоко – это типы сущностей, в то время как каузальный агент и пища – этороли.Одна из авторов WordNet К. Феллбаум, отвечая на эту критику Н. Гуарино,заявляет (Fellbaum, 2002), что в таких ресурсах, как WordNet неоднородныеклассификации имеют право на существование, поскольку такие ресурсырассматриваются в настоящее время, прежде всего, как инструменты для компьютернойобработки текстов, а не только как совершенные онтологии, которые должнысоответствовать строгим онтологическим принципам.Во-первых, указывает К.
Феллбаум, если уничтожить «неправильные» отношения,то теряется важная информация. В некоторых случаях семантическая информация оботношениях между словами, не отвечающая строгим принципам, может быть болееполезна, чем более обоснованное семантическое отношение.Во-вторых, считает К. Феллбаум, для лексических ресурсов, которые используютсядля компьютерной обработки текстов, полезно иметь подробную сеть отношений. Этоважно для разрешения многозначности, разрешения референции, методов выявлениялексической связности текстов.Более того, К. Феллбаум (Fellbaum, 2002) предлагает расширить множествоотношений, подобных отношением тип-роль.
Предлагается ввести и использовать другойтип отношений, который назван в (Cruse, 1986) парагипонимией, а в качествелингвистического теста установления такого рода отношения применять следующие парыпредложений:X’s and other Y’s & It’s an X, but it’s not a Y. (Х и другие Y, & Это Х, но не Y)Однако проблемой такого предложения для описания отношений «тип-роль»является то, что под вышеуказанные тесты подходят многие экзотические роли, например,в некоторых ситуациях мухи могут стать едой (например, в голодное время), а бутылкимузыкальным инструментом (Trautwein, Grenon 2004).
Лингвистические тесты непрепятствуют установлению такого рода отношений, например:Мухи и другие виды еды & Это муха, а не еда.Отметим, что высказанное предложение не было реализовано в WordNet.Вместе с тем, понятно, что, если использовать отношения вне правильногоконтекста, что часто возникает в связи с динамичностью ролей, то это может привести ксерьезным ошибкам обработки текстов.Если обратиться к информационно-поисковым тезаурусам, то стоит отметить, чтосовременные руководства и стандарты по информационно-поисковым тезаурусам (Z39.19; Will, 2004) рекомендуют придерживаться строгих принципов в представленииролей. Как было описано в п. 1.2.1.1., рекомендуется устанавливать иерархическиеотношения в информационно-поисковых тезаурусах в тех случаях, когда отношенияистинны независимо от контекста, - только в таких случаях дескрипторы информационнопоискового тезауруса могут быть организованы в иерархии.В упомянутом примере (см.
п.1.2.1.1), обсуждающем правильность установленияродовидового отношения от дескриптора МЫШИ к дескриптору ВРЕДИТЕЛИ, последнийкак раз и является ролью. Авторы руководств и стандартов считают, что такое отношениепредставлять как родовидовое неправильно, поскольку имеются лабораторные мыши идомашние мыши, которые не являются вредителями.Заключение к главе 7.В данной главебыли рассмотрены подходы к представлению ролей вонтологических и лингвистических ресурсах.
Мы показали, что различие междуонтологическими характеристиками понятий-типов и понятий-ролей имеет существенное124значение для представления знаний о предметной области. В различных исследованияхведется достаточно интенсивная дискуссия о принципах определениях и описания ролей.На наш взгляд, описанные проблемы представления ролей обязательно нужноучитывать при разработке онтологических ресурсов, предназначенных дляавтоматической обработки текстов.125Глава 8.