Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 25
Текст из файла (страница 25)
От информационно-поисковых тезаурусов кформальным онтологиямРассмотрим, какое влияние оказали современные онтологические исследования наконцепцию разработки информационно-поисковых тезаурусов. Критика информационнопоисковых тезаурусов с позиции формальных онтологий в связи с тем, что в тезаурусахнедостаточно хорошо структурированы отношения и отсутствует последовательность в ихустановлении, привели к постановке вопроса овозможности преобразованияинформационно-поискового тезауруса в более формальзованный онтологический ресурс(Wielinga и др., 2001).Задача преобразования информационно-поисковых тезаурусов в формальныеонтологии была поставлена разработчиками достаточно известных тезаурусов таких, кактезауруса в области сельского хозяйства AGROVOC и тезауруса в области образованияERIC (Soergel и др., 2004). Предполагается, что при таком преобразовании могут бытьулучшены разнообразные функции использования информационно-поисковых тезаурусов,включая:- более качественное взаимодействие с пользователями,помощь вформулировании запросов;- интеллектуальное расширение запросов;- автоматизированная помощь индексаторам и база для систем автоматическогоиндексирования и рубрицирования текстов,- поддержка для приложений, создаваемых в рамках искусственного интеллекта,и исследований в области Семантической сети.Предлагается, прежде всего, преобразовать систему отношений тезауруса в болееформализованный набор предикатов и описать правила вывода (аксиомы).Так, например, в работе (Soergel и др., 2004) в качестве примеров модификацииинформационно-поискового тезауруса по сельскому хозяйству AGROVOC приводятсяследующие словарные статьи (AGROVOC, 1999):Исходные статьи тезаруса (NT – отношение НИЖЕ, BT - отношение ВЫШЕ):milkNT cow milkNT milk fatcowNT cow milkСheddar cheeseBT cow milk93Указанные статьи действительно показывают смешение разных отношений, что непротиворечило существующим стандартам в области разработки информационнопоисковых тезаурусов.
Как мы видим, отношения между понятиями МОЛОКОКОРОВЬЕ-МОЛОКО, МОЛОКО-МОЛОЧНЫЙ ЖИР, КОРОВА – КОРОВЬЕ МОЛОКО,МОЛОКО – СЫР ЧЕДДЕР, выражено одним и тем же отношением BT-NT.Преобразованные словарные статьи должны более четко различать конкретноесемантическое отношение, и, таким образом, один тип тезаурусных отношенийпреобразуется в четыре разных отношения:milk<includesSpecific><containsSubstance>cow milkmilk fatcow<hasComponent>Cheddar cheese<madeFrom>cow milkcow milkТезаурусы обычно не содержат понятий с атрибутами, в проекте преобразованиятезауруса AGROVOC в онтологию предполагается использовать атрибутную структурудля описания некоторых понятий, например, описывать, что понятие МАТЬ этоРОДИТЕЛЬ с атрибутом женский.На построенной системе отношений предполагалось ввести правила вывода,например:Правило 1:Part_X <mayContainSubstance> Substance_Y:IF Animal_W <hasComponent> Part_XAND Animal_W <ingests> Substance_Y(Если животное W имеет в качестве компонента часть Х, и животное W съедаетвещество Y, то часть X может содержать вещество Y).Правило 2:Food_Z <containsSubstance> Substance_Y:IF Food_Z <madeFrom> Part_XAND Part_X <containsSubstance> Substance_Y(Если пища Z делается из части Х, и часть X содержит вещество Y, то пища Zсодержит вещество Y).Предполагается, что система, имея такие правила вывода, может автоматическиполучить, что сыр-чеддер содержит (containsSubstance) молочный жир, и, что если коровына ферме съели корма, зараженные ртутью, то, сыр, сделанный из этого молока, также,возможно, будет заражен ртутью (Cheddar cheese <mayContainSubstance>mercury).Другой пример преобразования информационно-поискового тезауруса вформализованную онтологию – это нововведения, предлагаемые для тезауруса в областиобразования ERIC (Thesaurus of ERIC, 1990).Исходные статьи тезауруса:Reading instructionBTInstructionRTReadingRTLearning standards94Reading abilityBTAbilityRTReadingRTPerceptionПредполагается преобразовать в следующий набор отношений:Reading instructionReading instructionReading instructionisahas domaingoverned byInstructionReadingLearning standardsReading abilityReading abilityReading abilityisahas domainsupported byAbilityReadingPerceptionА также предполагается установить следующие правила вывода:Правило 1If X isa (type of) instruction and X has domain Zand Y isa ability and Y has domain ZThen X should consider Y(Если X - это инструкция, и X имеет область Z, и Y – это способность, и Y имеетобласть Z, тогда инструкция X должна учитывать Y.Правило 2:IfXshouldconsiderThen X should consider W.YandYissupportedbyW(Если X должно учитывать Y, и Y поддерживается W, то X должно учитывать W).Проект преобразования тезауруса AGROVOC в онтологию действительно сталреализовываться (Liang и др., 2006).
Речь идет об автоматизированном преобразованииисходного набора тезаурсных отношений в онтологические отношения. Всего предложеноболее70отношениймеждупонятиямитезауруса(http://www.fao.org/aims/cs_relationships.htm).Взаимосвязь между некоторыми отношениями вызывает вопросы и, например,отношение таксономии taxonomic relationships и отношение класс-подкласс hasSubclassуказаны в списке как отдельные отношения. Как известно, большое количествоотношений между сущностями, тем более плохо определенных, влечет дополнительныепроблемы с последовательностью и субъективностью их установления. Про реализациюописания правил ввода и использование их в автоматических процедурах обработкитекста пока ничего не известно.Кроме того, на пути применения таких «информационно-поисковых онтологий» вреальных приложениях информационного поиска и автоматической обработки текстов вшироких, плохо структурированных предметных областях (какими, собственно, иявляются предметные области «Сельское хозяйство» и «Образование») имеютсяопределенные трудности.Действительно, чтобы правила логического вывода действительно работали,помимо изменений в описании понятий и терминов предметной области, нужно иметьавтоматические средства обработки естественно-языковых текстов, позволяющие внеограниченном связном тексте точно и полно извлекать последовательности фактов,уметь прослеживать кореферентность, следить за временем извлекаемых фактов: в кормапопала ртуть, эти корма принадлежат данной ферме, коровы этой фермы съели именноэти корма, изготовление сыра чеддер этой фермой произведено в период времени сразупосле того, как эти коровы съели эти корма и т.п.95Кроме того, в тексте слова корма и ртуть могут оказаться в разных частяхдлинного предложения, или в разных предложениях текста, например, из-заиспользования эллиптической конструкции или местоимения и т.п., что значительноусложнит выявление этого факта.Понятно, что в настоящее (и ближайшее) время ни одна из существующих системавтоматической обработки текстов, извлечения знаний из текстов не может обеспечитьтакой уровень точности и полноты получения информации из текстов, на которыхнадежно можно было обосновывать работу таких правил вывода.Таким образом, по нашему мнению, значительные трудозатраты на такого родаформализацию информационно-поисковых тезаурусов могут и не привести к улучшениюкачества автоматической обработки текстов и созданию ресурсов, лучшеприспособленных к автоматическим режимам работы, чем существующиеинформационно-поисковые тезаурусы.Заключение к главе 4Таким образом, современные исследования в области онтологий развиваются внескольких направлениях, изучая как аксиоматические способы представления знаний омире, так и менее формализованные методы.Создание онтологий на строгих формальных принципах в настоящее время связанос проблемами масштабируемости описания, с проблемами понимания пользователями, ссуществованием других формальных точек зрения на ту же сферу понятий.Создание массово используемых понятийных ресурсов связано пока сотносительно слабой формальзованностью описаний понятий, с основанием понятийонтологии на существующих языковых значениях.
Нестрогость таких онтологий можетестественно привести к проблемам в логическом выводе, который считается важнымследствием создания онтологических ресурсов.Таким образом, решая конкретные прикладные задачи особенно в широкихпредметных областях, необходимо делать осознанный выбор уровня сложностиформализма представления знаний о предметной области.96Глава 5. Единицы онтологии: понятия5.1. Понятия как единицы мышления и понятия в онтологияхВ литературе по компьютерным онтологиям трудно найти хорошее определениепонятия как единицы онтологии. Б. Смит (Smith, 2004) указывает, что во многих случаяхтермин «понятие» используется вместо «слова», когда нужно абстрагироваться отконкретного естественного языка, специфических синтаксических особенностей. Иногдапонятие – это идея, разделяемая людьми, использующими соответствующие слова илитермины (Smith, 2004).Тем не менее можно отметить, что понятия современных онтологических ресурсовимеют прямые аналогии с философской классической теорией понятия (Margolis E.,Laurence S., 2006), в которой понятие определяется как единица системы с уникальнымнабором свойств и отношений.
В качестве примера такого «классического» определенияпонятия можно привести определение (Степанов, 1990):Понятие – мысль, отражающая в обобщенной форме предметы и явлениядействительности посредством фиксации их свойств и отношений; последние(свойства и отношения) выступают в понятии как общие и специфическиепризнаки, соотнесенные с классами предметов и явлений.Таким образом, при определении понятия:- устанавливаются его существенные признаки (характеристики),- выявляются его связи с другими понятиями,- определяется его место в системе понятий данной области знания.Кроме того, значимым фактором рассмотрения понятий как единиц онтологииявляется их понимание как единиц, фиксирующих существующие знания о внешнем мире,предметной области (Smith, 2004; Gangemi и др., 2001b).Такое понимание отражается в практических рекомендациях по введению понятий(класссов) в компьютерных онтологиях.
Так, во многих руководствах по разработкеонтологий указывается, что важно различать класс (понятие онтологии) и его имя:- классы представляют понятия предметной области, а не те слова, которыеобозначают эти понятия;- синонимы одного и того же понятия не представляют разные классы, синонимы– всего лишь разные имена понятия (Noy, McGuinness, 2001).Каждое понятие по определению должно быть элементом системы понятий и в тоже время должно быть отделимо по своим свойствам от близких по смыслу понятий. Впроектировании онтологий это положение раскрывается следующими рекомендациями поструктуризации онтологии (Bouaud и др., 1995):1) Принцип сходства:Принцип сходства контролирует сходство понятия по отношению к его родовомупонятию.
Нижестоящее понятие (понятие-потомок) должно разделять тип своего родовогопонятия (понятия-родителя). Таким образом, все понятия-потомки одного и того жепонятия-родителя имеют между собой нечто общее. Отнесенность к типу понятияродителя является необходимым условием описания понятия-потомка как видового поотношению к данному понятию-родителю. Потомок должен наследовать свойствародителя.2) Принцип специфичностиПонятие-потомок должно отчетливо отличаться от понятия-родителя, что являетсянеобходимым и достаточным условием для понятия потомок. Это отличие может97выражаться в дополнительном свойстве, которое присуще потомку, или наличиемдополнительных семантических ролей, например, при описании действий.3) Принцип оппозицииПонятие должно отчетливо отличаться от понятий одного уровня и должно бытьпредставлено различие между каждой парой понятий этого уровня.Следствием из этих принципов является правило, что понятие-родитель должноиметь более одного понятия-потомка. Если понятие имеет только одно непосредственноепонятие-потомок, то, возможно, при моделировании допущена ошибка или онтологиянеполная.Рассмотрим, как на основе изложенных принципов анализируется конкретнаяонтология.
В работе (Bodenreider и др., 2004) исследуется соответствие медицинскоготерминологического ресурса SNOWMED CT (Табл. 5.1.), следующим формальнымонтологическим принципам:- каждое понятие должно иметь хотя бы одного родителя,- понятия, имеющие потомков, должны иметь по крайней мере двух потомков,- понятиям-потомкам следует иметь одного родителя,- описание каждого понятия-потомка должно отличаться от описания понятияродителя,- все роли понятия-родителя должны наследоваться понятием-потомком илиуточняться,- отличие понятия-потомка от понятия-родителя должны проявляться либо вуточнении заполнителя роли или введении новой роли.РольЗначениеКаузативный агентВирусOnsetsudden onset; Gradual onsetSeveritySeveritiesEpisodicityEpisodicitiesCourseCoursesAssociated MorphologyInflammationFinding sitemeninges strictureТаблица 5.1.