Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 22
Текст из файла (страница 22)
В данной части книги мырассмотрим наиболее базовые вопросы, связанные с определением и созданиемонтологий. Также будут рассмотрены соотношения между терминами онтология,тезаурус, рубрикатор.82Глава 4. Онтологии как ресурсы для представления знаний о мире4.1. Определения онтологииСлово «онтология» имеет два значения:- Онтология 1. – Философская дисциплина, которая изучает наиболее общиехарактеристики бытия и сущностей;- Онтология 2. – Артефакт, структура, описывающая значения элементовнекоторой системы.В данной книге мы будем использовать слово онтология во втором значении какнекоторый компьютерный ресурс, представляющий собой некоторое описание взгляда намир применительно к конкретной области интересов.На формальном уровне, онтология - это система, состоящая из набора понятий инабора утверждений об этих понятиях, на основе которых можно строить классы,объекты, отношения, функции и теории.Одно из самых известных определений онтологии, сформулированное Т.
Груберомтаково (Gruber, 1993):Онтология – это точная спецификация концептуализации.Концептуализация – это структура реальности, рассматриваемая независимо отсловаря предметной области и конкретной ситуации. Например, если мы рассматриваемпростую предметную область, описывающую кубики на столе, то концептуализациейявляется набор возможных положений кубиков, а не конкретное их расположение втекущий момент времени.Более поздней модификацией определения Грубера является такое определение(Gomez-Perez и др., 2004):Онтология – это формальная спецификация согласованной концептуализации.Подсогласованнойконцептуализациейподразумевается,чтоданнаяконцептуализация не является частным мнением, а является общей для некоторойобщности людей.Сформулировано еще достаточно много разных определений онтологии (Клещев,Шалфеева; 2005).
В работе (Guarino, Giaretta, 1995) было проанализировано семьразличных определений онтологии и предложили следующее определение:Ontology is a logical theory which gives an explicit, partial account of aconceptualization (Онтология – это формальная теория, ограничивающаявозможные концептуализации).При всем различии к определению онтологии многие авторы соглашаются в набореосновных компонентов онтологии.Основными компонентами онтологии являются:- классы или понятия;- атрибуты;- отношения;- аксиомы;- экземпляры.Часто используется очень широкая трактовка классов (понятий) онтологии.
Приширокой трактовке утверждается, что классы (понятия онтологии) могут бытьабстрактными и конкретными, элементарными и составными, реально существующими ивоображаемыми. Другими словами, классом (понятием) может быть любая сущность, окоторой может быть дана какая-либо информация (Corcho, Gomes-Perez; 2000).83Экземпляры (индивиды) представляют собой единичные сущности,принадлежащие классам онтологии.Единицы онтологии (классы и экземпляры) могут иметь свойства - атрибуты.Каждый атрибут обычно имеет имя и значение, и используется для хранения информации,которая специфична для данной единицы.Отношения представляют тип взаимодействия между понятиями области.
Ониформально определяются как подмножество произведения n множеств: R: C1 x C2…x Cn.Пример бинарного отношения – отношение часть-целое. Различие между отношениями иатрибутами заключается в том, что отношения связывают между собой два класса, аатрибут описывает внутренние свойства объектов посредством конкретных значений.Наиболее важным среди отношений в онтологиях является так называемоетаксономическое отношение (также известное как отношение класс-подкласс,родовидовое отношение, is-a отношение).Аксиомы (правила вывода) используются, чтобы записать высказывания,которые всегда истинны.
Они могут быть включены в онтологию для разных целей,например, для определения комплексных ограничений на значения атрибутов, аргументыотношений, для проверки корректности информации, описанной в онтологии, или длявывода новой информации.Видно, что термину «онтология» удовлетворяет широкий спектр структур,представляющих знания о той или иной предметной области. В качестве в разной степениформализованных онтологий разными авторами рассматривается множество различныхкомпьютерных ресурсов (Хорошевский, 2008; Welty и др., 1999; Клещев, Шалфеева, 2005;Obrst, 2003), в том числе и известных задолго до начала исследований по онтологиямтаких как словари, рубрикаторы, тезаурусы.4.2.
Виды онтологийРассмотрим некоторые из типов онтологии в порядке от менее формализованныхресурсов к более формализованным ресурсам (Lassilla, McGuinness, 2001).Уже словарь с определениями, глоссарий может рассматриваться как онтология спустым множеством отношений (Гаврилова, Хорошевский, 2000; Хорошевский, 2002).Простейшая модель онтологии с отношениями строится обычно на основеотношений класс-подкласс. Такие модели часто называются таксономиями.Возможно построение онтологии и на других типах отношений, например, наоснове отношения Часть-целое. В таком случае такая онтология называется партономией.Рубрикаторы представляют собой иерархически организованные онтологии.
Приэтом отношения между рубриками не сводятся к одному и тому же типу отношений,смысл отношений между разными рубриками может различаться.Информационно-поисковыетезаурусытакжерассматриваютсякаконтологические ресурсы. Такие тезаурусы имеют обычно таксономические отношения, атакже ряд дополнительных отношений. Как мы уже указывали, часто в тезаурусахпроисходит совмещение под одним именем отношения ВЫШЕ-НИЖЕ разного родаотношений, то есть отношения устанавливаются не всегда формальным образом.Тезаурусы типа WordNet, особенно классификация существительных, такжерассматриваются как ресурсы онтологического типа. Как мы уже указывали, структураПринстонского WordNet достаточно интенсивно обсуждалась с формальныхонтологических позиций. Некоторые изменения, вносимые в следующие версии этогоресурса, вызваны именно такого рода обсуждением, как, например, выделение изотношений гипонимии-гиперонимии отношений класс-экземпляр.Часто возникает вопрос, можно ли кратко сформулировать основные особенноститезаурусов как вида онтологических ресурсов.
Рассмотренные виды тезаурусов (тезаурусРоже, информационно-поисковые тезаурусы, тезаурусы типа WordNet) позволяютвыделить следующие отличительные особенности этого вида онтологических ресурсов:84единицы тезаурусов имеют тесную связь с естественным языком, обычноснабжаются вариантами их выражения на естественном языке;- тезаурусы не имеют внутренней структуры понятий, то есть представлениясвойств и атрибутов в виде фреймов. Знания о мире, предметной областипредставлены в виде отношений между понятиями;- аксиомы (правила вывода) сводятся к свойствам транзитивности инаследования.Следующий тип онтологических моделей - это модели с некоторым широкимнабором отношений.
Такие модели могут иметь или не иметь представление свойств иатрибутов понятий в виде фреймов. Для разных видов отношений может указыватьсякардинальность (соотношение количеств экземпляров связываемых сущностей) имодальность (возможность/ обязательность) связей.Большей выразительностью обладают онтологии, включающие ограничения наобласть значений свойств. Значения свойств берутся из некоторого предопределенногомножества (целые числа, символы алфавита) или из подмножества концептов онтологии(множество экземпляров данного класса, множество классов).
Можно ввестидополнительные ограничения на то, что может заполнять свойство.В целом, с необходимостью выразить больше информации, выразительныесредства онтологии (и ее структура) усложняются. Например, может потребоватьсязаполнить значение какого-либо свойства экземпляра, используя математическоевыражение основанное на значениях других свойств и даже других экземплярах. Многиеонтологиипозволяютобъявлять два иболее классов дизъюнктивными(непересекающимися). Это означает, что у данных классов не существует общихэкземпляров.-Рис.
4.1. Классификация онтологий в (Lassilla, McGuinness, 2001).Косая черта разделяет системы, представляющие«машино-понятные» и «человеко-понятные» описанияНаиболее формализованные онтологии представляют собой логические теории,построенные на произвольных логических утверждениях о понятиях – аксиомах. Дляописания таких формальных онтологий применяются различные логики (дескриптивныелогики, модальные логики, логика предикатов первого порядка) и различные языкиописания онтологий DAML+OIL, OWL, CycL, Ontolingua.85Онтологии такие как тезаурусы, рубрикаторы, понятия которых не определяютсяполностью в терминах формальных свойств и аксиом, иногда называются легкимионтологиями (lightweight ontologies) (Gomez-Perez и др., 2001). Дж.
Сова(http://www.jfsowa.com/ontology/ontoshar.htm)называеттакиеонтологиитерминологическими онтологиями.Приверженцы формальных подходов считают такие легкие онтологии ненастоящими онтологиями, а ресурсами онтологического типа.Для отражения спектра онтологий по степени формальности представления,использованию тех или иных формальных элементов часто используется диаграмма типаизображенной на рис. 4.1. Каждая точка соответствует наличию некоторых ключевыхструктур в онтологии, отличающих ее от других точек на спектре.
Косая черта условноотделяет онтологии от других ресурсов, имеющих онтологический характер.4.3. Два основных подхода к построению онтологийВ проектировании онтологий условно можно выделить два направления. Первоесвязано с представлением онтологии как формальной системы, основанной наматематически точных аксиомах. Этот подход тесно связан с различными логическимиформализмами (предикатов первого порядка, дескриптивной, модальной логики и т.п.).Это направление онтологических исследований является продолжением работ в рамкахклассического искусственного интеллекта, изучающих способы представления знаний.Второе направление связано с разработкой онтологий для компьютернойобработки текстов. Онтологии дают возможность использовать знания о мире, которыенеобходимы для выполнения многих этапов анализа текста. При этом, с одной стороны,формальность описания в таких онтологиях значительно ниже, чем в онтологиях,создаваемых в рамках первого подхода.
С другой стороны, формальный логический выводна основе онтологий при анализе текста часто является необходимым, поскольку всвязном тексте значительный объем информации не указывается явно (Леонтьева, 1981;Леонтьева, 2006; Chavez и др., 2009).При всей кажущейся важности развития онтологий в рамках первого подхода,именно в рамках второго подхода создаются сверхбольшие ресурсы, используемые вшироких предметных областях, в то время как в рамках первого подхода создаютсяотносительно небольшие ресурсы (ресурсы с относительно небольшим числом понятий –экземпляров может быть достаточно много).