Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 70
Текст из файла (страница 70)
После созревания яблокосрывается, может стать товаром и достаточно долго существовать без связи со своейяблоней. Так, для описания таких случаев в онтологии DOLCE для отношения ЧАСТЬЦЕЛОЕ вводится аргумент времени.Мы не считали возможным вводить время в качестве аргумента описанияотношений ЧАСТЬ-ЦЕЛОЕ, поскольку считаем, что фактор времени очень трудно учестьпри обработке текстов широкой предметной области, отношение начинает зависеть отконтекста, что затрудняет его применение на практике.Другим фактором является проблема, называемая нами фокусная отделимость.Она находит свое проявление, например, в отношении между понятиями ДЕПУТАТГОСУДАРСТВЕННОЙ ДУМЫ – ГОСУДАРСТВЕННАЯ ДУМА.
С одной стороны,ДЕПУТАТ ГОСУДАРСТВЕННОЙ ДУМЫ является частью ГОСУДАРСТВЕННОЙ ДУМЫ.С другой стороны, становясь депутатом, человек получает особый социальный статус,который начинает упоминаться в текстах в ситуациях (например, автомобильная авария),которые не имеют отношения к функционированию Государственной думы. Такимобразом, при упоминании в таких ситуациях отношение ЧАСТЬ-ЦЕЛОЕ не исчезает, но ине находится в фокусе сообщения.Еще одной группой усложняющих факторов является сложность структуры самихобъектов. Так, например, дверь дома состоит из двух основных частей: проема в стене идоски, вращающейся на петлях. Ручка крепится на одной части - доске, а непосредственнов состав дома входит другая часть – проем.Другой пример – приток реки.
Решение о том, как правильно описать отношениепритока реки с главной рекой (с использованием отношений ЧАСТЬ-ЦЕЛОЕ илиприсоединения (Noy, Wallace, 2005)), затрудняется тем, что приток реки состоит из потокаводы и берегов, при этом берега остаются на месте и не становятся частью береговглавной реки, а воды притока вливаются в основную реку и становятся частью водосновной реки.Для описания таких усложненных отношений ЧАСТЬ-ЦЕЛОЕ используетсяпометка «А» («аспект»), обозначающая то, что с некоторой точки зрения установленноеотношение может не иметь значения, не быть важным (см. п.17.5).17.4. Отношение онтологической зависимости в тезаурусе РуТезВ предыдущих разделах (см. пп.1.2.2, 1.7.2, 9.4) мы обсуждали проблемыотношений ассоциации традиционных информационно-поисковых тезаурусов, а такжеполезность учета в ресурсах, предназначенных для информационного поиска, отношенийонтологической зависимости.258При обсуждении отношения онтологической зависимости в разделе 9.2 мы видели,что исследователи рассматривают значительное разнообразие таких отношенийонтологической зависимости и указывают на сложность выбора конкретных типов этогоотношения для онтологического моделирования.
При этом ряд авторов (Н.Гуарино и др.)неоднократно подчеркивали важность изучения и описания в онтологиях отношенийвнешней онтологической зависимости.Действительно, при построении наших ресурсов мы можем учесть внутреннююонтологическую зависимость с помощью отношения ЧАСТЬ-ЦЕЛОЕ. А дополнительноеотношение нам нужно именно для того, чтобы описывать отношения между сущностями,которые являются отдельными сущностями по отношению друг к другу, то есть важноввести еще одно отношение именно для представления внешней онтологическойзависимости.При этом даже отношения внешней онтологической зависимости могутразличаться. Мы можем изучать экзистенциальную, то есть зависимость существованияотдельной сущности, или концептуальную внешнюю зависимость, (то есть зависимостьсуществования понятия), строгую (т.е.
зависимость от конкретного экземпляра другойсущности) или родовую зависимость (т.е. зависимость от класса сущностей).В следующих подразделах мы рассмотрим небольшой эксперимент,демонстрирующий различное поведение разных типов отношений онтологическойзависимости при расширении запроса, и опишем правила представления отношенияонтологической зависимости в виде несимметричной ассоциации в тезаурусе РуТез.17.4.1. Влияние типа отношения онтологической зависимости накачество информационного поиска при расширении запросаНетрудно видеть, что различия в типах онтологических отношений понятийдолжны некоторым образом проявляться и в текстах, которые упоминают эти понятия.Так, при строгой зависимости зависимое понятие не может быть оторвано отконкретного экземпляраглавного понятия, поэтому если возникает, существует,обсуждается конкретный пример такого строго зависимого понятия, то существует иобсуждается пример главного понятия. В случае родовой зависимости конкретный примерзависимого понятия может быть оторван от главного понятия, с ним может происходитьчто-то не связанное с главным понятием, но обычно недолго и в относительно небольшойдоле примеров зависимого понятия.
При исторической зависимости пример зависимогопонятия может достаточно долго существовать без главного понятия и участвовать всамых разных ситуациях, например, сельскохозяйственная продукция создается впроцессе сельскохозяйственного производства, затем продукция значимое время живет«своей жизнью»: перевозится, продается, хранится.Различия в «жесткости связей» между понятиями для разных подтипов отношенийонтологической зависимости ведут к различным видам поведения этих отношения винформационно-поисковом контексте. Рассмотрим эти различия на основе анализапоисковых результатов так называемых элементарных запросов.Запросы в информационной системе могут состоять из различного числа терминови слов.
С точки зрения онтологии простейшим запросом является запрос, ссылающийся наодно понятие онтологии. Все другие запросы, ссылающиеся на два или более понятий,должны обрабатываться как функция от элементарного запроса.Мы предполагаем, что потенциальное качество расширения запроса на базеотношений онтологии может изучаться на простых запросах. Если поисковыехарактеристики расширения элементарных запросов являются низкими, то качестворасширения сложных поисковых запросов не может быть лучше.
Если онтологическиеотношения дают возможность эффективного расширения запроса для простых случаев, тоэто является важным шагом для изучения способов расширения сложных запросов.259Смысл такого рода элементарных запросов таков: «найти все о С», и мы будемобозначать его как SQ(C).Рассмотрим два понятия С1 и С2, между которыми установлено отношение R.Выполняя простой запрос SQ(C1), мы хотим узнать, может ли отношение R с понятием C2быть использовано для расширения этого простого запроса.
При этом в выдачу по запросуSQ(C1) с некоторыми весами добавятся документы, содержащие С2. Следовательно,чтобы проверить полезность такого расширения для запроса SQ(C1), не нужно выполнятьреальное вычисление запроса с расширением, а нужно рассмотреть документы,содержащие С2, и выяснить, какой процент документов релевантен SQ(C1).Мы будем изучать потенциальную эффективность расширения простого запросадля главного понятия M в отношении концептуальной зависимости текстами, в которыхупомянуто зависимое понятие D. Для этого мы проанализировали 50 первых текстов,полученных по простому запросу SQ(D).В качестве запроса задавались выражающие понятие слово или выражение.
Текстыв выдаче упорядочивались на основе стандартной векторной модели tf*idf(Callan и др., 1992).ПоискбылвыполненнаколлекцииУниверситетскойИнформационной Системы РОССИЯ (www.cir.ru), содержащей более 800 тысячдокументов. Результаты поиска представлены в Таблице 18.2.Зависимоепонятие DЛЕССАММИТПИАНИСТГАРАЖАВТОМОБИЛЬТип зависимостиГлавное понятие MnD50nM50СтрогаяСтрогаяПо классуПо классуИсторическаяДЕРЕВОГЛАВА ГОСУДАРСТВАПИАНИНОАВТОМОБИЛЬАВТОМОБИЛЬНЫЙЗАВОД4949444318122016144Таблица 18.2. Зависимость качества расширения запроса от типа онтологическойзависимости между сущностями.Здесь:- nD50 – число текстов, содержащих D, релевантных D и релевантных SQ(M),- nM50 – число текстов, содержащих M, релевантных M и релевантных SQ(D).Таблица демонстрирует корреляцию между типом зависимости и поисковымихарактеристиками для простых запросов:- в случае строгой зависимости для практически всех текстов выполняется, чтоесли текст релевантен зависимому понятию, то он релевантен и простомузапросу для главного понятия;- в случае зависимости по классу число текстов, содержащих зависимое понятиеи релевантных простому запросу для главного понятия в отношенииконцептуальной зависимости, меньше;- в случае исторической зависимости число текстов релевантных обоимпонятиям значительно убывает.Поисковые характеристики для обратной ситуации в первых четырех случаях (т.е.,когда выполняем поиск по главному понятию и смотрим, какие из текстов релевантнызависимому понятию) низки, так как имеется множество текстов, упоминающих главноепонятие и не имеющих никакого отношения к зависимому понятию.
Одновременнонаблюдается отсутствие зависимости понятия М от понятия D.В пятой строчке таблицы мы видим, что значительная доля текстов обавтомобильных заводах релевантны простому запросу об автомобилях. При этом нужнозаметить, что здесь имеется отношение концептуальной зависимости: автомобильныйзавод строится, чтобы выпускать автомобили – имеется отношение концептуальнойзависимости по классу понятия АВТОМОБИЛЬНЫЙ ЗАВОД от понятия АВТОМОБИЛЬ.260Таким образом, рассмотрев 10 вариантов расширения запроса на основе 5 парпонятий, мы видим корреляцию между эффективностью использования отношения прирасширении простого запроса и типом этого отношения в рамках теории онтологическойзависимости.17.4.2 Критерии установления отношения онтологической зависимости втезаурусе РуТезПосле многих экспериментов мы пришли к выводу, что в онтологии,предназначенной для автоматической обработки текстов, прежде всего, для приложенийинформационного поиска,необходимо, прежде всего, отражать внешнююконцептуальную зависимость, то есть зависимость существования понятия отсуществования другого понятия (Добров, Лукашевич, 2008).