Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 38
Текст из файла (страница 38)
Анализ отношения АССОЦИАЦИЯ втрадиционных информационно-поисковых тезаурусах: тезаурус EUROVOCОтношение ассоциации является одним из наиболее часто используемыхотношений в информационно-поисковых тезаурусах. Как мы уже отмечали в разделе1.2.2, несмотря на попытки экспликации описания отношений в стандартах ируководствах, установление отношения ассоциации является достаточно субъективнойпроцедурой. Кроме того, как мы показали в разделе 1.7.2 на примере тезаурусаEUROVOC, применение ассоциативных отношений при расширении запроса приводит ксерьезному снижению точности поиска.В литературе обычно обсуждается несколько аспектов, связанных с отношениемАССОЦИАЦИЯ. Во-первых, в ряде работ предлагается приписывать различные весаассоциативным отношениям тезауруса (Tudhope, Taylor, 1997; Chen и др., 1993), другаячасто работ изучает вопросы необходимости дополнительной семантическойклассификации отношений АССОЦИАЦИЯ (Tudhope и др., 2001; Rada et al.
1991,Леонтьева и др., 1978), а также исследуются вопросы зависимости весов ассоциативныхотношений при расширении запросов от их семантического типа (Jones, 1993).Вернемся к рассмотренным в разделе 1.7.2 примерам ассоциативных отношений изтезауруса EUROVOC:ЗЕМЕЛЬНЫЙ КАДАСТРАСЦ ГРАДОСТРОИТЕЛЬНОЕ ЗАКОНОДАТЕЛЬСТВО,МЕСТНЫЕ НАЛОГИ;НАЛОГ НА НЕДВИЖИМОСТЬ;РАЗРЕШЕНИЕ НА СТРОИТЕЛЬСТВОАнализируявыдачупоисковойсистемыпоколлекциистенограммГосударственной Думы Российской Федерации по запросу земельный кадастр, мыпоказали, что если документы этой выдачи использовать при поиске по запросамградостроительное законодательство, местные налоги, налог на недвижимость илиразрешение на строительство, то точность выдачи по этим запросам значительноснизится.Рассмотрим, почему же это происходит, чему посвящены другие тексты выдачи,ведь сами по себе представленные отношения не кажутся ошибочными.
В стенограммах,полученных по запросу земельный кадастр, обсуждались такие вопросы как составлениеЗемельного кадастра, регистрация прав на недвижимость, кадастровая стоимостьземельного участка, купля-продажа земли и другие вопросы.Таким образом, мы видим, что с земельным кадастром связан ряд разнообразныхситуаций. Только в относительно небольшой части из них земельный кадастр сильносвязан с перечисленными выше четырьмя понятиями, а в других связь с этими понятиямиотсутствует, тексты же могут обсуждать любую из этих ситуаций, поэтому плохиепоисковые характеристики вышеперечисленных ассоциативных связей закономерны.Получается, чтобы сделать ассоциативную связь полезной при автоматическомрасширении запроса, необходимо устанавливать такие связи, чтобы они действовали, непропадали в подавляющем числе ситуаций, в которых участвуют понятие или егоконкретные экземпляры.На наш взгляд, именно отношение онтологической зависимости проявляет такуюустойчивость, обеспечивает возможность надежной опоры в разнообразных ситуациях,которые могут обсуждаться в связи с той или иной сущностью.Так, нетрудно видеть, что при строгой зависимости зависимое понятие не можетбыть оторвано от конкретного экземпляра главного понятия, поэтому если возникает,142существует, обсуждается конкретный пример такого строго зависимого понятия, тосуществует и обсуждается пример главного понятия.В случае родовой зависимости конкретный пример зависимого понятия можетбыть оторван от главного понятия, с ним может происходить что-то не связанное сглавным понятием, но обычно недолго и в относительно небольшой доле примеровзависимого понятия.При исторической зависимости пример зависимого понятия может достаточнодолго существовать без главного понятия и участвовать в самых разных ситуациях,например, сельскохозяйственная продукция создается в процессе сельскохозяйственногопроизводства, затем продукция значимое время живет «своей жизнью»: перевозится,продается, хранится.
Однако многие свойства результата определяются порождающим егопроцессом.Таким образом, если для каждого понятия в тезаурусе выявлять понятия,находящиеся с ним в отношении онтологической зависимости, отмечать их, например,направленной ассоциацией, то эти отношения можно было бы использовать дляавтоматического расширения запроса, поскольку они определяют подавляющееколичество ситуаций, которые могут случиться с конкретными экземплярами зависимогопонятия.Так, например, понятие ЗЕМЕЛЬНЫЙ КАДАСТР является зависимым понятием отпонятия ЗЕМЕЛЬНЫЙ УЧАСТОК (родовая зависимость), поскольку понятиеЗЕМЕЛЬНЫЙ КАДАСТР не может возникнуть, если не существует этого понятияЕсли мы опять вернемся к документам, выданным по запросу земельный кадастр,то мы можем видеть, что все эти документы релевантны запросу земельный участок.Другие упомянутые дескрипторы также имеют отношения зависимости:-понятие ГРАДОСТРОИТЕЛЬНОЕ ЗАКОНОДАТЕЛЬСТВО зависит от понятияГРАДОСТРОИТЕЛЬСТВО;-понятиеМЕСТНЫЕСАМОУПРАВЛЕНИЕ;-понятие РАЗРЕШЕНИЕСТРОИТЕЛЬСТВО;-понятиеНАЛОГИНЕДВИЖИМОСТЬ.НАЛОГИНАНАзависитотСТРОИТЕЛЬСТВОНЕДВИЖИМОСТЬпонятиязависитзависитМЕСТНОЕототпонятияпонятияВозникает вопрос, как отношения онтологической зависимости междудескрипторами тезауруса связаны с семантическими отношениями (часть, результат,причина, содержание и др.), посредством которых часто предполагается улучшитькачество описания ассоциативных отношений в информационно-поисковых тезаурусах(см.
также раздел 4.5.2).В Таблице 9.1. перечислим примеры ассоциативных отношений из тезаурусаEUROVOC, которые представляют собой отношения онтологической зависимости.Каждое отношение охарактеризуем также с семантической точки зрения – припишем емуназвание семантического отношения от главного понятия к зависимому (упорядочено поглавному понятию):Мы видим, как разнообразные семантические отношения могут соответствоватьодному и тому же отношению онтологической зависимости. Онтологическаяхарактеризация отношений представляет собой другое, отличное от семантическойхарактеризации измерение отношений, и, на наш взгляд, расширением запроса управляютименно онтологические характеристики отношения.143Главное понятиеЗависимое понятиеСемантическоеотношениеДепутатКандидат в депутатыРезультатДетиМногодетные семьиЧастьДетиусыновлениеОбъект действияЗаболеваниеПрофилактика заболеванийКонтрагентЗерноИмпорт зернаОбъектЗлоупотребление властьюИски об отмене решенийПричинаИнвестиционный рискДиверсификация рисковКонтрагентКачество продукцииЗнак качестваСодержаниеОфицерОфицерское движениеСубъектПарламентОбращение парламентаСубъектПарламентарийПарламентский иммунитетНоситель свойстваПрезидентИнаугурацияСубъектТаблица 9.1.
Примеры соответствий между отношениямионтологической зависимости и семантическими отношениямиТаким образом, поисковые характеристики в автоматическом режиме любоготезауруса, созданного для ручного индексирования, могут быть улучшены, если егоассоциативные отношения будут проанализированы с точки зрения теориионтологической зависимости:- ассоциативные отношения, не являющиеся отношениями онтологическойзависимости, помечаются как используемые только в ручном режиме;- ассоциативные отношения представляющие собой отношения онтологическойзависимости, получают направление от главного понятия к зависимомупонятию;- отношения онтологической зависимости между дескрипторами тезауруса, непредставленные в виде ассоциативных отношений, дополняются.- в некоторых случаях, когда ассоциации соединяют близкие по смыслу понятия,а также в некоторых других, которые мы обсудим ниже, ассоциациядействительно является симметричной и может быть использована дляавтоматического расширения запроса в обе стороны.При использовании тезауруса в автоматическом режиме используются толькоотношения 2) и 3) в направлении от главного понятия к зависимому понятию.Анализ 100 первых ассоциаций тезауруса EUROVOC, рассмотренных поалфавитному порядку расположения дескрипторов показал (Loukachevitch, Dobrov,2004c), что 33 ассоциации представляют собой отношение ВЫШЕ-НИЖЕ и записаны какассоциации только потому, что в тезаурусе EUROVOC не разрешено два вышестоящихпонятия.Таким образом, они явно несимметричны и могут быть использованы винформационном поиске после их разметки, например,аварияааа144промышленная авариярадиационная аварияядерная авария27 ассоциаций представляют собой отношения, которые могут быть использованытолько при ручном составлении запроса, поскольку два ассоциированных понятиясвязаны между собой лишь в части ситуаций, которые могут с ними случиться, например,авария – чрезвычайное положение (далеко не всякая авария приводит к введениючрезвычайного положения, а чрезвычайное положение далеко не всегда возникает из-зааварии);41 ассоциация представляют собой отношения зависимости и могут бытьиспользованы в одном из направлений (первое понятие в строчке является зависимым отвторого; запрос, содержащий второе понятие, может быть расширен первым понятием):-абитуриенты – высшее образованиеавтомобильная промышленность – автомобильагентское соглашение – посредничество3 ассоциации («истинные ассоциации») представляют собой очень близкиепонятия, поэтому поиск может производиться в любом направлении:-автомобильные перевозки – автомобильный транспорт,аграрный сектор – сельское хозяйствоЗаключение к главе 9Отношения онтологической зависимости стали вводиться в онтологическиересурсы относительно недавно и еще требуют значительного объема исследований.Наиболее часто эти отношения используются в онтологиях верхнего уровня.
Этоотношение используется в определении понятий-ролей, а также в определении важныхподвидов отношения ЧАСТЬ-ЦЕЛОЕ.В этой главе мы также показали, что неявно отношение онтологическойзависимости используется при обсуждении рекомендаций по установлению отношенийчасть-целое и ассоциация в информационно-поисковых тезаурусах.145ЧАСТЬ 3. ПРИМЕНЕНИЕ ТЕЗАУРУСОВ ВКОНКРЕТНЫХ ПРИЛОЖЕНИЯХИНФОРМАЦИОННОГО ПОИСКА146В этой части мы рассмотрим ряд приложений автоматической обработки текстов иинформационного поиска, в которых используются тезаурусы и онтологии.