Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 13
Текст из файла (страница 13)
В обратную сторону тоже не лучше: ищем тексты о проституции, получаемтексты о детях.МОНОГРАФИИАСЦТИПОГРАФИИИщем тексты о монографиях, получаем тексты о типографиях и наоборот.Неудачным с точки зрения автоматического расширения запроса представляетсятребование создателей EUROVOC, чтобы каждый дескриптор имел максимум одинвышестоящий дескриптор. Из-за этого отношения ВЫШЕ-НИЖЕ, которые часто могутиспользоваться для расширения запроса, переводятся в симметричные ассоциации,47использование которых, по крайней мере, в одну сторону, не кажется оправданным,например,ПРОМЫШЛЕННЫЕ АВАРИИВЫШЕПРОМЫШЛЕННАЯ БЕЗОПАСНОСТЬАСЦАВАРИИ.Ищем по АВАРИИ, получаем тексты о ПРОМЫШЛЕННЫХ АВАРИЯХ.
Вобратную сторону ищем тексты о ПРОМЫШЛЕННЫХ АВАРИЯХ, получаем тексты олюбых АВАРИЯХ.Отношения ассоциации, рассмотренные выше, могут быть сочтены факторомошибки или субъективизма. Ведь в любом словаре могут встретиться ошибки инеточности. Рассмотрим поподробнее и подвергнем автоматизированной процедурепроверки в информационно-поисковой системе отношения ассоциации, которые, напервый взгляд, не вызывают сомнений в их полезности.Пусть два дескриптора тезауруса С1 и С2 связаны ассоциативным отношением.Использование отношения для расширения запроса заключается в том, что если запроссодержит С1, то можно расширить запрос, включив в него и С2, и получитьдополнительно количество релевантных запросу документов.Запросы в информационной системе могут состоять из различного числа терминови слов.
С точки зрения тезауруса простейшим запросом является запрос, ссылающийся наодин дескриптор тезауруса. Все другие запросы, ссылающиеся на два или более понятий,должны обрабатываться как функция от элементарного запроса.Мы предполагаем, что потенциальное качество расширения запроса на базеотношений информационно-поискового тезауруса может изучаться на простых запросах.Если поисковые характеристики расширения элементарных запросов являются низкими,то качество расширения сложных поисковых запросов не может быть лучше. Еслитезаурусные отношения дают возможность эффективного расширения запроса дляпростых случаев, то это является важным шагом для изучения способов расширениясложных запросов.Смысл такого рода элементарных запросов таков: «найти все о С», и мы будемобозначать его как SQ(C).Рассмотрим два понятия С1 и С2, между которыми установлено отношение R.Выполняя простой запрос SQ(C1), мы хотим узнать, может ли отношение R с понятием C2быть использовано для расширения этого простого запроса.
То есть, можно ли в выдачупо запросу SQ(C1) с некоторыми весами добавить документы, содержащие только С2.Следовательно, чтобы проверить полезность такого расширения для запроса SQ(C1), ненужно выполнять реальное вычисление запроса с расширением, а нужно рассмотретьдокументы, содержащие С2, и выяснить, какой процент документов релевантен SQ(C1).Рассмотрим пример тезаурусной статьи из тезауруса EUROVOC для понятияЗЕМЕЛЬНЫЙ КАДАСТР.По определению российского законодательства, земельный кадастр имеетследующее определение:Земельный кадастр – это систематизированный свод документированныхсведений, получаемых в результате проведения государственного кадастровогоучета земельных участков, о местоположении, целевом назначении и правовомположении земель Российской Федерации и сведений о территориальных зонах иналичии расположенных на земельных участках и прочно связанных с этимиземельными участками объектов.Дескриптор ЗЕМЕЛЬНЫЙ КАДАСТР в Тезаурусе EUROVOC имеет ассоциативныесвязи с такими дескрипторами:- ГРАДОСТРОИТЕЛЬНОЕ ЗАКОНОДАТЕЛЬСТВО,48-МЕСТНЫЕ НАЛОГИ;НАЛОГ НА НЕДВИЖИМОСТЬ;РАЗРЕШЕНИЕ НА СТРОИТЕЛЬСТВО.Выполним поиск по запросу земельный кадастр в коллекции стенограммзаседаний Государственной Думы Федерального Собрания Российской Федерации вУниверситетской системе Россия (www.cir.ru), которая соответствует области применениятезауруса EUROVOC, и проанализируем содержание первых десяти документов в выдаче(стенограммы заседаний Государственной Думы ФС РФ 25.10.2000 – 14.06.2002):При поиске по стенограммам мы имеем- только один фрагмент обсуждения как-либо касается проблемы разрешений настроительство в следующей фразе: «Наконец, кадастровая оценка земли.Посмотрите, что делается вокруг Москвы.
Вокруг Москвы - леса первойгруппы. Эти леса нещадно вырубаются, люди строят дачи. Каким-то хитрымпостановлением леса первой группы переводятся в земли общего пользованиявпрямую, а потом там продаются земли» (выступление Немцова Б.Е. назаседании Государственной Думы ФС РФ от 15 июня 2001 года)- только один фрагмент обсуждения касается законов о строительстве, предлагаярассматривать незавершенный строительный объект как «нормальнуюнедвижимость (стенограмма от 14 июня 2002 года)- только один документ обсуждает земельный кадастр как источник информациидля налоговых органов, но обсуждается проблема налогов на доходы: «базоваядоходность с единицы площади одного рабочего места» (стенограмма от 6июня 2002 года).Проанализировав первые 50 документов выдачи УИС РОССИЯ по словамземельный кадастр, получаем, что 41 документ был релевантен понятию ЗЕМЕЛЬНЫЙКАДАСТР (остальные 9 документов обсуждали назначения в профильном комитетеГосударственной думы).
Из них- 11 документов были релеванты запросу «Налог на недвижимость»;- 9 документов – запросу «Местные налоги»;- 9 документов – запросу «Градостроительное законодательство»;- 3 документа – запросу «Разрешение на строительство».Если мы на том же множестве документов рассмотрим документы, выданные назапрос «Налог на недвижимость», то среди первых 50 документов мы обнаружим лишь 5документов, релевантных запросу «Земельный кадастр».Таким образом, мы видим, что если при поиске по каждому из четырехвышеперечисленных понятий, будут автоматически добавлены документы, обсуждающиеземельный кадастр, то точность поиска «катастрофически» упадет.Рассмотрим, что же происходит, чему посвящены другие тексты выдачи.
Встенограммах обсуждались такие вопросы как составление Земельного кадастра,регистрация прав на недвижимость, кадастровая стоимость земельного участка, купляпродажа земли и другие вопросы.Таким образом, мы видим, что с земельным кадастром связан ряд ситуаций. Тольков относительно небольшой части из них земельный кадастр сильно связан сперечисленными выше четырьмя понятиями, а в других связь с этими понятиямиотсутствует, тексты же могут обсуждать любую из этих ситуаций, поэтому плохиепоисковые характеристики вышеперечисленных ассоциативных связей закономерны.На наш взгляд, установление таких ассоциативных связей нарушает правило,которое пытается ввести стандарт Z39.19 «отношение стоит устанавливать между двумядескрипторами, если при употреблении одного термина другой термин как быподразумевается».
В приведенном примере использование каждого дескриптора из парыне подразумевает другого дескриптора этой же пары. Например, для разрешения на49строительство необходимо множество документов, а не только выписка из земельногокадастра, а сведения из земельного кадастра могут понадобиться для принятия многихдругих решений.При этом, безусловно, правило, устанавливаемое стандартом, абсолютнонеформализовано, сформулировано очень нечетко, и его практически невозможнопоследовательно применять на практике. Как можно более четко сформулировать этоправило, мы рассмотрим в разделе 17.4.3.1.8. Тезаурусы и рубрикаторы в информационно-поисковых системахВ настоящее время в информационно-поисковых системах значительно болеешироко, чем информационно-поисковые тезаурусы, используются рубрикаторы –классификационные системы.ГОСТ 7.74-96 определяет классификационную систему следующим образом:Рубрикатор (классификационная система) - это средство формализованногопредставления содержания документов, данных и информационных запросовпосредством кодов или описаний классов логически упорядоченного множествапонятий.
Информационные классификационные системы являются одним изтипов информационно-поисковых языков.Рубрикаторы могут быть иерархическими и фасетными.Иерархический рубрикатор – это классификационная структура, основанная наотношениях подчинения.Иерархическими являются библиотечные рубрикаторы такие, какУДК(Универсальная десятичная классификация), ББК (Библиотечно-библиографическаяклассификация),ГРНТИ(Государственныйрубрикаторнаучно-техническойинформации).Фасетный рубрикатор - это классификационная структура, основанная на деленииклассифицируемого множества по нескольким классификационным признакамодновременно.
Так, новостное сообщение может классифицироваться как по основнойтеме, так и по региону, в котором произошло событие данной новости.Используются и смешанные формы рубрикаторов.Может возникнуть вопрос, в чем заключается отличие между рубрикаторами итезаурусамиИмеется главное теоретическое отличие терминов тезауруса от рубрикрубрикатора. Термины тезауруса являются фундаментально языковыми, в то время какрубрики соответствуют концептуальным категориям (Bates, 1988).Цель разработки информационно-поискового тезауруса – это, используя реальносуществующие термины предметной области, найти хорошие, компактные слова и фразыдля описания основных тем документов, сведя синонимы и квазисинонимы кдескрипторам тезауруса.Цель создания рубрикаторов, которая не всегда достигается, но всегда ставится, это разработать совершенно отдельные концептуальные категории, которые взаимно непересекаются.
Идеально не должно быть пересечений между рубриками и не должнобыть промежутков, то есть ни одна подобласть не должна остаться вне рубрикрубрикатора.Для того, чтобы определить рубрики достаточно строго и исключить пересечениезначений, часто необходимо называть рубрики длинными и «неуклюжими» именами,например, «Тропические и субтропические фрукты и орехи; полевые культуры».
Такоесловосочетание не встретить в тезаурусе, его назначение - четко определить отдельнуюконцептуальную категорию. Поскольку работать с такими сложно сформулированнымисущностями достаточно тяжело, им обычно присваивается некоторая системаклассификационных кодов.50Таким образом, рубрикатор создается сверху, разделением предметной области наподобласти, а тезаурус – снизу, начиная от терминологии конкретных документов.Процесс присваивания рубрик документам – рубрицирование – в современныхинформационных системах может осуществляться вручную, автоматическом илиавтоматизированном режимах. Подробнее различные способы рубрицирования и ихособенности будут рассмотрены в главе 13.Заключение к главе 1Информационно-поисковые тезаурусы, создаваемые в том виде, как это закрепленомеждународными и национальными стандартами, предназначены для использования их вручном режиме индексирования.
По своей сути такой тезаурус является искусственнымязыком описания, построенным на основе естественного языка, имеется значительнаядистанция между лексическим составом документов предметной области и словарнымсоставом информационно-поискового тезауруса в этой предметной области.Именнопоэтомутрадиционныеинформационно-поисковыетезаурусы,разработанные для ручного индексирования, сложно использовать при автоматическоминдексировании документов, применять в других приложениях информационного поиска,хотя такие тезаурусы содержат в себе много полезной информации о предметной области.Не случайно большое место в исследованиях по применению тезаурусов винформационном поиске занимают тезаурусы другого типа – тезаурусы типа WordNet,словарный состав которых является значительно более подробным, значительно болееблизок лексике документов. Структура и принципы создания тезауруса WordNet будутрассмотрены в следующей главе.51Глава 2.