Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 81
Текст из файла (страница 81)
Задание весовэтих классов может осуществляться параметрически. В большинстве случаев, веса классовзначимости понятий задаются следующим образом:- центры основных тематических узлов– 0.95;- другие понятия основных тематических узлов– 0.85;- центры локальных тематических узлов– 0.70;- другие понятия локальных тематических узлов– 0.65;- упоминавшиеся понятия, не вошедшие в предыдущие классы– 0.20.Базовый вес понятия получен в качестве интегрального анализа распределения втексте совокупностей близких по смыслу терминов.
Чтобы снизить фактор ошибкивычисления базовых весов, а также сделать веса понятий более дробными, дляформирования окончательного веса понятий учитывается также относительнаячастотность понятий в тексте. Окончательный вес понятия в тексте (c, D)рассчитывается по следующей формуле: (c, D) = *(c, D) + (1-) freq (c, D) [freq*(D)] –1(20.1)где *(c, D) = max Th(c, D) (c, D) – максимум базовых весов понятия c втематических узлах; оптимальная величина = 0.7; freq (c, D) – частота понятия c вдокументе D, freq*(D) = max dD freq (d, D) – максимальная частота среди понятийдокумента D.Таким образом, при загрузке текстов в поисковую систему создаетсяконцептуальный индекс текста по тезаурусу, строится тематическое представление текста,каждому понятию присваивается вес по формуле (20.1).При расширении запроса по тезаурусу необходимо организовать выдачу и такихтекстов, в которых нет исходных понятий запроса, но имеются понятия нижестоящие поиерархии – так называемое дерево расширения вниз (Добров, Лукашевич, 2001).Каждое понятие в дереве расширения имеет свой вес, который зависит отсуммарного отношения данного понятия к исходному понятию и не зависит от длиныпути до понятия-вершины дерева.
В настоящее время используются следующие величинывесов Q(t,c), где t - исходное понятие, c – понятие в его дереве расширения:Q( НИЖЕ(t,c) )= 0.9Q( ЧАСТЬ(t,c) )= 0.8Q( АСЦ(t,c) )= 0.6Q( АСЦ2(t,c) )= 0.5(20.2)Эти величины используются как коэффициенты, на которые домножается вес,присвоенный данному понятию при анализе конкретного документа.300Документ может содержать несколько различных понятий их дерева расширения.Для вычисления веса такого документа веса всех понятий из дерева расширениясуммируются так, чтобы придать больший вес документам, которые содержат несколькопонятий из дерева расширения:W (t ) 0 .7 max V (c) Q (t , c) c Tr (t )R (t , D ) 0.3 max V (t ),1 R (t , D ) где R(t , D) ,(20.3) V (d ) Q(t , d )d Tr (t ) DЕсли документ содержит понятие, которое связано с исходным понятием запросапосредством отношения с модификатором, то используются дополнительныепонижающие вес коэффициенты.
Это связано с тем, что модификатор сообщаетинформацию о том, что это отношение недостаточно стабильно и может быть в некоторыхконтекстах нерелевантно.Мы считаем, что такое отношение подтверждается, если в документе есть другоепонятие из того же дерева расширения, которое связано с понятием-вершиной дерева бездополнительных модификаторов. В этом случае коэффициент отношения смодификатором совпадает с коэффициентом расширения без модификаторов.Если такое отношение не подтверждается, то используется дополнительноеснижение веса отношения в 2 раза.Q(NT A(V))=0.45=(0.9/2)Q(PART A(V))=0.40=(0.8/2)(20.4)20.2. Общественно-политический тезаурус как поисковое средство вУниверситетской информационной системе РоссияОбщественно-политический тезаурус используется как поисковое средство вУниверситетской информационной системе Россия (www.cir.ru), которая создана иразвивается как тематическая электронная библиотека и база для исследований и учебныхкурсов в области экономики, управления, социологии, лингвистики, философии,филологии, международных отношений и других гуманитарных наук (Богомолова и др.,2008).Пользователь может задать Булевский запрос, включающий как слова, так ипонятия Тезауруса.
Понятие тезауруса может быть задано без расширения по дереву.Тогда в ответ на запрос будут выданы документы, содержащие хотя бы одно изтекстовых выражений, сопоставленных данному понятию. Если понятие тезауруса заданос расширением по дереву, то релевантными считаются документы, содержащие хотя быодин синоним выбранного понятия или (с несколько меньшим весом) хотя бы одинсиноним понятий из дерева-вниз выбранного понятия.
Таким образом, выбор в запросодного понятия может оказаться равносилен выбору сотен и тысяч слов и словосочетаний.Поэтому поиск с использованием Тезауруса состоит из следующейпоследовательности шагов:- поиск нужного понятия;- выбор подходящего условия включения понятия в запрос;- выбор следующего понятия или исполнение запроса.301Рис.20.1. Поиск подходящего понятия тезауруса для запроса―вынужденная миграция населения‖;Для поиска по Тезаурусу пользователь выбирает из списка общих атрибутов опцию―Тезаурус ЦИИ‖, вводит в крайнем правом окне термин (в данном случае было введенослово ―миграция‖) и нажимает на кнопку ―список‖. Появляется список понятий Тезауруса,где хотя бы один термин содержит введенное слово (Рис.20.1.).Пользователь выбирает наиболее подходящее понятие, например, ―Вынужденнаямиграция населения‖ и задает правило учета этого понятия в условиях запроса с помощьюклавиш, расположенных слева:― + ‖ - строго данное понятие,― +t ‖ - понятие с расширением по дереву,― - ‖ - исключить термин,― -t ‖ - исключить термин и нижестоящие понятия.В ситуации, изображенной на Рисунке 20.1-1 пользователь выбрал кнопку ―+t‖.(Рис.20.1-2).
В окне запроса появляется новое условие (Рис. 20.1-3):/Термин_расш=ВЫНУЖДЕННАЯ МИГРАЦИЯ НАСЕЛЕНИЯЭтот прием избавляет от процедуры ввода длинных строк в условия запроса.Теперь, если пользователь нажимает на клавишу ―искать”, то система выдает документы,содержащие один из терминов:- ―насильственное выселение‖;- ―насильственное переселение‖;- ―вынужденная миграция‖;или термины, приписанные подчиненным понятиям ―БЕЖЕНЕЦ‖ (―беженка‖,―беженский‖), ―ВЫНУЖДЕННЫЕ ПЕРЕСЕЛЕНЦЫ‖ (―вынужденный мигрант‖) и т.д.302Использование опции ―расширение по дереву Тезауруса‖ при поиске сиспользованием географических названий позволяет найти все географические названия иадминистративные единицы.
При поиске по термину ЮГО-ВОСТОЧНАЯ СИБИРЬ будутвыданы также документы, содержащие: БАЙКАЛ, ЗАБАЙКАЛЬЕ, БУРЯТИЯ,ЧИТИНСКАЯ ОБЛАСТЬ, ПРИБАЙКАЛЬЕ и т.д.Особенно впечатляющих результатов удается добиваться, формируя запрос изнескольких понятий с расширением по дереву.
В частности, можно эффективно найтидокументы следующей тематики:/Термин_расш=“ПРЕСТУПНОСТЬ”and /Термин_расш= “СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ ОКРУГ”или, например,/Термин_расш=“МИГРАЦИЯ”and /Термин_расш= “АМУРСКАЯ ОБЛАСТЬ”Рис.20.2. Пример статьи,найденной по понятию СУПРУЖЕСТВО с расширением по дереву.На Рис.20.2 приведен пример статьи, найденной по понятию СУПРУЖЕСТВО срасширением по дереву. В статье встречаются термины брак, бракосочетание, жених иневеста, сваха.
При этом само слово супружество в документе не встречается.Найденные в документе термины подсвечиваются – красным цветом – синонимы понятия,использованного в запросе, фиолетовым цветом – синонимы подчиненных понятий.Запрос может быть также уточнен путем просмотра тезаурусной статьи понятия(Рис.20.3), которая получается при переходе по ссылке, связанной с понятием. При этомпользователь, ―двигаясь‖ по связям между понятиями, может выбрать более подходящуюему тематику, тем самым уточнить смысл своего запроса.303Рис.20.3. Тезаурусная статья для понятияВЫНУЖДЕННАЯ МИГРАЦИЯ НАСЕЛЕНИЯРис.
20.4. Выдача информера по запросу брак304При формировании выдачи документов на запрос, происходит выявление наиболеехарактерных для данной выдачи понятий тезауруса, которые выдаются в колонку справа(рис. 20.4.). В разных системах выдача такого рода называется ассоциативный контекст,информационный портрет (см. например, (Антонов, Курзинер, 2003)), информер. Понятиятезауруса в информере упорядочиваются на основе веса, полученного по формуле типаtf*idf, когда частотность упоминания понятия в выдаче сопоставляется с частотностьюупоминания понятия в коллекции.Понятия тезауруса в информере также снабжены кнопками добавления в запрос,что позволяет одним нажатием мыши модифицировать запрос так, чтобы учесть в запросеили исключить из запроса данное понятие.20.3 Тестирование эффективности информационного поиска на основе ТезаурусаВ данном разделе мы опишем эксперимент по тестированию качестваинформационного поиска с использованием тезаурусных знаний в условиях, когдазадаваемые запросы хорошо покрываются текстовыми входами Общественнополитического тезауруса.
В качестве запросов были выбраны рубрики из Классификатораправовых актов (Указ, 2000). Поиск осуществлялся на коллекции нормативных актовУИС РОССИЯ.Для тестирования эффективности информационного поиска мы выполнили наборзапросов в УИС РОССИЯ. Каждый запрос был сформулирован дважды: один раз какзапрос на поиск по словам, второй раз - как запрос на поиск по понятиям тезауруса сполным расширением по дереву. Поиск по словам осуществляется с использованиемвекторной модели в формулировке системы Inquery (Callan и др., 1992).При выполнении подавляющего количества запросов количество документов,найденных с использованием деревьев Тезауруса значительно превышало количестводокументов, найденных по словам.
Таким образом, полнота поиска с использованиемдеревьев тезауруса значительно возросла. Однако, как известно, увеличение полнотыпоиска часто сопровождается снижением точности поиска, то есть релевантнымисчитается большее количество нерелевантных документов.Чтобы сопоставить точность поиска по Тезаурусу и по словам, мы использовалиметодику оценки средней точности по трем заданным значениям полноты, описанную в(Vorhees, 1999).
Точность выполнения запроса вычисляется при следующих трехзначениях полноты: 0.2, 0.5, 0.8.Чтобы оценить эффективность поиска, необходимо сначала определить множестворелевантных документов, а затем проверить релевантность значительного количестваполученных по запросу документов. Для снижения трудозатрат, необходимых напроведение оценок, мы сохранили формулировку запроса, но стали сокращать временнойинтервал до тех пор, пока не получили как релевантные 30-40 документов.Эффективность поиска на таком количестве документов уже достаточно простопроверить.Приведем результаты наших оценок для двух запросов.Мы выполнили запрос «Медикаменты» по нормативным документам во временноминтервале 01.09.2000 – 01.01.2001 и получили 40 документов при поиске по Тезаурусу(109 понятий - 243 терминов - в дереве расширения: антибиотики, аптека, вакцина,витамин и т.д.) и 8 документов при поиске по словам. Просмотрев все полученныедокументы, мы выяснили, что имеется 25 релевантных документов.Точность нужно было вычислить при достижении в списке документов 5-го(5/25=0.2), 12-го (12/25=0.6) и 20-го (20/25=0.8) релевантных документов.При поиске по Тезаурусу пятый релевантный документ был получен десятым,двенадцатый – двадцатым, двадцатый – тридцатым.