Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 83
Текст из файла (страница 83)
И,309таким образом, основной задачей при обработке такого запроса является поиск иупорядочение документов, содержащих лишь часть слов запроса.Казалось бы, векторные модели информационного поиска, которые описываютзапрос и документы как вектора слов с весами, дают хороший базис для поиска ответовна длинные поисковые запросы, поскольку эта технология дает возможностьустановления частичного соответствия между запросом и документом.Однако в реальности оказывается, что при использовании векторной модели частопоиск производится по относительно малозначащим словам запроса, в то время как оченьважные слова запроса могут при сопоставлении исчезнуть.
Как мы указывали в разделе12.1 для того, чтобы в некоторой степени управлять формированием поискового запросапредлагается использование многошаговых булевских моделей. В следующем разделебудет описан алгоритм этого типа, который мы назвали «феноменологическая модель».20.5.2. Алгоритм «Феноменологическая модель»Феноменологическая модель – методика решения задачи поиска документов позапросу типа «формулировка проблемы» посредством моделирования понятиямитезауруса содержания ситуации вопроса.Феноменологическая модель преобразует запрос в булевское выражение типаконъюнкция дизъюнкций над понятиями тезауруса:,где ci , j — понятия тезауруса.Элементами дизъюнкции могут быть понятия тезауруса, которые рассматриваютсякак близкие по смыслу – они связаны между собой тезаурусными путями определенноговида.Действительно, вопрос не является последовательностью произвольных слов. Вдлинном вопросе многие упоминаемые понятия связаны между собой, например,принадлежат одной и той же области деятельности или одному и тому же типу.Запрос типа «формулировка проблемы» описывает некоторую определеннуюситуацию.
Поэтому, чтобы иметь возможность дополнять булевское выражениепонятиями из тезауруса, необходимо иметь дополнительное подтверждение, что то илииное расширение подходит к описанной ситуации. Для этого используются информеры(см. раздел 20.2).В создаваемое булевское выражение могут быть добавлены понятия тезауруса издерева-вниз или дерева-вверх одного из понятий запроса, если эти понятия входили всостав информера, то есть принадлежали к множеству наиболее характерных понятийтекущей выдачи. Дополнительное понятие вводится в дизъюнкцию к породившему егопонятию запроса.Феноменологическая модель рассматривается нами не как отдельная модель, а какотдельный компонент многошаговой модели.
В частности, работа феноменологическоймодели начинается после предварительной работы векторной модели, которая отбирает100 наиболее релевантных по запросу документов. Понятия тезауруса из формулировкизапроса упорядочиваются по количеству документов, найденных в этой выдаче – такопределяются наиболее совместимые друг с другом понятия. Работа феноменологическоймодели начинается с наиболее частотного понятия в упомянутой выдаче векторноймодели, которое становится первым компонентом формируемого булевского выражения.Рассмотрим работу феноменологической модели подробнее.31020.5.2.1.
Обработка исходной формулировки вопросаРабота модели начинается с того, что формулировка запроса сопоставляется стезаурусом и составляется список понятий формулировки вопроса. Для многозначныхслов проверяется, не разрешается ли многозначность на основе текущего списка понятий.Если есть возможность разрешить многозначность, то производится выбор значения илиснятие пометки многозначности.Для каждого понятия формулировки определяется количество документовпредварительной векторной выдачи, в которых оно встречается.Следующее действие, которое нужно выполнить – построить списки близких посмыслу и поэтому потенциально объединяемых в дизъюнкции понятий запроса, на ролькоторых подходят понятия, связанные по иерархии тезаурусных связей.Между понятиями вопроса могут быть выявлены следующие типы взаимосвязей:Одно понятие находится в дереве другого понятия(это основной тип взаимосвязи)Деревья-вверх двух понятий пересекаются в основной частитезаурусаТип 1Тип 2Точка пересечения деревьев иерархии может быть расклассифицирована,например, следующим образом:- пересечение по двум отношениям, одно из которых отношение ЦЕЛОЕ и длинапути не больше 3;- пересечение по двум отношениям, одно из которых отношение АСЦ1 и длинапути не больше 3;- пересечение по двум отношениям ВЫШЕ и длина пути не больше 3.- одно из отношений ЦЕЛОЕ и длина пути не больше 10 до каждого из понятий,и длина пути до одного из понятий не больше 5.Данная классификация связана с представлениями о близости понятий, ненаходящимися в непосредственном подчинении в иерархии тезауруса.
Типы перегибовупорядочены по предполагаемому снижению семантической близости между исходнымипонятиями.Таким образом, для каждого понятия вопроса должна быть вычислена информация:- нижестоящие по дереву понятия из вопроса;- вышестоящие по дереву понятия из вопроса;- понятия из вопроса с взаимосвязью-перегибом (тип перегиба, понятие в точкеперегиба).Данные отношения строятся для всех основных понятий запроса, включаямногозначные.Важной частью обработки формулировки запроса является формирование ядразапроса. Ядро вопроса составляют понятия формулировки вопроса, для которыхвыполняются два условия:- они порождаются по однозначным терминам или многозначность терминовбыла разрешена,- их частота среди 100 документов, найденных по данному запросу по векторноймодели, не менее 5.Необходимость выделения ядра запроса связана с тем, что в запросе типа«формулировка проблемы» может быть большое количество случайно упомянутыхпонятий, в том числе, редко встречающихся в коллекции понятий.
В таких случаях ихотносительно малая частотность в целевой коллекции не является критерием их важностидля релевантной выдачи.311Остальные понятия формулировки вопроса также запоминаются для последующегоуточнения запросаВ ходе поиска документов нужно сформировать такой запрос к поисковой системе,чтобы, он включал все понятия ядра для данной формулировки вопроса. В процессеформирования, найденные документы складываются в копилку документов.20.5.2.2.
Построение формулы описания формулировки запросаФормула описания запроса наращивается по шагам. Установлены следующиепараметры алгоритма:- doc_num_max – если число документов в выдаче меньше doc_num_max, тонайденные на очередном шаге документы складываются в копилку документов(например, doc_num_max=50) в качестве потенциально релевантных;- doc_num – если число документов в выдаче, меньше этого числа, то запросначинает расширяться, если больше – то сужаться (например, doc_num=20).Все действия по расширению и сужению запроса оцениваются относительнопервых понятий тезауруса, начавших отдельную дизъюнкцию D0i.Построение формулы начинается с наиболее частотного в векторной выдачепонятия.На каждом шаге выполняется сформированный запрос, оценивается количествонайденных документов.
Рассматриваются две основные ситуации: 1) больше ликоличество документов в выдаче, чем doc_num или 2) меньше, чем doc_num.В первом случае, нужно запрос сужать, то есть увеличивать конъюнкцию новымиэлементами. В качестве нового конъюнкта берется понятие из ядра формулировки ядразапроса, не связанное или с наименьшим весом связанное по тезаурусу с начальнымипонятиями дизъюнкций Di0 текущего булевского выражения. Тем самым более близкиепонятия оставляются как ресурс для возможного расширения запроса. Это даетвозможность одни и те же понятия в некоторых запросах располагать в разных элементахконъюнкции (то есть использовать для сужения запроса), а в других – как элементы однойи той же дизъюнкции (использовать для расширение запроса).Если таких (наиболее далеких) понятий несколько, то выбирается первое по спискупонятий-кандидатов на добавление.Во втором случае, необходимо расширять формируемый запрос, дополняядизъюнкции.В качестве понятий, которыми могут быть дополнены дизъюнкты, могутиспользоваться:- понятия формулировки вопроса, еще не включенные в формируемое булевскоевыражение и имеющие разрешенные тезаурусные пути к начальным понятиямдизъюнкций Di0,- понятия, которых нет в формулировке запроса, но которые находятся в деревевверх или в дереве-вниз начальных понятий дизъюнкций Di0 и которые былиподтверждены информером последнего запроса, как наиболее характерные дляпоследней выдачи документов,- если таких понятий не имеется и есть еще понятия ядра формулировки, которыене включены в булевское выражение, то последняя дизъюнкция запросаначинает наращиваться этими оставшимися понятиями.Результат исполнения последнего запроса (который содержит все понятия ядра)заносится в копилку.
Отметим, что операции сужения и расширения запроса всегдаприменимы, пока не все понятия ядра вопроса включены в формулу. Таким образом,алгоритм гарантирует включение всех понятий ядра вопроса в формулу. Документы,полученные работой алгоритма, присоединяются к документам, полученным векторноймоделью и направляются на дальнейший анализ, который производится подобно312процедуре, описанной в разделе 20.4, посредством оценки наиболее наполненныхэлементами запроса и расширением запроса предложенийПриведем пример сформированного феноменологической моделью булевскогозапроса для следующей формулировки запроса:Вопрос: Туристическая фирма (турагент) занимается реализацией путевоксторонних организаций в санаторно-курортные и оздоровительные учреждения.
Всоответствии с действующим законодательством реализация такого продуктане подлежит обложению НДС. Однако в ходе проверки налоговой инспекцией намбыли предъявлены санкции за неуплату налога с суммы агентскоговознаграждения. Правы ли в данном случае налоговые органы? ("Консультантбухгалтера", N 7, июль 2001 г.)Для данной формулировки выделены следующие понятия ядра, которыенеобходимо «уложить» в булевское выражение (перечислены по алфавиту):АГЕНТСКОЕ ВОЗНАГРАЖДЕНИЕНАЛОГ НА ДОБАВЛЕННУЮ СТОИМОСТЬНАЛОГОВАЯ СЛУЖБАНАЛОГОВОЕ ОСВОБОЖДЕНИЕОЗДОРОВИТЕЛЬНОЕ УЧРЕЖДЕНИЕПУТЕВКИ НА ОТДЫХ И ЛЕЧЕНИЕСАНАТОРНО-КУРОРТНОЕ ЛЕЧЕНИЕСТОРОННЯЯ ОРГАНИЗАЦИЯТУРАГЕНТТУРИСТИЧЕСКАЯ ФИРМАФормирование булевского выражения началось с понятия ТУРАГЕНТ. По данномузапросу в коллекции найдено 66 документов, что больше установленного параметраdoc_num=20, поэтому в конъюнкцию добавляется понятие ОЗДОРОВИТЕЛЬНОЕУЧРЕЖДЕНИЕ, что приводит к величине выдачи 8 документов.