Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 82
Текст из файла (страница 82)
Таким образом, средняя точностьвыполнения запроса: (0.5+0.65+0.66)/3=0.57.305При поиске по словам все восемь документов были релевантны. В первой точкеточность равна 1.00, но двух других значений полноты поиск по словам достичь не смог,поэтому точность в этих двух точках равна 0.00 . Средняя точность – 0.33.По запросу «Пожарная безопасность» по нормативным документам на том жевременном интервале было получено 32 документа при поиске по Тезаурусу (26 понятий 99 терминов - в дереве расширения: авиапожарная служба, брандспойт, …, пожарнаязащита и т.д.), и 20 документов при поиске по словам.
Было выявлено 27 релевантныхдокументов. Получены следующие оценки точности:Тип поискаТочностьпри полноте0.2Точностьпри полноте0.5Точностьпри полноте0.8СредняяточностьПо тезаурусу1.000.780.850.88По словам0.830.880.000.57Приведем примеры документов, которые были сочтены нерелевантными.Документы о награждении правительственными наградами и документы о подчиненностипредприятий тому или иному ведомству были рассмотрены как нерелевантные двумуказанным запросам. По запросу «Пожарная безопасность» документ об обязательнойдактилоскопической экспертизе пожарников был рассмотрен как не имеющий отношенияк теме. По запросу «Медикаменты» были сочтены нерелевантными 5 документов опсихотропных средствах, поскольку в этих документах термин «психотропное средство»упоминался наряду с термином «наркотики», и документы были посвящены проблемепресечения незаконного оборота психотропных средств и наркотиков.Всего было выполнено тестирование 19 запросов – рубрик Президентскогорубрикатора.
Таким образом, были получены следующие значения точности:Точность при поиске по терминам:- Точность по терминам в точке 0.2: -- 0.81- Точность по терминам в точке 0.5: -- 0.58- Точность по терминам в точке 0.8: -- 0.46- Средняя точность:= 0.62Точность при поиске по словам:- Точность по терминам в точке 0.2: -- 14.76 -- 0.77- Точность по терминам в точке 0.5: -- 9.77 -- 0.52- Точность по терминам в точке 0.8: -- 0.36 -- 0.02- Средняя точность:= 0.44Отметим, что в условиях эксперимента запросы были небольшой длины и при этомимели достаточно хорошее пересечение с терминами Общественно-политическоготезауруса.
На практике частой ситуацией является наличие в запросе большого количестваслов, не входящих в Общественно-политический тезаурус, имеющих другое значение, чемописано в Общественно-политическом тезаурусе и др.Данный эксперимент подтверждает, что при совпадении запроса с терминомтезауруса расширение поиска по тезаурусу приводит к значительному увеличениюэффективности информационного поиска.
Кроме того, этот эксперимент подтверждает,что наши усилия описывать наиболее надежные, применимые в разных контекстах,отношения в тезаурусе также дали свои результаты.30620.4. Тезаурус и векторная модель в задаче поиска поколлекции нормативно-правовых актов РОМИПВ реальных условиях задания запросов пользователем запросы по отношению ктезаурусу могут быть весьма разнообразны:- запрос может быть очень коротким (например, содержать отдельноемногозначное слово, значение которого без диалога с пользователем выяснитьневозможно),- запрос может содержать некоторую совокупность слов, в которой не найденытермины тезауруса,- запрос может быть достаточно длинным, и одна часть запроса можетограничивать контекст расширения для другой части запроса и др.Для учета разных ситуаций была предложена смешанная модель, основанная насовокупности факторов, включая веса слов по пословной векторной модели, веса понятийтезауруса, нахождение сущностей из запроса в ограниченном числе предложенийдокумента.
Модель тестировалась на семинаре РОМИП-2008 в коллекции нормативноправовых документов (Агеев и др., 2008).Основной направленностью разработки модели была обработка длинныхинформационных запросов, то есть запросов, которые имеют длину более 3 слов, ивыражают некоторую информационную потребность. Информационные запросы условнопротивопоставляются навигационным запросам, суть последних в нормативно-правовойколлекции заключается в получении документа путем задания его формальныхреквизитов: типа документа, номера документа, даты выхода, заголовка.Для поиска документов по запросам в нормативно-правовой коллекциииспользовалась двухшаговая процедура.На первом этапе исполнялась комбинированная векторная модель, построенная надвух индексах – индексе лемм и индексе понятий Общественно-политического тезауруса.Понятия тезауруса дают возможность дополнительно учесть три дополнительныхфактора:- синонимию терминов,- лексическую многозначность – производится предварительный выбор наиболееподходящего по контексту значения слов и выражений,- близкое расположение в тексте компонентов многословных терминов ивыражений.Поэтому результаты работы двух видов векторных моделей могут достаточносерьезно различаться.Результаты работы векторных моделей замешиваются с помощью параметра α 1, тоесть каждый документ получает вес по следующей формуле:Wd = α1Wword + (1- α1) Wconc,(21.5)где Wword – вес документа по пословной векторной модели, Wconc – вес документа повекторной модели, выполненной на основе концептов тезауруса.Из документов, найденных по смешанной векторной модели, отбирается 100документов.На втором этапе обработки запроса найденные 100 документовпереупорядочиваются по следующему принципу.
Максимальное число элементов запроса(слов и терминов) должно быть найдено не разбросанными по всему тексту, асосредоточены в двух парах соседних предложений. Коэффициент α2 оцениваетотносительную весовую значимость лемм и понятий тезауруса в предложениях.307Получение нового веса документа можно представить как двухпроходный процесс.Сначала подсчитываются веса отдельных предложений, которые получаютсясуммированием весов лемм и концептов из запроса, найденных в предложении:Ws = α2 Σ wwordi + (1- α2) Σ wconcj(21.6)где wwordi , wconcj – веса слов и концептов предложения.На втором проходе вычисляется «усиленный» вес каждого предложения: если невсе элементы запроса найдены в текущем предложении, то проверяется, нет линедостающих элементов в соседнем предложении или в еще одной паре предложенийдокумента. Веса дополнительных элементов найденных в других предложенияхдомножаются на параметрические коэффициенты α4 (для присоединения элементов изсоседнего предложения) и α5 (для присоединения элементов из другой пары рядомлежащих предложения).Таким образом, формула «усиленного» веса предложения имеет следующий вид:Ws1+ = W1 + α4 W2- + α5 [W3- + α4 W4-] ,(21.7)где W1 - вес «главного» предложения, W2- – вес следующего предложения, W3- , W4- веса еще одной пары смежных предложений.
Причем для каждого следующегопредложения учитываются только те слова и концепты, ассоциируемые с запросом,которые еще не были учтены для предыдущих предложений.Наконец, на третьем этапе исходный вес документа, полученный на первом этапе,замешивается с весом документа по предложениям, полученный на втором этапе.Параметры модели оптимизировались на материалах дорожки нормативноправового поиска romip-legal-2005. Оптимизировалось максимальное число релевантныхдокументов в первых пяти документах выдачи, то есть показатель Precision(5).0,80,70,6xxxx-1uis0,5xxxx-30,4xxxx-40,3xxxx-5xxxx-60,20,1000,10,20,30,40,50,60,70,80,91Рис.20.7 Результаты дорожки РОМИП-2008 Legal adhoc (pd35).В дорожке поиска по нормативно-правовой коллекции представленная модельпоказала лучший результат из 6 представленных алгоритмов, получив на первых 35документах, которые были полностью оценены людьми-оценщиками, показатель среднейточности MAP (Агеев, Кураленок 2004) – 29.6% (см. рис.21.7), который превышаетпоказатель следующего участника (27.6%) на 7%.Чтобы проанализировать, насколько хорошо модель отработала на целевоммножестве длинных информационных запросов, мы разбили запросы на несколько групп,отдельно выделив длинные информационные запросы, длиной более 3 слов, например,уплата налога на прибыль организацией при отсутствии затрат (27 запросов).308Пользуясь этой классификацией, мы разделили все оцененные запросы этойдорожки на соответствующие группы и оценили среднюю точность участников по этимгруппам.
На длинных информационных запросах нами была получена средняя точностьMAP – 36%, что значительно превышает наш средний результат (29%), а также результатследующего участника (32%).Проведенный анализ качества работы системы на разных группах запросовпоказывает, что важно уметь автоматически классифицировать поступающие запросы, и,в зависимости от класса запроса, применять несколько разные алгоритмы поиска.20.5. Использование комбинированных моделей для поиска документов позапросам типа «формулировка проблемы» в правовой области20.5.1. Особенность задачиКак мы уже указывали в предыдущем разделе, несмотря на то, что подавляющеебольшинство запросов в поисковых системах относительно небольшой величины (всреднем 2-3 слова), существуют ситуации, когда пользователь задает достаточно длинныйзапрос.
Необходимость в особенно длинных запросах возникает тогда, когда упользователя есть какая-то проблема, и он обращается в интернет-форумы или вопросноответные сервисы, описывает свою проблему и ждет ответа от других пользователейфорума или хотел бы найти документ, который помог бы ему справиться с его проблемой.При обращении в форум обязательным условием является то, что перед заданием вопросалюдям, необходимо сделать усилия и попробовать найти ответ на свою проблему впредыдущих постах форума.Задача поиска ответа на вопрос в виде формулировки проблемы значительноотличается от задач, решаемых в стандартных современных вопросно-ответных системах:- - количество запросов, похожих на вопросы, которые тестировались в рамкахконференции TREC (см. главу 12), достаточно мало.- большинство вопросов представляет собой либо детальное описание ситуации ивопрос, специфичный для данной ситуации, либо совокупность структурнопростых подвопросов, которые вместе также задают описание специфическойправовой ситуации.- при этом структурно сложные вопросы состоят из нескольких предложенийи/или содержат несколько подвопросов.При обработке структурно сложных вопросов имеются следующие сложности посравнению с обработкой простых вопросов:- автоматически трудно точно определить структуру вопроса – разбить егоправильно на подвопросы, определить фокус вопроса;- если часто можно ожидать, что ответ на структурно простой вопрос можетсодержаться в одном предложении текста, то ответ на структурно сложныйвопрос может «собираться» из нескольких предложений документа.В связи с этим для структурно сложных вопросов наиболее важным является поискдокументов, содержащих описание соответствующей ситуации, при этом часто учетинформации о структуре вопроса носит дополнительный характер.Обработка длинных поисковых запросов в значительной степени отличается отобработки коротких поисковых запросов, которые являются наиболее распространеннымизапросами к поисковым системам.Если при поиске по коротким запросам, поисковая система, скорее всего, найдетмножество документов, включающих все слова запроса, и ее главной задачей являетсяправильное упорядочение найденных документов, то при обработке длинных запросов кинформационной системе в подавляющем большинстве случаев не найдется ни одногодокумента или найдется всего несколько документов, содержащих все слова запроса.