Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 42
Текст из файла (страница 42)
Наоснове этого исследования авторы делают выводы, что некоторые виды сглаживания винформационном поиске лучше подходят для коротких запросов, а другие для болеедлинных сложных запросов.11.2. Оценка качества информационного поискаКачество работы систем информационного поиска оценивается на основеспециальноразрабатываемыхмер.Основнымихарактеристикамикачества159информационного поиска являются полнота и точность (Агеев, Кураленок, 2004; Manningи др., 2008)Полнота (recall, r) — доля релевантных документов в выдаче поисковой системыпо отношению ко всем релевантным документам коллекции.Точность (precision, p) — доля релевантных документов по отношению ко всемдокументам в поисковой выдаче.Пусть N — число документов в коллекции, n — число документов в коллекции,релевантных некоторому запросу, m — число документов в выборке, полученнойсистемой на данном запросе, А — число релевантных документов в выборке.
Тогдаp = A/m,r = A/n,(11.12)Этих характеристик достаточно, когда система поиска не производитдополнительного ранжирования документов. Если ранжирование документовпроизводится, то нужно оценивать не только общее число найденных релевантныхдокументов, но и на каких местах в выдаче располагаются релевантные документы.Для определения качества работы поисковой системы в начале списка результатовпоиска используется показатель Точность на уровне n документов (Precision (n)), которыйопределяется как количество релевантных документов среди первых n документов,деленное на n. Например, если система выдает не более 10 документов на первойстранице, то precision (10) отражает качество результатов системы, получаемых на первойстранице.Для оценки качества полной выдачи поисковой системы применяется показательсредняя точность (average precision), которая усредняет точность при выдаче каждого изK релевантных документов.Точность на уровне i-го релевантного документа prec_rel(i) равна precision (pos(i)),если релевантный документ находится в результатх запроса на позиции pos(i).
Если i-йрелевантный документ не найден, то prec_rel(i)=0.Средняя точность для заданного вопроса равна среднему значению величиныprec_rel(i) по всем k релевантным документам:AvgPrec=(1/k) Σprec_rel(i)(11.13)Усреднение величины средней точности по всем запросам дает величину MAP –mean average precision – число, которое характеризует работу поисковой системы посовокупности запросов.При ранжированной выдаче значения точности и полноты при разных К могутбыть отражены с помощью так называемой кривой «полнота- точность» (см.рис.
11.1 ).Рис. 11.1. Кривая «полнота-точность»160Получившийся график носит зигзагообразный характер, поскольку если (k+1)-йдокумент не является релевантным, то полнота выдачи не изменяется, а точность выдачипадает. Если очередной документ является релевантным, то возрастает как полнота, так иточность – кривая отклоняется вверх и вправо.Для сглаживания этих зигзагов используется понятие интерполированнойточности. Интерполированная точность pinterp на определенном уровне полноты rопределяется как максимальная точность, полученная на уровнях полноты r1, большихчем r: r1 ≥ r.pinterp(r)=max r‘≥r p(r‘)(11.14)Такое приближение убирает «внутренние» зубцы.
Интерполированный графикпоказан на рисунке тонкой линией.Для количественного сравнения работы поисковых систем на разных уровняхполноты используется одинадцатиточечная интерполированная средняя точность (elevenpoint interpolated average precision). Для вычисления этой величины по каждомупоисковому запросу точность меряется в 11 точках на уровнях полноты 0.0, 0.1, 0.2…0.9,1.0. Получается список из 11 значений точности, который может усредняться по всемтестируемым поисковым запросам.Эти 11 значений точности могут быть отражены на графике интерполированнойточности (рис.
11.2.). Именно такой график часто показывается при сравнении работыпоисковых систем.Рис. 11.2. График интерполированной точностиВ настоящее время общепринятым является тестировать методы информационногопоиска на базе общих коллекций документов в рамках специально проводимыхконференций. Первой такой конференцией, впервые организованной в начале 90-х годов20 века, стала конференция TREC (Text Retrieval Conference). Позже возникли такиеконференции как CLEF (Cross Language Evaluation Forum), которая фокусируется наевропейских языках и многоязычном поиске, NTCIR (восточно-азитские языки имногоязычный поиск).
В России с 2003 года ежегодно собирается семинар по оценкеметодов информационного поиска – РОМИП (www.romip.ru) (Кураленок и др., 2003).16111.3. Тезаурусы типа WordNet в информационном поискеСразу после появления тезауруса WordNet в сети Интернет многие исследователиначали эксперименты по его применению в приложениях информационного поиска,полагая, что появился качественный ресурс, позволяющий резко улучшить качествопоиска. Эти надежды были связаны с тем, что WordNet давал возможность использоватьважные для задач информационного поиска сведения такие как, сведения о синонимах,значениях слов, лексических отношениях большого количеста слов английского языка.Одной из первых таких работ была работа (Voorhees, 1994).
Однако на основеэкспериментов на конференции TREC-5 было показано снижение показателейинформационного поиска при использовании WordNet. Автор утверждает, что, с однойстороны, лингвистические технологии должны быть близки к совершенству, чтобыпривести к улучшению качества информационного поиска, с другой стороны, чтостатистические методы частично аппроксимируют лингвистические технологии своимистатистическими корреляции. Похожее утверждение было высказано М. Сандерсоном(Sanderson, 1994), который предположил, что подходы, базирующиеся на ворднетах, будутхорошо работать, когда точность разрешения лексической многозначности приблизится к90 процентам.
Поэтому необходимость использования тезаурусов типа WordNet дляинформационного поиска и классификации документов, в настоящее время, не являетсяобщепризнанной.Однако в последнее время появились работы, в которых учет WordNet приобработке запроса, приводит к значимым улучшениям поиска по сравнению с базовоймоделью (см. пп. 11.3.3, 11.3.4.)В данном разделе мы рассмотрим наиболее известные работы, в рамках которыхпредлагались различные подходы по интеграции тезауруса WordNet в существующиемодели информационного поиска.11.3.1.
Эксперименты по использованию тезауруса WordNet ввекторной модели информационного поискаВ работе (Voorhees, 1998) описываются эксперименты по интеграции WordNet впоиск по векторной модели. Целью экспериментов была попытка выполнить поискдокументов на основе не отдельных слов, а значений WordNet.
Для каждого документасначала выполняется процедура разрешения многозначности существительных, котораявыдает единственный синсет, и в результате которой каждому тексту ставится всоответствие вектор синсетов WordNet. После того, как вектор создан, с ним могутвыполняться такие же операции, как и с пословными векторами.Эффективность использования векторов синсетов сравнивалась с эффективностьюинформационного поиска на основе стандартного вектора слов.
В стандартном прогоне идокументы, и запросы представляются как вектора лемм всех значимых слов. Вконцептуальных прогонах документы и запросы представляются как вектора, состоящиеиз трех подвекторов:1) вектор лемм слов, не найденных в WordNet, или тех, многозначность которыхне удалось разрешить – например, относящихся к другим частям речи;2) вектор синсетов для слов с разрешенной многозначностью,3) леммы для слов с разрешенной многозначностью.Второй и третий подвектора представляют собой альтернативные представлениядокумента, поскольку одни и те же слова этого документа порождают отдельныеэлементы каждого вектора.Для экспериментов было использовано 5 разных коллекций документов(компьютерная область, медицинская область, газетные статьи и др.), и для каждойколлекции было выполнено более 30 различных запросов.162Для каждого запроса стандартный прогон векторной модели сравнивался соследующими комбинациями подвекторов (цифры означают вес каждого из трехподвекторов):110 – данная комбинация дает одинаковые веса словам, отличным отсуществительных и синсетам существительных;211 – данная комбинация учитывает как синсеты, так и леммы существительных,оставшиеся слова поэтому учитываются в двойном размере;101 – в данной комбинации подвектор синсетов игнорируется, а существительныеи другие леммы документа получают одинаковые веса.
Однако этот вектор отличается отстандартного прогона, поскольку результат сравнения для системы подвектороввысчитывается как сумма результатов сравнения каждого вектора.Оценки эффективности информационного поиска на основе показателя среднейточности показали серьезное ухудшение эффективности для векторов, включающихсинсеты (от 6.2 до 42.3%).Основная причина такого ухудшения эффективности заключается в том, чтопроцедура разрешения многозначности для слова в запросе может выбрать одно значение,а для того же слова в документе другое значение. Например, при поиске по запросу‖separation anxiety in infants and preschool children‖ (озабоченность разлукой у детеймладшего возраста и дошкольников) стандартный прогон пословной векторной моделивыдает 7 релевантных документов в первых 15 документах, в то время как прогон 110выдает только один релевантный документ в первых 15 документах.
Проблема выдачи поданному запросу состояла в выборе значения слова separation, для которого в WordNetописано 8 значений. Процедура разрешения многозначности выбирает такое значениеэтого слова в запросе, которое не было выбрано ни в одном из релевантных документов.В другой группе экспериментов по использованию WordNet в информационномпоиске исследовалась возможность расширения запроса синонимами или другимисловами, связанными со словами запроса отношениями, описанными в WordNet. В такихэкспериментах нет необходимости выбора единственного значения слова, что в случаеошибки приводит к серьезному ухудшению результатов поиска.Для экспериментов были использованы следующие соображения.Во-первых, расширяться должны только важные для запроса понятия.