Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 42

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 42 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 422020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 42)

Наоснове этого исследования авторы делают выводы, что некоторые виды сглаживания винформационном поиске лучше подходят для коротких запросов, а другие для болеедлинных сложных запросов.11.2. Оценка качества информационного поискаКачество работы систем информационного поиска оценивается на основеспециальноразрабатываемыхмер.Основнымихарактеристикамикачества159информационного поиска являются полнота и точность (Агеев, Кураленок, 2004; Manningи др., 2008)Полнота (recall, r) — доля релевантных документов в выдаче поисковой системыпо отношению ко всем релевантным документам коллекции.Точность (precision, p) — доля релевантных документов по отношению ко всемдокументам в поисковой выдаче.Пусть N — число документов в коллекции, n — число документов в коллекции,релевантных некоторому запросу, m — число документов в выборке, полученнойсистемой на данном запросе, А — число релевантных документов в выборке.

Тогдаp = A/m,r = A/n,(11.12)Этих характеристик достаточно, когда система поиска не производитдополнительного ранжирования документов. Если ранжирование документовпроизводится, то нужно оценивать не только общее число найденных релевантныхдокументов, но и на каких местах в выдаче располагаются релевантные документы.Для определения качества работы поисковой системы в начале списка результатовпоиска используется показатель Точность на уровне n документов (Precision (n)), которыйопределяется как количество релевантных документов среди первых n документов,деленное на n. Например, если система выдает не более 10 документов на первойстранице, то precision (10) отражает качество результатов системы, получаемых на первойстранице.Для оценки качества полной выдачи поисковой системы применяется показательсредняя точность (average precision), которая усредняет точность при выдаче каждого изK релевантных документов.Точность на уровне i-го релевантного документа prec_rel(i) равна precision (pos(i)),если релевантный документ находится в результатх запроса на позиции pos(i).

Если i-йрелевантный документ не найден, то prec_rel(i)=0.Средняя точность для заданного вопроса равна среднему значению величиныprec_rel(i) по всем k релевантным документам:AvgPrec=(1/k) Σprec_rel(i)(11.13)Усреднение величины средней точности по всем запросам дает величину MAP –mean average precision – число, которое характеризует работу поисковой системы посовокупности запросов.При ранжированной выдаче значения точности и полноты при разных К могутбыть отражены с помощью так называемой кривой «полнота- точность» (см.рис.

11.1 ).Рис. 11.1. Кривая «полнота-точность»160Получившийся график носит зигзагообразный характер, поскольку если (k+1)-йдокумент не является релевантным, то полнота выдачи не изменяется, а точность выдачипадает. Если очередной документ является релевантным, то возрастает как полнота, так иточность – кривая отклоняется вверх и вправо.Для сглаживания этих зигзагов используется понятие интерполированнойточности. Интерполированная точность pinterp на определенном уровне полноты rопределяется как максимальная точность, полученная на уровнях полноты r1, большихчем r: r1 ≥ r.pinterp(r)=max r‘≥r p(r‘)(11.14)Такое приближение убирает «внутренние» зубцы.

Интерполированный графикпоказан на рисунке тонкой линией.Для количественного сравнения работы поисковых систем на разных уровняхполноты используется одинадцатиточечная интерполированная средняя точность (elevenpoint interpolated average precision). Для вычисления этой величины по каждомупоисковому запросу точность меряется в 11 точках на уровнях полноты 0.0, 0.1, 0.2…0.9,1.0. Получается список из 11 значений точности, который может усредняться по всемтестируемым поисковым запросам.Эти 11 значений точности могут быть отражены на графике интерполированнойточности (рис.

11.2.). Именно такой график часто показывается при сравнении работыпоисковых систем.Рис. 11.2. График интерполированной точностиВ настоящее время общепринятым является тестировать методы информационногопоиска на базе общих коллекций документов в рамках специально проводимыхконференций. Первой такой конференцией, впервые организованной в начале 90-х годов20 века, стала конференция TREC (Text Retrieval Conference). Позже возникли такиеконференции как CLEF (Cross Language Evaluation Forum), которая фокусируется наевропейских языках и многоязычном поиске, NTCIR (восточно-азитские языки имногоязычный поиск).

В России с 2003 года ежегодно собирается семинар по оценкеметодов информационного поиска – РОМИП (www.romip.ru) (Кураленок и др., 2003).16111.3. Тезаурусы типа WordNet в информационном поискеСразу после появления тезауруса WordNet в сети Интернет многие исследователиначали эксперименты по его применению в приложениях информационного поиска,полагая, что появился качественный ресурс, позволяющий резко улучшить качествопоиска. Эти надежды были связаны с тем, что WordNet давал возможность использоватьважные для задач информационного поиска сведения такие как, сведения о синонимах,значениях слов, лексических отношениях большого количеста слов английского языка.Одной из первых таких работ была работа (Voorhees, 1994).

Однако на основеэкспериментов на конференции TREC-5 было показано снижение показателейинформационного поиска при использовании WordNet. Автор утверждает, что, с однойстороны, лингвистические технологии должны быть близки к совершенству, чтобыпривести к улучшению качества информационного поиска, с другой стороны, чтостатистические методы частично аппроксимируют лингвистические технологии своимистатистическими корреляции. Похожее утверждение было высказано М. Сандерсоном(Sanderson, 1994), который предположил, что подходы, базирующиеся на ворднетах, будутхорошо работать, когда точность разрешения лексической многозначности приблизится к90 процентам.

Поэтому необходимость использования тезаурусов типа WordNet дляинформационного поиска и классификации документов, в настоящее время, не являетсяобщепризнанной.Однако в последнее время появились работы, в которых учет WordNet приобработке запроса, приводит к значимым улучшениям поиска по сравнению с базовоймоделью (см. пп. 11.3.3, 11.3.4.)В данном разделе мы рассмотрим наиболее известные работы, в рамках которыхпредлагались различные подходы по интеграции тезауруса WordNet в существующиемодели информационного поиска.11.3.1.

Эксперименты по использованию тезауруса WordNet ввекторной модели информационного поискаВ работе (Voorhees, 1998) описываются эксперименты по интеграции WordNet впоиск по векторной модели. Целью экспериментов была попытка выполнить поискдокументов на основе не отдельных слов, а значений WordNet.

Для каждого документасначала выполняется процедура разрешения многозначности существительных, котораявыдает единственный синсет, и в результате которой каждому тексту ставится всоответствие вектор синсетов WordNet. После того, как вектор создан, с ним могутвыполняться такие же операции, как и с пословными векторами.Эффективность использования векторов синсетов сравнивалась с эффективностьюинформационного поиска на основе стандартного вектора слов.

В стандартном прогоне идокументы, и запросы представляются как вектора лемм всех значимых слов. Вконцептуальных прогонах документы и запросы представляются как вектора, состоящиеиз трех подвекторов:1) вектор лемм слов, не найденных в WordNet, или тех, многозначность которыхне удалось разрешить – например, относящихся к другим частям речи;2) вектор синсетов для слов с разрешенной многозначностью,3) леммы для слов с разрешенной многозначностью.Второй и третий подвектора представляют собой альтернативные представлениядокумента, поскольку одни и те же слова этого документа порождают отдельныеэлементы каждого вектора.Для экспериментов было использовано 5 разных коллекций документов(компьютерная область, медицинская область, газетные статьи и др.), и для каждойколлекции было выполнено более 30 различных запросов.162Для каждого запроса стандартный прогон векторной модели сравнивался соследующими комбинациями подвекторов (цифры означают вес каждого из трехподвекторов):110 – данная комбинация дает одинаковые веса словам, отличным отсуществительных и синсетам существительных;211 – данная комбинация учитывает как синсеты, так и леммы существительных,оставшиеся слова поэтому учитываются в двойном размере;101 – в данной комбинации подвектор синсетов игнорируется, а существительныеи другие леммы документа получают одинаковые веса.

Однако этот вектор отличается отстандартного прогона, поскольку результат сравнения для системы подвектороввысчитывается как сумма результатов сравнения каждого вектора.Оценки эффективности информационного поиска на основе показателя среднейточности показали серьезное ухудшение эффективности для векторов, включающихсинсеты (от 6.2 до 42.3%).Основная причина такого ухудшения эффективности заключается в том, чтопроцедура разрешения многозначности для слова в запросе может выбрать одно значение,а для того же слова в документе другое значение. Например, при поиске по запросу‖separation anxiety in infants and preschool children‖ (озабоченность разлукой у детеймладшего возраста и дошкольников) стандартный прогон пословной векторной моделивыдает 7 релевантных документов в первых 15 документах, в то время как прогон 110выдает только один релевантный документ в первых 15 документах.

Проблема выдачи поданному запросу состояла в выборе значения слова separation, для которого в WordNetописано 8 значений. Процедура разрешения многозначности выбирает такое значениеэтого слова в запросе, которое не было выбрано ни в одном из релевантных документов.В другой группе экспериментов по использованию WordNet в информационномпоиске исследовалась возможность расширения запроса синонимами или другимисловами, связанными со словами запроса отношениями, описанными в WordNet. В такихэкспериментах нет необходимости выбора единственного значения слова, что в случаеошибки приводит к серьезному ухудшению результатов поиска.Для экспериментов были использованы следующие соображения.Во-первых, расширяться должны только важные для запроса понятия.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6551
Авторов
на СтудИзбе
299
Средний доход
с одного платного файла
Обучение Подробнее