Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 45

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 45 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 452020-08-252020-08-25СтудИзба

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 45)

раздел 11.1.4).Совместная встречаемость слов, связанных между собой по WordNet, оцениваласьв пределах абзаца. Совместная встречаемость слов, не поддержанных отношениями вWordNet, оценивалась в окне из 7 слов.Для оценки совместной встречаемости в обоих случаях была также примененаформула в духе языковых моделей с типом сглаживания по абсолютномудисконтированию.

Так, формула для слов, между которыми описаны отношения вWordNet, такова:PL ( wi | w) max(c( wi , w | W , L)   ,0)c(*, w | W , L)Padd one ( wi | W , L) c( w j , w | W , L) c( w j , w | W , L)wjwj c( w , w | W , L)  1  (c(w , w | W , L)  1)|v|Padd one ( wi | W , L) |v|i 1j 1|v|j 1ijij(11.20)169где С (wi,w|W,L) – число совместных встречаемостей слов wi и w, связанныхотношениями в WordNet, в пределах окна, С(*, w|W,L) - число уникальных терминоввстречающихся в окне W. Данная формула соответствует так называемой битермнойязыковой модели (Srikanth, Srikari, 2002).Предложенная модель тестировалась на текстовых коллекциях конференции TREC,общим размером более 1200 мегабайт и состоящих из трех различных подколлекцийследующих изданий Wall Street Journal (WSJ), Associated Press (AP), San Jose MercuryNews (SJM).

В качестве базового уровня использовалась униграммная языковая модельинформационного поиска, реализованная на инструментальном средстве Lemur (Ogilvie,Callan, 2001). В качестве параметра оценки качества поиска использовалась классическаямера конференции TREC – средняя точность.Оба варианта модели показали лучшие характеристики средней точности, посравнению с базовой моделью. Причем улучшения на подколлекции Associated Pressдостигли 10%, а на других коллекциях – 5%.

Большее увеличение показал второй вариантмодели, который использовал разные весовые коэффициенты для разных типовотношений WordNet.Анализ различных комбинаций подэлементов модели показал, что комбинациявсех трех элементов модели (UM+LM+CM) всегда превышает показатели частичныхкомбинаций моделей. Это подтверждает мысль авторов, что посредством привлечениязнаний из WordNet удалось использовать в поиске дополнительные сведения, которые неудалось получить на базе только использования информации о совместной встречаемостислов в текстовом окне.Сочетание моделей UM+LM, то есть базовой модели и модели, основанной наотношениях WordNet, лучше, чем базовой модели UM.

В работе делается вывод, чтопригодность WordNet для той или иной коллекции может быть автоматически определенапосредством автоматической процедуры настройки параметров, которая приписываеттакие веса отношениям, установленным в WordNet, которые наиболее хорошо подходятдля данной коллекции.В таблице 11.1 показаны подобранные веса для каждого элемента модели. Каквидно, подобранные веса в значительной мере различаются:МодельWSJAPSJMUM0.35640.30060.4858CM0.14800.52820.1588Синонимы0.16570.08830.1392Гиперонимы0.17450.04910.0963Гипонимы0.16490.03380.11968Всего1.01.01.0Таблица 11.1. Веса компонентов, используемых в модели11.3.6. Расширение по WordNet на основе параметра «ясности» слова запросаВ работе (Shah, Croft, 2004) исследуется вопрос, насколько величина точностьработы систем информационного поиска в смысле обеспечения высокой точности выдачив первых документах выдачи.

Исследуя результаты поиска системы Lemur (Ogilvie, Callan,2001) по заголовкам запросов TREC они показали, что только в 40 процентах из 150исследуемых запросов на первом месте поисковой выдачи находился релевантныйдокумент.Проанализировав причины такой ситуации, авторы работы установили, что этопроисходит из-за следующих проблем:- наличия многозначных слов в запросе;- наличие слов различной значимости в запросе;170несоответствие слов запроса и коллекции.

Так, причиной нерелевантностипервого документа в выдаче по запросу «Fiber Optics Equipment Manufacturers‖было то, что в релевантных документах коллекции чаще употреблялось слово―producers‖.Рассматривая возможности автоматического расширения запроса, авторыотметили, что для обеспечения качественного расширения запроса необходимоопределить, какие именно слова можно дополнить близкими по смыслу словами вконтексте данного запроса, и какими именно из близких по смыслу слов. Так, включение взапрос многозначного слова может привести к резкому снижению качества поиска.Для определения критериев расширения запроса близкими по смыслу словамиавторы предлагают использовать показатель ясности (―clarity‖) слов.

Вычисление этогопараметра основывается на следующих наблюдениях.Если в ответ на запрос получены релевантные документы, то первые документывыдачи характеризуются относительно высокойчастотностью небольшого числатематических терминов. С другой стороны, если в ответ на запрос выдаютсянерелевантные документы разнообразной тематики, то по распределению частотдокументы выдачи должны быть сходны с коллекцией в целом.Основные этапы расширения запроса заключаются в следующем:1) вычислить ясность отдельных слов запроса,2) все слова запроса делятся по параметру ясности на три группы:- слова с высокой ясностью не расширяются и оставляются в запросе;- слова с низким показателем ясности исключаются из запроса;- синонимы слов со средним показателем ясности используются длярасширения запроса.В результате экспериментов было получено, что при поиске по заголовкамзапросов параметр Precision (1) повысился на 16,40% с 40.67% до 46.67%, средняяточность выросла на 0.89%.

При поиске по полю описание (description) запроса Precision(1) повысилась на 18,18% с 44.00% до 52.00%, средняя точность выросла на 11.45%.Таким образом, выборочное расширения запроса синонимами из WordNet привелок значимому улучшению результата поиска как по критерию Precision(1), так и попоказателю средней точности.-Заключение к главе 11.В качестве базовых моделей информационного поиска используется несколькоразличных моделей: булевская модель, векторная модель, вероятностная модель, языковаямодель. Наиболее применяемые в настоящее время модели рассматривают текст как наборнезависимых слов.При появлении в открытом доступе в сети Интернет тезауруса WordNet многиеисследователи предположили, что использование этого ресурса непременно должноулучшать качество информационного поиска, поскольку WordNet предоставляет большоеколичество дополнительной информации о словах, их синонимах, значениях, отношениях.Однако многочисленные первые эксперименты по интеграции WordNet винформационный поиск закончились неудачей.

Понадобилось практически 10 лет, чтобыпредложить модели, в которых применение WordNet дало значимое улучшение качестваинформационного поиска. Основной смысл предложенных удачных моделей заключаетсяв том, что информация, полученная из WordNet, должна дополнительно взвешиваться,дополнительно оцениваются на основе особенностей конкретной коллекции, на которойпроизводится поиск.

Таким образом, производится как бы настройка WordNet наконкретную коллекцию и типовые запросы к этой коллекции.171Глава 12. Тезаурусы в вопросно-ответных системахОдним из активно развивающихся направлений в сфере информационного поискаявляется разработка вопросно-ответных систем.Исследования в области создания вопросно-ответных систем были начаты в 60-егоды.

В то время предполагалось, что ответ на вопрос должен искаться в специальноподготовленных базах знаний. Второе рождение вопросно-ответные системы сталипереживать с 90-х годов 20 века. Теперь вопросно-ответные системы, в подавляющембольшинстве случаев, должны искать ответы в больших текстовых коллекциях. Оттрадиционныхинформационно-поисковыхсистемвопросно-ответныесистемыотличаются тем, что должны предоставить пользователю не набор документов, которыенаиболее релевантны поставленному вопросу, но выдать фрагмент текста, содержащийточный ответ на заданный вопрос.В 1999 году стало проводиться тестирование вопросно-ответных систем(«вопросно-ответная дорожка») в рамках конференции TREC (Voorhees, 2004), с 2003 годасоревнования вопросно-ответных систем вмногоязычном контексте начаты наконференции CLEF (Magnini и др., 2005).Приведем примеры вопросов из конференции TREC:What is the brightest star visible from the Earth?Какая звезда, видимая с Земли, является самой яркой?Which is the Mozart birth date?Какова дата рождения Моцарта?When did Hitler attack Soviet Union?Когда Гитлер напал на Советский Союз?С 2001 года в рамках вопросно-ответной дорожки конференции TREC сталоуделяться особое внимание не только ответам на вопросы о фактах (фактоидныевопросы), но и вопросам на определения и вопросам, предполагающим в качестве ответовсписки.

В 2003 году отдельные вопросы сменились тематическими группами вопросов,что может моделировать диалог пользователя с вопросно-ответной системой (Voorhees,2004). Например, предлагалась такая группа запросов о писателе Франце Каффке.1. Where was Franz Kaffka born?(Где родился Франц Каффка? – фактоидный вопрос)2. When was he born?(Где он родился? – фактоидный вопрос)3. What is his ethnic background?(Кто он по национальности? – фактоидный вопрос)4. What books did he wrote?(Какие книги он написал? – вопрос на получение списка ответов)С 2007 на конференции TREC было предложено новое направление исследований впостроении вопросно-ответных систем, а именно, поиск ответов на вопросы по блогам,причем коллекция блогов включает как тексты, написанные на хорошем английскомязыке, так и тексты с плохим английским, а также спамерские тексты.17212.1. Основные этапы обработки вопросов в вопросно-ответных системахОсновными этапами поиска ответа на вопрос в современных вопросно-ответныхсистемах являются следующие (см.

Характеристики

Тип файла

PDF-файл

Размер

4,72 Mb

Материал

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

tezaurusy-v-zadachah-informacionnogo-poiska.-lukashevich-2010.pdf.rar

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.