Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 45
Текст из файла (страница 45)
раздел 11.1.4).Совместная встречаемость слов, связанных между собой по WordNet, оцениваласьв пределах абзаца. Совместная встречаемость слов, не поддержанных отношениями вWordNet, оценивалась в окне из 7 слов.Для оценки совместной встречаемости в обоих случаях была также примененаформула в духе языковых моделей с типом сглаживания по абсолютномудисконтированию.
Так, формула для слов, между которыми описаны отношения вWordNet, такова:PL ( wi | w) max(c( wi , w | W , L) ,0)c(*, w | W , L)Padd one ( wi | W , L) c( w j , w | W , L) c( w j , w | W , L)wjwj c( w , w | W , L) 1 (c(w , w | W , L) 1)|v|Padd one ( wi | W , L) |v|i 1j 1|v|j 1ijij(11.20)169где С (wi,w|W,L) – число совместных встречаемостей слов wi и w, связанныхотношениями в WordNet, в пределах окна, С(*, w|W,L) - число уникальных терминоввстречающихся в окне W. Данная формула соответствует так называемой битермнойязыковой модели (Srikanth, Srikari, 2002).Предложенная модель тестировалась на текстовых коллекциях конференции TREC,общим размером более 1200 мегабайт и состоящих из трех различных подколлекцийследующих изданий Wall Street Journal (WSJ), Associated Press (AP), San Jose MercuryNews (SJM).
В качестве базового уровня использовалась униграммная языковая модельинформационного поиска, реализованная на инструментальном средстве Lemur (Ogilvie,Callan, 2001). В качестве параметра оценки качества поиска использовалась классическаямера конференции TREC – средняя точность.Оба варианта модели показали лучшие характеристики средней точности, посравнению с базовой моделью. Причем улучшения на подколлекции Associated Pressдостигли 10%, а на других коллекциях – 5%.
Большее увеличение показал второй вариантмодели, который использовал разные весовые коэффициенты для разных типовотношений WordNet.Анализ различных комбинаций подэлементов модели показал, что комбинациявсех трех элементов модели (UM+LM+CM) всегда превышает показатели частичныхкомбинаций моделей. Это подтверждает мысль авторов, что посредством привлечениязнаний из WordNet удалось использовать в поиске дополнительные сведения, которые неудалось получить на базе только использования информации о совместной встречаемостислов в текстовом окне.Сочетание моделей UM+LM, то есть базовой модели и модели, основанной наотношениях WordNet, лучше, чем базовой модели UM.
В работе делается вывод, чтопригодность WordNet для той или иной коллекции может быть автоматически определенапосредством автоматической процедуры настройки параметров, которая приписываеттакие веса отношениям, установленным в WordNet, которые наиболее хорошо подходятдля данной коллекции.В таблице 11.1 показаны подобранные веса для каждого элемента модели. Каквидно, подобранные веса в значительной мере различаются:МодельWSJAPSJMUM0.35640.30060.4858CM0.14800.52820.1588Синонимы0.16570.08830.1392Гиперонимы0.17450.04910.0963Гипонимы0.16490.03380.11968Всего1.01.01.0Таблица 11.1. Веса компонентов, используемых в модели11.3.6. Расширение по WordNet на основе параметра «ясности» слова запросаВ работе (Shah, Croft, 2004) исследуется вопрос, насколько величина точностьработы систем информационного поиска в смысле обеспечения высокой точности выдачив первых документах выдачи.
Исследуя результаты поиска системы Lemur (Ogilvie, Callan,2001) по заголовкам запросов TREC они показали, что только в 40 процентах из 150исследуемых запросов на первом месте поисковой выдачи находился релевантныйдокумент.Проанализировав причины такой ситуации, авторы работы установили, что этопроисходит из-за следующих проблем:- наличия многозначных слов в запросе;- наличие слов различной значимости в запросе;170несоответствие слов запроса и коллекции.
Так, причиной нерелевантностипервого документа в выдаче по запросу «Fiber Optics Equipment Manufacturers‖было то, что в релевантных документах коллекции чаще употреблялось слово―producers‖.Рассматривая возможности автоматического расширения запроса, авторыотметили, что для обеспечения качественного расширения запроса необходимоопределить, какие именно слова можно дополнить близкими по смыслу словами вконтексте данного запроса, и какими именно из близких по смыслу слов. Так, включение взапрос многозначного слова может привести к резкому снижению качества поиска.Для определения критериев расширения запроса близкими по смыслу словамиавторы предлагают использовать показатель ясности (―clarity‖) слов.
Вычисление этогопараметра основывается на следующих наблюдениях.Если в ответ на запрос получены релевантные документы, то первые документывыдачи характеризуются относительно высокойчастотностью небольшого числатематических терминов. С другой стороны, если в ответ на запрос выдаютсянерелевантные документы разнообразной тематики, то по распределению частотдокументы выдачи должны быть сходны с коллекцией в целом.Основные этапы расширения запроса заключаются в следующем:1) вычислить ясность отдельных слов запроса,2) все слова запроса делятся по параметру ясности на три группы:- слова с высокой ясностью не расширяются и оставляются в запросе;- слова с низким показателем ясности исключаются из запроса;- синонимы слов со средним показателем ясности используются длярасширения запроса.В результате экспериментов было получено, что при поиске по заголовкамзапросов параметр Precision (1) повысился на 16,40% с 40.67% до 46.67%, средняяточность выросла на 0.89%.
При поиске по полю описание (description) запроса Precision(1) повысилась на 18,18% с 44.00% до 52.00%, средняя точность выросла на 11.45%.Таким образом, выборочное расширения запроса синонимами из WordNet привелок значимому улучшению результата поиска как по критерию Precision(1), так и попоказателю средней точности.-Заключение к главе 11.В качестве базовых моделей информационного поиска используется несколькоразличных моделей: булевская модель, векторная модель, вероятностная модель, языковаямодель. Наиболее применяемые в настоящее время модели рассматривают текст как наборнезависимых слов.При появлении в открытом доступе в сети Интернет тезауруса WordNet многиеисследователи предположили, что использование этого ресурса непременно должноулучшать качество информационного поиска, поскольку WordNet предоставляет большоеколичество дополнительной информации о словах, их синонимах, значениях, отношениях.Однако многочисленные первые эксперименты по интеграции WordNet винформационный поиск закончились неудачей.
Понадобилось практически 10 лет, чтобыпредложить модели, в которых применение WordNet дало значимое улучшение качестваинформационного поиска. Основной смысл предложенных удачных моделей заключаетсяв том, что информация, полученная из WordNet, должна дополнительно взвешиваться,дополнительно оцениваются на основе особенностей конкретной коллекции, на которойпроизводится поиск.
Таким образом, производится как бы настройка WordNet наконкретную коллекцию и типовые запросы к этой коллекции.171Глава 12. Тезаурусы в вопросно-ответных системахОдним из активно развивающихся направлений в сфере информационного поискаявляется разработка вопросно-ответных систем.Исследования в области создания вопросно-ответных систем были начаты в 60-егоды.
В то время предполагалось, что ответ на вопрос должен искаться в специальноподготовленных базах знаний. Второе рождение вопросно-ответные системы сталипереживать с 90-х годов 20 века. Теперь вопросно-ответные системы, в подавляющембольшинстве случаев, должны искать ответы в больших текстовых коллекциях. Оттрадиционныхинформационно-поисковыхсистемвопросно-ответныесистемыотличаются тем, что должны предоставить пользователю не набор документов, которыенаиболее релевантны поставленному вопросу, но выдать фрагмент текста, содержащийточный ответ на заданный вопрос.В 1999 году стало проводиться тестирование вопросно-ответных систем(«вопросно-ответная дорожка») в рамках конференции TREC (Voorhees, 2004), с 2003 годасоревнования вопросно-ответных систем вмногоязычном контексте начаты наконференции CLEF (Magnini и др., 2005).Приведем примеры вопросов из конференции TREC:What is the brightest star visible from the Earth?Какая звезда, видимая с Земли, является самой яркой?Which is the Mozart birth date?Какова дата рождения Моцарта?When did Hitler attack Soviet Union?Когда Гитлер напал на Советский Союз?С 2001 года в рамках вопросно-ответной дорожки конференции TREC сталоуделяться особое внимание не только ответам на вопросы о фактах (фактоидныевопросы), но и вопросам на определения и вопросам, предполагающим в качестве ответовсписки.
В 2003 году отдельные вопросы сменились тематическими группами вопросов,что может моделировать диалог пользователя с вопросно-ответной системой (Voorhees,2004). Например, предлагалась такая группа запросов о писателе Франце Каффке.1. Where was Franz Kaffka born?(Где родился Франц Каффка? – фактоидный вопрос)2. When was he born?(Где он родился? – фактоидный вопрос)3. What is his ethnic background?(Кто он по национальности? – фактоидный вопрос)4. What books did he wrote?(Какие книги он написал? – вопрос на получение списка ответов)С 2007 на конференции TREC было предложено новое направление исследований впостроении вопросно-ответных систем, а именно, поиск ответов на вопросы по блогам,причем коллекция блогов включает как тексты, написанные на хорошем английскомязыке, так и тексты с плохим английским, а также спамерские тексты.17212.1. Основные этапы обработки вопросов в вопросно-ответных системахОсновными этапами поиска ответа на вопрос в современных вопросно-ответныхсистемах являются следующие (см.