Главная » Просмотр файлов » An introduction to information retrieval. Manning_ Raghavan (2009)

An introduction to information retrieval. Manning_ Raghavan (2009) (811397), страница 47

Файл №811397 An introduction to information retrieval. Manning_ Raghavan (2009) (An introduction to information retrieval. Manning_ Raghavan (2009).pdf) 47 страницаAn introduction to information retrieval. Manning_ Raghavan (2009) (811397) страница 472020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 47)

For example, in Figure 9.7, neoplasms was added to aOnline edition (c) 2009 Cambridge UP9.2 Global methods for query reformulation191• User query: cancer• PubMed query: (“neoplasms”[TIAB] NOT Medline[SB]) OR “neoplasms”[MeSHTerms] OR cancer[Text Word]• User query: skin itch• PubMed query: (“skin”[MeSH Terms] OR (“integumentary system”[TIAB] NOTMedline[SB]) OR “integumentary system”[MeSH Terms] OR skin[Text Word]) AND((“pruritus”[TIAB] NOT Medline[SB]) OR “pruritus”[MeSH Terms] OR itch[TextWord])◮ Figure 9.7 Examples of query expansion via the PubMed thesaurus.

When a userissues a query on the PubMed interface to Medline at http://www.ncbi.nlm.nih.gov/entrez/,their query is mapped on to the Medline vocabulary as shown.search for cancer. This Medline query expansion also contrasts with theYahoo! example. The Yahoo! interface is a case of interactive query expansion, whereas PubMed does automatic query expansion. Unless the userchooses to examine the submitted query, they may not even realize thatquery expansion has occurred.• A manual thesaurus.

Here, human editors have built up sets of synonymous names for concepts, without designating a canonical term. TheUMLS metathesaurus is one example of a thesaurus. Statistics Canadamaintains a thesaurus of preferred terms, synonyms, broader terms, andnarrower terms for matters on which the government collects statistics,such as goods and services. This thesaurus is also bilingual English andFrench.• An automatically derived thesaurus. Here, word co-occurrence statisticsover a collection of documents in a domain are used to automatically induce a thesaurus; see Section 9.2.3.• Query reformulations based on query log mining.

Here, we exploit themanual query reformulations of other users to make suggestions to a newuser. This requires a huge query volume, and is thus particularly appropriate to web search.Thesaurus-based query expansion has the advantage of not requiring anyuser input. Use of query expansion generally increases recall and is widelyused in many science and engineering fields. As well as such global analysistechniques, it is also possible to do query expansion by local analysis, forinstance, by analyzing the documents in the result set. User input is nowOnline edition (c) 2009 Cambridge UP1929 Relevance feedback and query expansionWordabsolutelybottomedcaptivatingdoghousemakeupmediatingkeepinglithographspathogenssensesNearest neighborsabsurd, whatsoever, totally, exactly, nothingdip, copper, drops, topped, slide, trimmedshimmer, stunningly, superbly, plucky, wittydog, porch, crawling, beside, downstairsrepellent, lotion, glossy, sunscreen, skin, gelreconciliation, negotiate, case, conciliationhoping, bring, wiping, could, some, woulddrawings, Picasso, Dali, sculptures, Gauguintoxins, bacteria, organisms, bacterial, parasitegrasp, psyche, truly, clumsy, naive, innate◮ Figure 9.8 An example of an automatically generated thesaurus.

This exampleis based on the work in Schütze (1998), which employs latent semantic indexing (seeChapter 18).usually required, but a distinction remains as to whether the user is givingfeedback on documents or on query terms.9.2.3Automatic thesaurus generationAs an alternative to the cost of a manual thesaurus, we could attempt togenerate a thesaurus automatically by analyzing a collection of documents.There are two main approaches.

One is simply to exploit word cooccurrence.We say that words co-occurring in a document or paragraph are likely to bein some sense similar or related in meaning, and simply count text statisticsto find the most similar words. The other approach is to use a shallow grammatical analysis of the text and to exploit grammatical relations or grammatical dependencies. For example, we say that entities that are grown, cooked,eaten, and digested, are more likely to be food items.

Simply using wordcooccurrence is more robust (it cannot be misled by parser errors), but usinggrammatical relations is more accurate.The simplest way to compute a co-occurrence thesaurus is based on termterm similarities. We begin with a term-document matrix A, where each cellAt,d is a weighted count wt,d for term t and document d, with weighting soA has length-normalized rows. If we then calculate C = AA T , then Cu,v isa similarity score between terms u and v, with a larger number being better.Figure 9.8 shows an example of a thesaurus derived in basically this manner,but with an extra step of dimensionality reduction via Latent Semantic Indexing, which we discuss in Chapter 18.

While some of the thesaurus termsare good or at least suggestive, others are marginal or bad. The quality of theassociations is typically a problem. Term ambiguity easily introduces irrel-Online edition (c) 2009 Cambridge UP9.3 References and further reading193evant statistically correlated terms. For example, a query for Apple computermay expand to Apple red fruit computer. In general these thesauri suffer fromboth false positives and false negatives.

Moreover, since the terms in the automatic thesaurus are highly correlated in documents anyway (and often thecollection used to derive the thesaurus is the same as the one being indexed),this form of query expansion may not retrieve many additional documents.Query expansion is often effective in increasing recall. However, there isa high cost to manually producing a thesaurus and then updating it for scientific and terminological developments within a field. In general a domainspecific thesaurus is required: general thesauri and dictionaries give far toolittle coverage of the rich domain-particular vocabularies of most scientificfields.

However, query expansion may also significantly decrease precision,particularly when the query contains ambiguous terms. For example, if theuser searches for interest rate, expanding the query to interest rate fascinate evaluate is unlikely to be useful. Overall, query expansion is less successful thanrelevance feedback, though it may be as good as pseudo relevance feedback.It does, however, have the advantage of being much more understandable tothe system user.?Exercise 9.7If A is simply a Boolean cooccurrence matrix, then what do you get as the entries inC?9.3References and further readingWork in information retrieval quickly confronted the problem of variant expression which meant that the words in a query might not appear in a document, despite it being relevant to the query.

An early experiment about1960 cited by Swanson (1988) found that only 11 out of 23 documents properly indexed under the subject toxicity had any use of a word containing thestem toxi. There is also the issue of translation, of users knowing what termsa document will use. Blair and Maron (1985) conclude that “it is impossiblydifficult for users to predict the exact words, word combinations, and phrasesthat are used by all (or most) relevant documents and only (or primarily) bythose documents”.The main initial papers on relevance feedback using vector space modelsall appear in Salton (1971b), including the presentation of the Rocchio algorithm (Rocchio 1971) and the Ide dec-hi variant along with evaluation ofseveral variants (Ide 1971). Another variant is to regard all documents inthe collection apart from those judged relevant as nonrelevant, rather thanonly ones that are explicitly judged nonrelevant.

However, Schütze et al.(1995) and Singhal et al. (1997) show that better results are obtained for routing by using only documents close to the query of interest rather than allOnline edition (c) 2009 Cambridge UP1949 Relevance feedback and query expansiondocuments. Other later work includes Salton and Buckley (1990), Riezleret al.

(2007) (a statistical NLP approach to RF) and the recent survey paperRuthven and Lalmas (2003).The effectiveness of interactive relevance feedback systems is discussed in(Salton 1989, Harman 1992, Buckley et al. 1994b). Koenemann and Belkin(1996) do user studies of the effectiveness of relevance feedback.Traditionally Roget’s thesaurus has been the best known English languagethesaurus (Roget 1946). In recent computational work, people almost alwaysuse WordNet (Fellbaum 1998), not only because it is free, but also because ofits rich link structure. It is available at: http://wordnet.princeton.edu.Qiu and Frei (1993) and Schütze (1998) discuss automatic thesaurus generation. Xu and Croft (1996) explore using both local and global query expansion.Online edition (c) 2009 Cambridge UPDRAFT! © April 1, 2009 Cambridge University Press.

Feedback welcome.10195XML retrievalInformation retrieval systems are often contrasted with relational databases.Traditionally, IR systems have retrieved information from unstructured text– by which we mean “raw” text without markup. Databases are designedfor querying relational data: sets of records that have values for predefinedattributes such as employee number, title and salary. There are fundamentaldifferences between information retrieval and database systems in terms ofretrieval model, data structures and query language as shown in Table 10.1.1Some highly structured text search problems are most efficiently handledby a relational database, for example, if the employee table contains an attribute for short textual job descriptions and you want to find all employeeswho are involved with invoicing. In this case, the SQL query:select lastname from employees where job_desc like ’invoic%’;STRUCTUREDRETRIEVALmay be sufficient to satisfy your information need with high precision andrecall.However, many structured data sources containing text are best modeledas structured documents rather than relational data.

Характеристики

Тип файла
PDF-файл
Размер
6,58 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее