Главная » Просмотр файлов » An introduction to information retrieval. Manning_ Raghavan (2009)

An introduction to information retrieval. Manning_ Raghavan (2009) (811397), страница 101

Файл №811397 An introduction to information retrieval. Manning_ Raghavan (2009) (An introduction to information retrieval. Manning_ Raghavan (2009).pdf) 101 страницаAn introduction to information retrieval. Manning_ Raghavan (2009) (811397) страница 1012020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 101)

Sellers of suchproperty and their agents, therefore, have a strong incentive to create webpages that rank highly on this query. In a search engine whose scoring wasbased on term frequencies, a web page with numerous repetitions of maui golfreal estate would rank highly. This led to the first generation of spam, which(in the context of web search) is the manipulation of web page content forthe purpose of appearing high up in search results for selected keywords.To avoid irritating users with these repetitions, sophisticated spammers resorted to such tricks as rendering these repeated terms in the same color asthe background.

Despite these words being consequently invisible to the human user, a search engine indexer would parse the invisible words out ofOnline edition (c) 2009 Cambridge UP42819 Web search basics◮ Figure 19.5 Cloaking as used by spammers.PAID INCLUSIONthe HTML representation of the web page and index these words as beingpresent in the page.At its root, spam stems from the heterogeneity of motives in content creation on the Web. In particular, many web content creators have commercialmotives and therefore stand to gain from manipulating search engine results.You might argue that this is no different from a company that uses large fontsto list its phone numbers in the yellow pages; but this generally costs thecompany more and is thus a fairer mechanism.

A more apt analogy, perhaps,is the use of company names beginning with a long string of A’s to be listedearly in a yellow pages category. In fact, the yellow pages’ model of companies paying for larger/darker fonts has been replicated in web search: inmany search engines, it is possible to pay to have one’s web page includedin the search engine’s index – a model known as paid inclusion. Differentsearch engines have different policies on whether to allow paid inclusion,and whether such a payment has any effect on ranking in search results.Search engines soon became sophisticated enough in their spam detectionto screen out a large number of repetitions of particular keywords.

Spammers responded with a richer set of spam techniques, the best known ofwhich we now describe. The first of these techniques is cloaking, shown inFigure 19.5. Here, the spammer’s web server returns different pages depending on whether the http request comes from a web search engine’s crawler(the part of the search engine that gathers web pages, to be described inChapter 20), or from a human user’s browser. The former causes the webpage to be indexed by the search engine under misleading keywords. Whenthe user searches for these keywords and elects to view the page, he receivesa web page that has altogether different content than that indexed by thesearch engine. Such deception of search indexers is unknown in the traditional world of information retrieval; it stems from the fact that the relationship between page publishers and web search engines is not completelycollaborative.A doorway page contains text and metadata carefully chosen to rank highlyOnline edition (c) 2009 Cambridge UP19.3 Advertising as the economic modelS EARCH E NGINEO PTIMIZERSADVERSARIALINFORMATIONRETRIEVALLINK SPAM?429on selected search keywords.

When a browser requests the doorway page, itis redirected to a page containing content of a more commercial nature. Morecomplex spamming techniques involve manipulation of the metadata relatedto a page including (for reasons we will see in Chapter 21) the links into aweb page. Given that spamming is inherently an economically motivatedactivity, there has sprung around it an industry of Search Engine Optimizers,or SEOs to provide consultancy services for clients who seek to have theirweb pages rank highly on selected keywords. Web search engines frown onthis business of attempting to decipher and adapt to their proprietary ranking techniques and indeed announce policies on forms of SEO behavior theydo not tolerate (and have been known to shut down search requests from certain SEOs for violation of these).

Inevitably, the parrying between such SEOs(who gradually infer features of each web search engine’s ranking methods)and the web search engines (who adapt in response) is an unending struggle;indeed, the research sub-area of adversarial information retrieval has sprung uparound this battle. To combat spammers who manipulate the text of theirweb pages is the exploitation of the link structure of the Web – a techniqueknown as link analysis.

The first web search engine known to apply link analysis on a large scale (to be detailed in Chapter 21) was Google, although allweb search engines currently make use of it (and correspondingly, spammers now invest considerable effort in subverting it – this is known as linkspam).Exercise 19.1If the number of pages with in-degree i is proportional to 1/i2.1 , what is the probability that a randomly chosen web page has in-degree 1?Exercise 19.2If the number of pages with in-degree i is proportional to 1/i2.1 , what is the averagein-degree of a web page?Exercise 19.3If the number of pages with in-degree i is proportional to 1/i2.1 , then as the largestin-degree goes to infinity, does the fraction of pages with in-degree i grow, stay thesame, or diminish? How would your answer change for values of the exponent otherthan 2.1?Exercise 19.4The average in-degree of all nodes in a snapshot of the web graph is 9.

What can wesay about the average out-degree of all nodes in this snapshot?19.3Advertising as the economic modelEarly in the history of the Web, companies used graphical banner advertisements on web pages at popular websites (news and entertainment sites suchas MSN, America Online, Yahoo! and CNN). The primary purpose of theseadvertisements was branding: to convey to the viewer a positive feeling aboutOnline edition (c) 2009 Cambridge UP43019 Web search basicsCPMCPCSPONSORED SEARCHSEARCH ADVERTISINGALGORITHMIC SEARCHthe brand of the company placing the advertisement.

Typically these advertisements are priced on a cost per mil (CPM) basis: the cost to the company ofhaving its banner advertisement displayed 1000 times. Some websites struckcontracts with their advertisers in which an advertisement was priced not bythe number of times it is displayed (also known as impressions), but ratherby the number of times it was clicked on by the user. This pricing model isknown as the cost per click (CPC) model. In such cases, clicking on the advertisement leads the user to a web page set up by the advertiser, where the useris induced to make a purchase. Here the goal of the advertisement is not somuch brand promotion as to induce a transaction.

This distinction betweenbrand and transaction-oriented advertising was already widely recognizedin the context of conventional media such as broadcast and print. The interactivity of the web allowed the CPC billing model – clicks could be meteredand monitored by the website and billed to the advertiser.The pioneer in this direction was a company named Goto, which changedits name to Overture prior to eventual acquisition by Yahoo! Goto was not,in the traditional sense, a search engine; rather, for every query term q it accepted bids from companies who wanted their web page shown on the queryq.

In response to the query q, Goto would return the pages of all advertiserswho bid for q, ordered by their bids. Furthermore, when the user clickedon one of the returned results, the corresponding advertiser would make apayment to Goto (in the initial implementation, this payment equaled theadvertiser’s bid for q).Several aspects of Goto’s model are worth highlighting.

First, a user typingthe query q into Goto’s search interface was actively expressing an interestand intent related to the query q. For instance, a user typing golf clubs is morelikely to be imminently purchasing a set than one who is simply browsingnews on golf. Second, Goto only got compensated when a user actually expressed interest in an advertisement – as evinced by the user clicking the advertisement.

Taken together, these created a powerful mechanism by whichto connect advertisers to consumers, quickly raising the annual revenues ofGoto/Overture into hundreds of millions of dollars. This style of search engine came to be known variously as sponsored search or search advertising.Given these two kinds of search engines – the “pure” search engines suchas Google and Altavista, versus the sponsored search engines – the logical next step was to combine them into a single user experience. Currentsearch engines follow precisely this model: they provide pure search results(generally known as algorithmic search results) as the primary response to auser’s search, together with sponsored search results displayed separatelyand distinctively to the right of the algorithmic results.

This is shown in Figure 19.6. Retrieving sponsored search results and ranking them in responseto a query has now become considerably more sophisticated than the simple Goto scheme; the process entails a blending of ideas from informationOnline edition (c) 2009 Cambridge UP19.3 Advertising as the economic model431◮ Figure 19.6 Search advertising triggered by query keywords.

Характеристики

Тип файла
PDF-файл
Размер
6,58 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6417
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее