LAB1 Степная Е.В. (544690), страница 2
Текст из файла (страница 2)
Понимание запросов
Важно понимать, что ищут пользователи (больше, чем просто слова в их запросе). Google создали лучшую в своем роде систему распознавания текстового содержимого, развитую систему синонимов и очень мощную систему анализирования.
Система распознавания содержимого. Системе известно, что кто-то, вводящий в строке поиска [kofee annan], на самом деле ищет мистера Кофи Аннана, и подсказывает ему об этом: Did you mean: kofi annan; тогда как если кто-то ищет [kofee beans], то ему на самом деле нужны coffee beans (кофейные бобы).
Синонимы — это фундамент работы Google по пониманию запросов. Даже если что-то очевидно для человека, это может быть неразрешимой проблемой для автоматического языкового обработчика.
Пользователь не хочет слишком много думать о том, какие слова ему использовать для запросов. Часто он даже не знает, какие слова правильные. Здесь включается в работу система синонимов. Она может выполнять сложные модификации запросов, то есть она знает, что слово ‘Dr’, в запросе [Dr Zhivago], означает Doctor, в то время как в [Rodeo Dr] оно значит Drive.
Поиск идеи. Обнаружение главной идеи запроса позволяет возвратить намного более релевантные результаты. Например, алгоритмы Google поймут, что в запросе [new york times square church] пользователь ищет известную церковь на Times Square, а не статьи из New York Times. Но мы не останавливаемся на поиске идей, мы добавляем правильные идеи, когда, например, кто-то ищет [PC and its impact on people], то на самом деле он ищет impact of computers on society (влияние компьютеров на общество), а пользователю, ищущему [rainforest instructional activities for vocabulary], нужны rain forest lesson plans.
Понимание пользователей
Работа по пониманию намерений пользователя нацелена на возврат результатов, которые действительно хотят пользователи получить, а не просто тех, которые они написали в своем запросе. Эта работа начинается с системы локализации мирового уровня. И добавляет улучшенную технологию индивидуализации и несколько других больших шагов, таких как Универсальный Поиск.
Работа по локализации. Один и тот же запрос, написанный в различных странах, даст абсолютно разные результаты. Пользователь, ищущий [bank] в США, должен получить Американские банки, в то время как пользователь в Великобритании ищет Bank Fashion line или British financial institutions. Результаты этого запроса должны содержать местные финансовые подразделения в других англоговорящих странах, таких как Австралия, Канада, Новая Зеландий, ЮАР.
Персонализация
Персонализация подгоняет результаты поиска для каждого пользователя.
Пользователи, которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google.
Универсальный поиск
Универсальным Поиском — это ещё один пример толкования намерений пользователя для предоставления им того, что они на самом деле хотят. Т.е., кто ищет [bangalore], получают не только нужные веб-страницы, также ему становится доступна карта, видео, жизнь на улицах Бангалоре и т.д., и плюч ко всему еще и новости/блоги о Бангалоре.
Cross Language Information Retrieval (CLIR). Позволяет пользователям сначала получить информацию не на их родном языке, а затем, используя технологию перевода Google информация становится доступной. Пользователь, который ищет биографию Тони Блэра в России, набирающий [Тони Блэр биография] получает предложение посмотреть результаты, переведенные с английского.
Расширенный режим подачи запросов к поисковой системе.
Наиболее популярным способом работы с поисковиком является подача запроса, состоящего из одного слова. Между тем, поисковые системы предоставляют возможность расширенного поиска, позволяющего задавать более точные настройки параметров запроса. Например, можно определить, где должно находиться искомое слово (в документах, в их названиях, в заголовках документов и т. д.), уточнить язык документов, по которым осуществляется поиск, и даже указать системе, нужно ли искать однокоренные слова или поиск следует ограничить лишь словом в том виде, как оно написано в строке запроса. В дополнение к этому, особая опция позволяет исключать из результатов поиска документы, содержащие определенные слова.
Расширенный поиск в разных поисковых системах:
Способы оценки степени релевантности запросу пользователя информации, найденной поисковой машиной.
Релевантность (лат. relevo — поднимать, облегчать) в информационном поиске — семантическое соответствие поискового запроса и поискового образа документа. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.
Способы оценки степени релевантности:
-
TF/IDF
-
PageRank
-
LexRank
-
ТИЦ
Анализ различных функций оценки релевантности
Изначально поисковые машины, учитывая популярность ссылок, считали количество ссылающихся сайтов или страниц, выводя самую простую закономерность – чем больше таких страниц существует, тем популярнее и важнее сайт. Однако, по мере того как борьба за первые места в выдаче поисковиков ужесточалась, все более давало себя знать желание раскрутчиков сайтов обмануть поисковую машину. Для начала появилось множество специальных сайтов, так называемых «ферм ссылок», или «FFA (Free for All)», на которых любой веб-мастер мог бесплатно разместить ссылку на свой сайт. Такая методика искусственного повышения популярности ссылок некоторое время вполне работала. Однако очень быстро популярность FFA сыграла с раскручиваемыми сайтами нехорошую шутку: появились автоматические программы, которые одновременно регистрировали ссылку на тысячах «ферм». FFA-сайты, как правило, работали по принципу конвейера – новые ссылки вытесняли старые в низ страницы. Поскольку количество ссылок на странице ограничено, а скорость продвижения по мере автоматизации увеличилась до нескольких сотен ссылок в час, то, собственно, время присутствия вашей ссылки в «нужном месте» сводилось буквально до пары минут. Времени, a priori, недостаточном для индексации ссылки поисковой машиной.
Tf-idf
TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.
Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.
Структура формулы
TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова ti в пределах отдельного документа.
,
где ni есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.
где
-
|D| — количество документов в корпусе;
-
— количество документов, в которых встречается ti (когда
).
Таким образом, мера TF-IDF является произведением двух сомножителей: TF и IDF.
Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.
Pagerunk
У истоков нового алгоритма ранжирования первым оказался Google. Он ввел понятие «случайного сёрфера» – то есть абстрактного человека, который бродит по Сети, переходя с ссылки на ссылку и просматривая все новые и новые страницы. Смысл нового алгоритма, получившего название Page Rank, сводился к попытке оценивать каждый документ с учетом его веса в среде всех других проиндексированных документов Сети, ссылающихся на оцениваемый. То есть, по сути, Page Rank – это попытка поисковой машины предсказать и использовать в качестве критерия вероятность того, что случайный пользователь попадет на ту или иную страницу. Несомненно, что данная система оценки релевантности выглядит гораздо более «помехоустойчивой», а значит, максимально полезной для пользователей поисковых машин и минимально пригодной для искусственной накрутки популярности веб-ресурсов.
Но, несмотря на свою заслуженную популярность, формула Page Rank никак не учитывала «вес» ссылок, то есть их качественную характеристику. Именно поэтому Яндекс разработал собственный алгоритм учета внешних ссылок.
PageRank (пэйдж-ранк) — один из алгоритмов ссылочного ранжирования. Алгоритм применяется к коллекции документов, связанных гиперссылками (таких, как веб-страницы из всемирной паутины), и назначает каждому из них некоторое численное значение, измеряющее его «важность» или «авторитетность» среди остальных документов. Вообще говоря, алгоритм может применяться не только к веб-страницам, но и к любому набору объектов, связанных между собой взаимными ссылками, то есть к любому графу.
PageRank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.
Индекс цитирования (или ИЦ) — принятая в научном мире мера «значимости» трудов какого-либо ученого. Величина индекса определяется количеством ссылок на этот труд (или фамилию) в других источниках. Однако для действительно точного определения значимости научных трудов важно не только количество ссылок на них, но и качество этих ссылок. Так, на работу может ссылаться авторитетное академическое издание, популярная брошюра или развлекательный журнал. Значимость у таких ссылок разная.
Тематический индекс цитирования (тИЦ) в поисковой системе Яндекс был создан, чтобы определять релевантность веб-ресурсов в Яндекс.Каталоге, принимая во внимание качество ссылок на них с других сайтов. Качество ссылки или её «вес» рассчитывались по специально разработанному алгоритму, учитывающему, в первую очередь, количество ссылок и тематическую близость ссылающихся на ресурс сайтов. При этом, однако, ссылки с иностранных ресурсов Яндексом были полностью проигнорированы. С учетом того, что сайтов не .ru и не .su в мире более, чем достаточно, погрешность окончательных расчетов может быть весьма значима для пользователя. С другой стороны, наличие сайта в западных каталогах, даже очень популярных, никак не поможет увеличить тИЦ.
Что касается оценки тематической близости ссылающихся сайтов, то Яндекс определяет схожесть тематики по расположению ресурсов в собственном каталоге. Для сайтов, не входящих в каталог, применяются другие технологии.