LAB1 Кобец С.Ю (544682), страница 2
Текст из файла (страница 2)
Google ведет поиск по коллекции поисковой системы, которая представляет собой все проиндексированные поисковиком Google документы в сети. В поисковую базу добавляются так же и сохраненные копии документов, на основании которых затем поисковая система Google будет формировать сниппеты под те или иные поисковые запросы. Индексная база Google состоит из двух частей: основного индекса и дополнительного. Поисковая система Google производит поиск только по документам, находящимся в основном индексе, а документы, которые попали в дополнительный индекс, в поиске практически не участвуют, разве что только в том случае, если в основном индексе Google вообще не найдется релевантных поисковому запросу документов. А вероятность такого случая крайне мала.
Сканированием сайтов в сети занимаются так называемые поисковые боты, которые переходят от документа к документу по ссылкам, ведущих с этих документов. Поисковые боты Google осуществляют поиск новых страниц ресурса следующим образом. Во-первых, задание на посещение того или иного документа поисковый бот Google может получить после того, как вы добавите адрес той или иной страницы в аддурику Google. Во-вторых, поисковый бот Google может проиндексировать документ, перейдя на него по ссылке с другого или же с вашего же ресурса.
При расчете релевантности учитывается содержание документа (насколько он хорошо оптимизирован под данный поисковый запрос), а так же учитывается количество и качество обратных ссылок на данный документ.
В принципе, точно такие же принципы работы заложены и в других поисковых системах. Но у поисковой системы Google есть одно отличие от других (более мелких) поисковых систем. Материальные возможности компании Google (как денежные, так и аппаратные) позволяют этой поисковой системе индексировать все страницы подряд и хранить их в своей индексной базе. Более мелкие поисковые системы, в том числе и Яндекс, не могут позволить себе такой роскоши и удаляют из индекса дублированный контент и прочие, не качественные (по мнению поисковых систем) документы. Google обладает настолько большими мощностями, что способен хранить в своей коллекции все проиндексированные им в сети документы.
Расширенный режим запросов
Яндекс
Пример | Значение |
"К нам на утренний рассол" | Слова идут подряд в точной форме |
"Прибыл * посол" | Пропущено слово в цитате |
полгорбушки & мосол | Слова в пределах одного предложения |
снаряжайся && добудь | Слова в пределах одного документа |
технический прогресс +антирес | Поиск документов, в которых обязательно встречается определённое слово |
глухаря | куропатку | кого-нибудь | Поиск любого из слов |
не смогешь << винить | Неранжирующее "и": выражение после оператора не влияет на позицию документа в выдаче |
я должон /2 казнить | Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово) |
государственное дело && /3 улавливаешь нить | Расстояние в 3 предложения в любую сторону |
нешто я ~~ пойму | Исключение слова пойму из поиска |
при моем /+2 уму | Расстояние в пределах двух слов в прямом порядке |
чай ~ лаптем | Поиск предложения, где слово чай встречается без слова лаптем |
щи /(-1 +2) хлебаю | Расстояние от одного слова в обратном порядке до двух слов в прямом |
!Соображаю !что !чему | Слова в точной форме с заданным регистром |
получается && (+на | !мне) | Скобки формируют группы в сложных запросах |
!!политика | Словарная форма слова |
title:(в стране) | Поиск по заголовкам документов |
url:ptici.narod.ru/ptici/kuropatka.htm | Поиск по URL |
беспременно inurl:vojne | Поиск с учетом фрагмента URL |
host:lib.ru | Поиск по хосту |
rhost:ru.lib.* | Поиск по хосту в обратной записи |
site:http://www.lib.ru/PXESY/FILATOW | Поиск по всем поддоменам и страницам заданного сайта |
mime:pdf | Поиск по одному типу файлов |
lang:en | Поиск с ограничением по языку |
domain:ru | Поиск с ограничением по домену |
date:200712* | Поиск с ограничением по дате |
date:20071215..20080101, date:>20091231 | Поиск с ограничением по интервалу дат |
cat:11000051 | Поиск по рубрике Яндекс.Каталога |
Оператор «Плюс» (+): Для ситуации, когда надо принудительно включить в текст какое-либо обязательное слово. Для этого используется оператор "+" перед обязательным словом.
Пример: Уравнение +Бернулли
Исключение слов из запроса. Логическое «не» (-): Чтобы исключать какие-либо слова используются операторы исключения "минус" (-). То есть логическое «НЕ». Полезно в случаях, когда результаты прямого поиска слишком замусорены.
Пример: Аквариум -группа - ищем все про аквариум исключая группу "Аквариум".
Поиск точной фразы (""): Полезно для поиска конкретного текста (целой статьи по цитате). Для этого надо заключить запрос в кавычки (двойные кавычки).
Пример: "И темница тесна, и свобода одна И всегда на нее уповаем" - ищем балладу Высоцкого по одной строке.
Оператор неизвестных знаков в слове (?). Символ "?" в ключевом слове запроса заменяет один символ в слове. Если в слове запроса неизвестна точно одна из букв, вместо неё может быть подставлен символ "?".
Ппример: при вводе слова велос?пед , с подставленным символом "?", поисковая машина сама вставит недостающую букву "и", и выдаст результат, соответствующий запросу.
Усечение слова (*): Иногда требуется искать информацию о словосочетании слов, в котором неизвестно одно или несколько слов. Для этих целей вместо неизвестных слов используется оператор "*". Т.е. "*" - любое слово или группа слов.
Пример: Мастер и *
Оператор поиска синонимов (~): Если вы хотите найти тексты, содержащие не только ключевые слова, но и их синонимы, то можно воспользоваться оператором "~" перед словом, к которому необходимо найти синонимы.
Пример: ~Объектное ориентирование
Оператор диапазона (..): Для тех, кому приходится работать с цифрами, Google дал возможность искать диапазоны между числами. Для того, чтобы найти все страницы, содержащие числа в неком диапазоне «от - до», надо между этими крайними значениями поставить две точки (..), то есть, оператор диапозона.
Пример: Численность населения 1913..1935
cache: Если Вы будете включать другие слова в запрос, то Google подсветит эти включенные слова в пределах кэшируемого документа.
Пример: cache:www.books.com web покажет кэшируемое содержимое с подсвеченным словом 'web'.
link: рассматриваемый выше поисковой запрос покажет веб-страницы, на которых содержатся ссылки к указанному запросу.
Пример: link:www.books.com отобразит все страницы, на которых есть ссылка на http://www.books.com
related: Отобразит web-страницы, которые являются 'подобными' (related) указанной web-странице.
Пример: related:www.google.com перечислит web-страницы, которые являются подобными домашней странице Google.
info: Информация запроса: представит немного информации, которую Google имеет о запрашиваемой web-странице.
Пример: info:www.books.com покажет информацию об этом сайте.
define: Запрос define: обеспечит определение слов, которые Вы вводите после того, как это, собранный из различных сетевых источников. Определение будет для всей введенной фразы (то есть, это будет включать все слова в точный запрос).
site: Если Вы включаете site: в ваш запрос, Google ограничит результаты теми вебсайтами, которые найдет в данном домене. Также можно искать и по отдельным зонам, как таковое ru, org, com ( site:com site:ru).
intitle: Если Вы включаете intitle: в вашем запросе, Google ограничит результаты документами, содержащими то слово в заголовке.
allinurl: Если Вы запускаете запрос с allinurl: Google ограничит результаты, со всеми словами запроса в URL.
Пример: allinurl: google search вернет документы с google и search в заголовке.
Также как вариант можно разделять слова слэшем (/) тогда слова по обе стороны слэша будут искаться в пределах одной страницы.
Пример allinurl: foo/bar
inurl: Если Вы включаете inurl: в вашем запросе, Google ограничит результаты документами, содержащими то слово в URL.
Пример: Animation inurl:books.com
daterange: ищет во временных рамках. Даты для времени указываются в Юлианском формате.
filetype: Как известно, Google индексирует не только html страницы. Если, к примеру, понадобилось найти какую-нибудь информацию в отличном от html типе файла, можно воспользоваться оператором filetype, который позволяет искать информацию в определенном типе файлов (html, pdf, doc, rtf...).
Пример: Сочинения filetype:rtf
Понятие релевантности
Релевантность в общем смысле — это степень соответствия чего-то чему-то. Применительно к поисковым системам, релевантность — это соответствие поискового запроса (введенного пользователем поисковика) и веб-страницы (документа), найденного этой поисковой системой в сети. Чем выше будет соответствие (релевантность) запроса содержанию страницы вашего ресурса, тем лучше будет его ранжирование и тем выше он будет стоять в поисковой выдаче.
Выделяют следующие виды релевантности:
-
Формальная релевантность - соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму;
-
Содержательная релевантность - соответствие документа информационному запросу, определяемое неформальным путем. Для этого используют различные функции релевантности.
Факторов, которые учитывают поисковые системы при определении релевантности веб-страницы при ее ранжировании, очень много (счет идет на сотни или даже тысячи), но не все из них представляют серьезную значимость и не на все из них мы может повлиять (или даже узнать об их существовании). Всю совокупность этих факторов, влияющих на ранжирование, обычно условно делят на несколько групп:
-
Внутренние факторы — контент веб-страницы, ее структура и правильность верстки, а так же степень ее засспамленности ключевыми словам
-
Внешние факторы — ссылочная релевантность (учитываются тексты ссылок, которые идут на ваш сайт, их количество и качество ресурсов, с которых они проставлены) и так называемый траст сайта (насколько поисковики ему доверяют)
-
Поведенческие факторы — оценивается поведение пользователей в поисковой выдаче и поведение пользователей на самом сайте (поисковики стремятся, отслеживая поведение пользователей, чтобы узнать, насколько страница данного сайта отвечает данному поисковому запросу — оценить правильность определения релевантности)
Функции вычисления релевантности
Релевантность документа не обязательно должна оцениваться в терминах двузначной логики («да — нет»). В некоторых развитых системах используются более тонкие оценки, которые вычисляются как значения специально подобранной числовой функции (функции релевантности), к примеру, принимающей значения в интервале [0 ÷ 1]. В таких случаях уместно говорить о степени релевантности документа, понимая ее как значение этой функции.
TF-IDF