LAB1 Кобец С.Ю (544682), страница 2

Файл №544682 LAB1 Кобец С.Ю (Лабораторная работа 1) 2 страницаLAB1 Кобец С.Ю (544682) страница 22015-08-202015-08-20СтудИзба

Лабораторная работа 1

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

Google ведет поиск по коллекции поисковой системы, которая представляет собой все проиндексированные поисковиком Google документы в сети. В поисковую базу добавляются так же и сохраненные копии документов, на основании которых затем поисковая система Google будет формировать сниппеты под те или иные поисковые запросы. Индексная база Google состоит из двух частей: основного индекса и дополнительного. Поисковая система Google производит поиск только по документам, находящимся в основном индексе, а документы, которые попали в дополнительный индекс, в поиске практически не участвуют, разве что только в том случае, если в основном индексе Google вообще не найдется релевантных поисковому запросу документов. А вероятность такого случая крайне мала.

Сканированием сайтов в сети занимаются так называемые поисковые боты, которые переходят от документа к документу по ссылкам, ведущих с этих документов. Поисковые боты Google осуществляют поиск новых страниц ресурса следующим образом. Во-первых, задание на посещение того или иного документа поисковый бот Google может получить после того, как вы добавите адрес той или иной страницы в аддурику Google. Во-вторых, поисковый бот Google может проиндексировать документ, перейдя на него по ссылке с другого или же с вашего же ресурса.

При расчете релевантности учитывается содержание документа (насколько он хорошо оптимизирован под данный поисковый запрос), а так же учитывается количество и качество обратных ссылок на данный документ.

В принципе, точно такие же принципы работы заложены и в других поисковых системах. Но у поисковой системы Google есть одно отличие от других (более мелких) поисковых систем. Материальные возможности компании Google (как денежные, так и аппаратные) позволяют этой поисковой системе индексировать все страницы подряд и хранить их в своей индексной базе. Более мелкие поисковые системы, в том числе и Яндекс, не могут позволить себе такой роскоши и удаляют из индекса дублированный контент и прочие, не качественные (по мнению поисковых систем) документы. Google обладает настолько большими мощностями, что способен хранить в своей коллекции все проиндексированные им в сети документы.

Расширенный режим запросов

Яндекс

Пример	Значение
"К нам на утренний рассол"	Слова идут подряд в точной форме
"Прибыл * посол"	Пропущено слово в цитате
полгорбушки & мосол	Слова в пределах одного предложения
снаряжайся && добудь	Слова в пределах одного документа
технический прогресс +антирес	Поиск документов, в которых обязательно встречается определённое слово
глухаря \| куропатку \| кого-нибудь	Поиск любого из слов
не смогешь << винить	Неранжирующее "и": выражение после оператора не влияет на позицию документа в выдаче
я должон /2 казнить	Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово)
государственное дело && /3 улавливаешь нить	Расстояние в 3 предложения в любую сторону
нешто я ~~ пойму	Исключение слова пойму из поиска
при моем /+2 уму	Расстояние в пределах двух слов в прямом порядке
чай ~ лаптем	Поиск предложения, где слово чай встречается без слова лаптем
щи /(-1 +2) хлебаю	Расстояние от одного слова в обратном порядке до двух слов в прямом
!Соображаю !что !чему	Слова в точной форме с заданным регистром
получается && (+на \| !мне)	Скобки формируют группы в сложных запросах
!!политика	Словарная форма слова
title:(в стране)	Поиск по заголовкам документов
url:ptici.narod.ru/ptici/kuropatka.htm	Поиск по URL
беспременно inurl:vojne	Поиск с учетом фрагмента URL
host:lib.ru	Поиск по хосту
rhost:ru.lib.*	Поиск по хосту в обратной записи
site:http://www.lib.ru/PXESY/FILATOW	Поиск по всем поддоменам и страницам заданного сайта
mime:pdf	Поиск по одному типу файлов
lang:en	Поиск с ограничением по языку
domain:ru	Поиск с ограничением по домену
date:200712*	Поиск с ограничением по дате
date:20071215..20080101, date:>20091231	Поиск с ограничением по интервалу дат
cat:11000051	Поиск по рубрике Яндекс.Каталога

Google

Оператор «Плюс» (+): Для ситуации, когда надо принудительно включить в текст какое-либо обязательное слово. Для этого используется оператор "+" перед обязательным словом.

Пример: Уравнение +Бернулли

Исключение слов из запроса. Логическое «не» (-): Чтобы исключать какие-либо слова используются операторы исключения "минус" (-). То есть логическое «НЕ». Полезно в случаях, когда результаты прямого поиска слишком замусорены.

Пример: Аквариум -группа - ищем все про аквариум исключая группу "Аквариум".

Поиск точной фразы (""): Полезно для поиска конкретного текста (целой статьи по цитате). Для этого надо заключить запрос в кавычки (двойные кавычки).

Пример: "И темница тесна, и свобода одна И всегда на нее уповаем" - ищем балладу Высоцкого по одной строке.

Оператор неизвестных знаков в слове (?). Символ "?" в ключевом слове запроса заменяет один символ в слове. Если в слове запроса неизвестна точно одна из букв, вместо неё может быть подставлен символ "?".

Ппример: при вводе слова велос?пед , с подставленным символом "?", поисковая машина сама вставит недостающую букву "и", и выдаст результат, соответствующий запросу.

Усечение слова (*): Иногда требуется искать информацию о словосочетании слов, в котором неизвестно одно или несколько слов. Для этих целей вместо неизвестных слов используется оператор "*". Т.е. "*" - любое слово или группа слов.

Пример: Мастер и *

Оператор поиска синонимов (~): Если вы хотите найти тексты, содержащие не только ключевые слова, но и их синонимы, то можно воспользоваться оператором "~" перед словом, к которому необходимо найти синонимы.

Пример: ~Объектное ориентирование

Оператор диапазона (..): Для тех, кому приходится работать с цифрами, Google дал возможность искать диапазоны между числами. Для того, чтобы найти все страницы, содержащие числа в неком диапазоне «от - до», надо между этими крайними значениями поставить две точки (..), то есть, оператор диапозона.

Пример: Численность населения 1913..1935

cache: Если Вы будете включать другие слова в запрос, то Google подсветит эти включенные слова в пределах кэшируемого документа.

Пример: cache:www.books.com web покажет кэшируемое содержимое с подсвеченным словом 'web'.

link: рассматриваемый выше поисковой запрос покажет веб-страницы, на которых содержатся ссылки к указанному запросу.

Пример: link:www.books.com отобразит все страницы, на которых есть ссылка на http://www.books.com

related: Отобразит web-страницы, которые являются 'подобными' (related) указанной web-странице.
Пример: related:www.google.com перечислит web-страницы, которые являются подобными домашней странице Google.

info: Информация запроса: представит немного информации, которую Google имеет о запрашиваемой web-странице.

Пример: info:www.books.com покажет информацию об этом сайте.

define: Запрос define: обеспечит определение слов, которые Вы вводите после того, как это, собранный из различных сетевых источников. Определение будет для всей введенной фразы (то есть, это будет включать все слова в точный запрос).

site: Если Вы включаете site: в ваш запрос, Google ограничит результаты теми вебсайтами, которые найдет в данном домене. Также можно искать и по отдельным зонам, как таковое ru, org, com ( site:com site:ru).

intitle: Если Вы включаете intitle: в вашем запросе, Google ограничит результаты документами, содержащими то слово в заголовке.

allinurl: Если Вы запускаете запрос с allinurl: Google ограничит результаты, со всеми словами запроса в URL.

Пример: allinurl: google search вернет документы с google и search в заголовке.

Также как вариант можно разделять слова слэшем (/) тогда слова по обе стороны слэша будут искаться в пределах одной страницы.

Пример allinurl: foo/bar

inurl: Если Вы включаете inurl: в вашем запросе, Google ограничит результаты документами, содержащими то слово в URL.

Пример: Animation inurl:books.com

daterange: ищет во временных рамках. Даты для времени указываются в Юлианском формате.

filetype: Как известно, Google индексирует не только html страницы. Если, к примеру, понадобилось найти какую-нибудь информацию в отличном от html типе файла, можно воспользоваться оператором filetype, который позволяет искать информацию в определенном типе файлов (html, pdf, doc, rtf...).

Пример: Сочинения filetype:rtf

Понятие релевантности

Релевантность в общем смысле — это степень соответствия чего-то чему-то. Применительно к поисковым системам, релевантность — это соответствие поискового запроса (введенного пользователем поисковика) и веб-страницы (документа), найденного этой поисковой системой в сети. Чем выше будет соответствие (релевантность) запроса содержанию страницы вашего ресурса, тем лучше будет его ранжирование и тем выше он будет стоять в поисковой выдаче.

Выделяют следующие виды релевантности:

Формальная релевантность - соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму;
Содержательная релевантность - соответствие документа информационному запросу, определяемое неформальным путем. Для этого используют различные функции релевантности.

Факторов, которые учитывают поисковые системы при определении релевантности веб-страницы при ее ранжировании, очень много (счет идет на сотни или даже тысячи), но не все из них представляют серьезную значимость и не на все из них мы может повлиять (или даже узнать об их существовании). Всю совокупность этих факторов, влияющих на ранжирование, обычно условно делят на несколько групп:

Внутренние факторы — контент веб-страницы, ее структура и правильность верстки, а так же степень ее засспамленности ключевыми словам
Внешние факторы — ссылочная релевантность (учитываются тексты ссылок, которые идут на ваш сайт, их количество и качество ресурсов, с которых они проставлены) и так называемый траст сайта (насколько поисковики ему доверяют)
Поведенческие факторы — оценивается поведение пользователей в поисковой выдаче и поведение пользователей на самом сайте (поисковики стремятся, отслеживая поведение пользователей, чтобы узнать, насколько страница данного сайта отвечает данному поисковому запросу — оценить правильность определения релевантности)

Функции вычисления релевантности

Релевантность документа не обязательно должна оцениваться в терминах двузначной логики («да — нет»). В некоторых развитых системах используются более тонкие оценки, которые вычисляются как значения специально подобранной числовой функции (функции релевантности), к примеру, принимающей значения в интервале [0 ÷ 1]. В таких случаях уместно говорить о степени релевантности документа, понимая ее как значение этой функции.

TF-IDF

Характеристики

Тип файла

Документ

Размер

62,01 Kb

Материал

Лабораторная работа 1

Тип материала

Лабораторная работа

Предмет

Вычислительные машины, системы и сети (ВМСиС)

Высшее учебное заведение

НИУ «МЭИ»

Список файлов лабораторной работы

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.