Главная » Просмотр файлов » LAB1 Захаров А.Е.

LAB1 Захаров А.Е. (544680), страница 3

Файл №544680 LAB1 Захаров А.Е. (Лабораторная работа 1) 3 страницаLAB1 Захаров А.Е. (544680) страница 32015-08-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 3)

Робот Orange предназначен для поиска в реальном времени. Его планировщик и паук настроены так, чтобы находить новые документы и выбирать из огромного их количества все, хоть сколько-нибудь интересные. Каждый такой документ Orange сразу обрабатывает и выкладывает на базовый поиск. Срочных документов не очень много по сравнению с общим объемом интернета, поэтому обновление базы в реальном времени можно делать и при дневных нагрузках на сервера.

Можно сказать, что поиск в интернете состоит из двух больших частей. Первая – когда Яндекс ищет различные документы в интернете и составляет поисковый индекс. Вторая – когда система ищет ответ на конкретный запрос пользователя в уже подготовленной поисковой базе.

Показ результатов.

В ответ на поисковые запросы пользователей система находит в индексе подходящие страницы и выдаёт наиболее релевантные результаты. Релевантность определяется различными факторами. Один из них – это тематический индекс цитирования тИЦ.

Функции Яндекс «Расширенный поиск», «Исправление опечаток» и «автозаполнение» помогают пользователям быстрее находить нужную информацию, исправляя орфографические ошибки и предоставляя удобный интерфейс для конкретизации запросов.

  1. Изучить принципы и модель работы поисковой машины Google.

Сканирование.

В ходе сканирования робот Googlebot обнаруживает новые и обновлённые страницы для добавления в индекс Google.

Google использует огромную сеть компьютеров, чтобы извлечь содержание миллиардов веб-страниц. Программа, выполняющая сканирование, называется роботом Google. Робот Googlebot использует алгоритмический процесс: программы определяют, какие сайты нужно сканировать, как часто это нужно делать, а также какое количество страниц следует выбрать на каждом сайте.

Процесс сканирования Google начинается со списка URL-адресов веб-страниц, созданного на основе предыдущих сеансов сканирования. Просматривая каждый из этих сайтов, поисковый робот Googlebot находит на каждой странице ссылки и добавляет их в список страниц, подлежащих сканированию. Робот Googlebot отмечает все новые и обновлённые сайты, а также неработающие ссылки.

Индексирование.

Робот Googlebot обрабатывает каждую сканируемую страницу, чтобы составить полный индекс всех найденных слов, а также отметить, где именно на странице они находятся. Кроме того, обрабатываются данные из основных тегов и атрибутов, например тегов title и атрибутов alt. Робот Googlebot способен обрабатывать многие (но не все) типы содержания. К примеру, обработке не поддаётся содержание некоторых файлов мультимедиа и динамически создаваемых страниц.

Показ результатов.

Когда пользователь вводит поисковый запрос, система находит в индексе подходящие страницы и выдаёт наиболее релевантные, по мнению системы, результаты. Релевантность определяется различными факторами, которых насчитывается более 200. Один из них – это рейтинг страницы PageRank. PageRank является показателем «важности» страницы и определяется по входящим ссылкам с других страниц.

Функции Google «Похожие запросы», «Возможно, вы имели в виду» и «автозаполнение» помогают пользователям быстрее находить нужную информацию, исправляя орфографические ошибки и подсказывая похожие ключевые слова и популярные запросы.

  1. Изучить расширенный режим подачи запросов к поисковой системе.

Яндекс позволяет решать сложные поисковые задачи, не пользуясь языком запросов. Для этого воспользуйтесь формой расширенного поиска, где сложные поисковые условия задаются в простой и наглядной форме [13].

Яндекс позволяет искать страницы не только по всей базе, но и по группе страниц, расположенных на одном или нескольких сайтах. Для этого достаточно указать через запятую адреса сайтов в поле находятся на сайте.

Дополнительно расширенный поиск позволяет указать регион, расположение искомых слов на странице («в заголовке» или «где угодно»), точность соответствия форме поискового запроса («в любой форме» или «точно так, как в запросе»), язык, дату обновления и формат интересующих страниц.

Расширенный поиск поисковой системы Яндекс yandex.ru/search/advanced

Гораздо более широкие возможности предоставляет язык запросов [14]:

Пример

Значение

"прикладная математика"

Слова идут подряд в точной форме

"кафедра * математики"

Пропущено слово в цитате

системы & сети

Слова в пределах одного предложения

математика && алгебра

Слова в пределах одного документа

институт +физика

Поиск документов, в которых обязательно встречается определённое слово

математика | алгебра | анализ

Поиск любого из слов

математические модели << примеры

Выражение после оператора не влияет на позицию документа в выдаче

ведь не даром /2 Москва

Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово)

государственное дело && /3 право

Расстояние в 3 предложения в любую сторону

калина красная ~~ автомобиль

Исключение слова «автомобиль» из поиска

при моем /+2 уму

Расстояние в пределах двух слов в прямом порядке

чай ~ лаптем

Поиск предложения, где слово чай встречается без слова лаптем

щи /(-1 +2) хлебаю

Расстояние от одного слова в обратном порядке до двух слов в прямом

!Соображаю !что !чему

Слова в точной форме с заданным регистром

получается && (+на | !мне)

Скобки формируют группы в сложных запросах

!!математика

Словарная форма слова

title:(энергетический институт)

Поиск по заголовкам документов

url:a1308.ru/homework/id451

Поиск по URL

host:mpei.ru

Поиск по хосту

rhost:vmss.*

Поиск по хосту в обратной записи

site:mpei.ru

Поиск по всем поддоменам и страницам заданного сайта

mime:doc

Поиск по одному типу файлов

lang:ru

Поиск с ограничением по языку

domain:com

Поиск с ограничением по домену

date:201201*

Поиск с ограничением по дате

date:20120101..20120218, date:>20120101

Поиск с ограничением по интервалу дат

cat:11000051

Поиск по рубрике Яндекс.Каталога

  1. Проанализировать различные функции оценки релевантности. Указать для каждой функции достоинства и недостатки (например, вероятность выдачи нерелевантной информации).

Функция оценки релевантности TF/IDF.

Достоинства:

  • Учитывает не только конкретный документ, в котором встречается слово, но и другие документы коллекции.

  • Скорость вычисления. Для формирования оценки достаточно просканировать все документы в пределах одной коллекции.

Недостатки:

  • Оценка является статической. Может измениться только при изменении одного из документов коллекции. Не стоит забывать, что Интернет – это не фиксированный набор статических страниц, и то, что было релевантным 10 лет назад, сейчас, возможно, уже нет.

  • Частота встречаемости слова далеко не самый надёжный показатель релевантности, особенно для русского языка. Можно составить документ, в котором релевантное слово не будет повторяться (с использованием синонимов), или же, наоборот, текст будет перегружен омонимами нерелевантного слова. В обоих случая функция TF/IDF даст ошибочную оценку релевантности данных слов.

  • Совершенно бесполезный текст, буквально перегруженный ключевыми словами, позволит «обхитрить» данную оценку.

  • Не учитывается уровень вложенности документа.

Функция оценки релевантности PageRank.

Достоинства:

  • Учитывается своего рода «мнение» других страниц.

  • Оценка является динамической. PageRank в результате каких-либо событий может и упасть, и возрасти.

Недостатки:

  • Порождает множество путей искусственного увеличения PageRank и, как результат, опадание в поисковую выдачу нерелевантных страниц.

  • Относительно медленная скорость получения актуального значения оценки, так как перед вычислением PageRank конкретной страницы требуется вычислить PageRank страниц, ссылающихся на данную.

  1. Составить обзор методов борьбы с нерелевантным содержимым.

Любые методы борьбы с нерелевантным контентом всегда плотно связаны с различными уловками сайтов для подъёма в поисковой выдаче. Чтобы бороться с нерелевантным содержимым, необходимо понимать, как оно попадает в результаты поиска.

Биржи ссылок позволяют вам выбирать сайты, которые хотят продать текстовые ссылки. Обычно система автоматизирована, продавцы размещают код на своих сайтах, позволяя бирже распространять ссылки в сети. Это самый очевидный способ, который поисковые системы легко обнаруживают и накладывают «штраф» на биржи и сайты, пользующиеся подобными «чёрными услугами».

Отношения ссылок – если все 100% ссылок ведущих на сайт используют исключительно ключевые слова, то это непременно будет сигналом для поисковой системы.

Рост ссылок – заключается в сравнении роста естественных и купленных ссылок. Естественный рост будет медленным, но последовательным, с несколькими пиками, связанными с новым контентом и обновлением сайта. Искусственный рост будет быстрым, со многими пиками и даже с полными падениями, так как люди часто забывают проплатить свои ссылки. Посмотрите на диаграмму ниже, которая показывает, как выглядит естественный рост и как очевидна манипуляция:

Учёт PageRank ссылающихся сайтов. Если ни с того ни с сего на новый сайт начинают ссылаться с десяток сайтов с PR 5, 6, 7, то такому сайту недолго осталось пробыть в индексе поисковой системы.

Сайты, которые «Яндекс» не индексирует или ограничивает ранжирование:

  • Копирующие или переписывающие информацию с других ресурсов и не создающие оригинального контента.

  • Единственной целью которых является перенаправление пользователя на другой ресурс, автоматически (редирект) или добровольно.

  • С автоматически сгенерированным (бессмысленным) текстом.

  • С каталогами (статей, программ, предприятий и т. п.), если они являются только агрегаторами контента, не создают тексты и описания самостоятельно и не предоставляют никакого уникального сервиса.

  • С невидимым или слабовидимым текстом или ссылками.

  • Отдающие разный контент пользователям и роботам поисковых систем (клоакинг).

  • Предоставляющие товары или информацию по партнёрским программам, но не представляющие никакой ценности для пользователя.

  • Использующие обманные техники (например, вредоносный код, скрипты, настройки серверов), перенаправляющие пользователей на сторонние ресурсы или меняющие окно результатов поиска на страницы других ресурсов при переходе из поисковых систем.

  • Содержащие списки поисковых запросов (многократное повторение и перечисление ключевых слов), предназначенные исключительно для обмана поисковой системы и манипулирования результатами её работы, в том числе использование элементов страниц, скрывающих ключевые слова, например, посредством скроллинга или других технических приёмов.

  • Группы сайтов одного владельца/компании, предоставляющие пользователю одни и те же товары или услуги, созданные с целью заполнения нескольких позиций в результатах поиска и сбора трафика.

  • Ставящие внешние ссылки исключительно для обмана поисковых систем и «накачивания» релевантности и не являющиеся рекомендацией автора посетить ресурс.

  • Сайты или группы сайтов, интенсивно ссылающиеся друг на друга (линкфармы).

  • Страницы сайта с результатами поиска.







Используемые источники.

  1. Протокол передачи данных [http://ru.wikipedia.org/wiki/Сетевой_протокол]

  1. Internet Protocol

[http://ru.wikipedia.org/wiki/IP]

  1. IP-адрес

[http://ru.wikipedia.org/wiki/IP-адрес]

  1. DNS

[http://ru.wikipedia.org/wiki/DNS]

  1. Интернет

[http://ru.wikipedia.org/wiki/Интернет]

  1. Поисковая система

[http://ru.wikipedia.org/wiki/Поисковая_система]

  1. Калинина А. Э. Интернет-бизнес и электронная коммерция: Учебное пособие. – Волгоград: Изд-во ВолГУ, 2004. – 148 с.

  1. Журнал «Biz-Invest» № 2 (май 2004 г).



  1. Релевантность

[http://ru.wikipedia.org/wiki/Релевантность]

  1. Что такое тИЦ

[http://help.yandex.ru/catalogue/?id=873431]



  1. TF-IDF
    [http://ru.wikipedia.org/wiki/TF-IDF]

  2. Исследование методов автоматического реферирования документов [http://www.tsi.lv/ResTech/2009/vol4_1/vol4_N1-section1.pdf]

  1. Расширенный поиск

[http://help.yandex.ru/search/?id=481920]



  1. Памятка по использованию языка запросов

[http://help.yandex.ru/search/?id=1111313]

  1. Технология индексирования Интернета «Яндекс»

[http://company.yandex.ru/technologies/searchindex]

Характеристики

Тип файла
Документ
Размер
1,33 Mb
Тип материала
Высшее учебное заведение

Список файлов лабораторной работы

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6451
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее