ref-20093 (Информационно-поисковые системы на примере Рамблера), страница 2

2016-07-31СтудИзба

Описание файла

Документ из архива "Информационно-поисковые системы на примере Рамблера", который расположен в категории "". Всё это находится в предмете "информатика" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "информатика, программирование" в общих файлах.

Онлайн просмотр документа "ref-20093"

Текст 2 страницы из документа "ref-20093"

После этого на панели появится кнопка "Искать в Rambler". В броузере должно быть разрешено выполнение JavaScript. Если во время просмотра документа выделить текст, который надо задать в качестве поискового запроса, и нажать на эту кнопку, запрос будет передан Rambler. Результаты поиска будут выведены в другом окне. Длина запроса ограничена 96 символами

Как включить панель ссылок

Если панель ссылок отключена, то включить ее можно следующим образом:

Netscape

В меню 'View' отметьте 'Show Personal Toolbar'

Internet Explorer

В меню 'View' (или 'Вид') определите 'ToolBars' ('Панели инструментов'). Затем пометьте 'Links' ('Ссылки')

Как сделать, чтобы Rambler находил мои документы?

  1. Прежде всего надо заполнить регистрационную анкету в поисковой системе Rambler. Это будет гарантией того, что роботы Рамблера узнают о сайте и скорее начнут его индексацию. Анкета находится по адресу http://www.rambler.ru/doc/add_site_form.shtml.

  2. Автоматически роботы Rambler сканируют сайты, находящиеся в следующих доменах первого уровня:

Российская Федерация: .ru, .su
Украина: .ua
Белоруссия: .by
Казахстан: .kz
Киргизия: .kg
Узбекистан: .uz
Грузия: .ge

и игнорируют сайты из других доменов.

Если данный сайт находится вне названных доменов (например, в зонах .com, .org, .net), но существенная часть сайта содержит русскоязычные материалы или он может представлять интерес для русскоязычной аудитории Рамблера, можно отослать письмо на адрес search.support@rambler-co.ru с просьбой включить сайт в число сканируемых, либо заполнить форму обратной связи. Сотрудники Рамблера рассмотрят эту просьбу и примут решение о целесообразности такого включения.

  1. Рекомендуется зарегистрировать сайт в рейтинге Top100 и расставить счетчик на всех страницах сайта. Анкета, заполняемая при регистрации в этом рейтинге, индексируется ежедневно, а специальный робот Рамблера дважды в день пополняет базу поисковой машины новыми страницами, на которых размещен счетчик. Таким образом, включение сайта в Тор100 - это самый быстрый способ попасть в результаты поиска!

  2. При заполнении полей анкеты "Название сайта" и "Описание" не следует вводить в них длинные перечни ключевых слов. Эти поля все равно пока не используются для поиска. Название и описание должны быть предназначены для прочтения человеком, так как эти поля используются в наших внутренних базах данных и просматриваются редакторами.

  3. Рамблер умеет извлекать гиперссылки из объектов Macromedia Flash. Если сайт имеет заставку или навигационные панели, выполненные c использованием этой технологии, Рамблер обработает их, найдет адреса всех страниц сайта и проиндексирует весь сайт. Однако, сами тексты flash-объектов не индексируются. Это решение принято потому, что большая часть таких объектов содержит элементы навигации, заставки, меню и другие фрагменты, очень важные в качестве источника гиперссылок, но малоинформативные как текст. Для сайтов, которые целиком состоят из flash-объектов, рекомендуется создать HTML-копию и зарегистрировать ее в поисковой машине.

  4. Роботы Рамблера при сканировании игнорируют поля и все другие поля , кроме . Это связано с тем, что эта система старается индексировать документ таким, какой он есть (то есть таким, каким его видит пользователь). Не секрет, что зачастую создатели интернет-страниц злоупотребляют этими полями, пытаясь заставить поисковые машины находить документ по запросам, не имеющим к нему прямого отношения. Не следует также использовать невидимый текст (в котором цвет шрифта совпадает с цветом фона). Комментарии в документе роботы Рамблера тоже не сканируют, поэтому использовать их лучше по прямому назначению. Помните, что каждый комментарий увеличивает размер документа, а значит, снижает вероятность того, что документ будет просмотрен пользователем до конца.

  5. Обратите внимание на заголовки и выделения в документе. Базовые понятия и ключевые для данного сайта слова целесообразно включать в следующие HTML-теги (в порядке значимости):


...


, ,

Чем чаще слово встречается в этих полях, тем более вероятно, что поисковая система Rambler выдаст ссылку на Ваш документ ближе к началу списка результатов поиска. Конечно, использование этих тегов должно органично сочетаться с дизайном Вашего сайта.

  1. С точки зрения поиска, использование фреймов в документе не приветствуется. Это не означает, что роботы не умеют сканировать фреймы. Роботы Rambler прекрасно справляются с конструкциями фреймов, однако наличие лишнего этажа ссылок (от головного навигационного фрейма к "содержательным") замедляет индексацию.

Оптимальным является включать в документы с фреймами HTML-тег с текстом документа и ссылками. Разумеется, это увеличит размер документа, но будет являться актом доброй воли по отношению к пользователям текстовых браузеров (например, Lynx) и поисковым машинам.

  1. Максимальный размер документа для роботов Рамблера составляет 200 килобайт. Документы большего размера усекаются до указанной величины. Впрочем, размещать в Сети документы такого размера без особой на то необходимости - все равно дурной тон; в любом случае надо ограничивать объем документа разумными рамками.

  2. Роботы Рамблера обрабатывают ссылки типа , однако наряду со ссылкой такого вида хорошо бы поместить в текст документа конструкцию . Это ускорит индексацию документов, указанных в imagemap, и облегчит доступ к документам для обычных браузеров.

  3. При написании документов надо внимательно следить за соблюдением русского/латинского регистров. Часто, например вместо русской буквы 'р' используют латинскую 'p', вместо русского 'с' - латинское 'c'. Некоторые подобные ошибки индексатор исправляет, но не все. Слова с подобными опечатками теряют информативность.

Старайтесь не использовать дефисы '-' в качестве символов переноса. При этом слова разбиваются и теряют информативность; кроме того, такие переносы имеют все шансы оказаться у пользователя в середине строки. Помните, что браузер сам осуществляет представление документа согласно текущим установкам каждого конкретного пользователя.

  1. Часто изменяющиеся (динамические) документы рекомендуется исключить из списка индексируемых, т. к. актуальность этих документов быстро теряется. Осуществить это можно с помощью стандартного для HTTP механизма - посредством файла robots.txt в головной директории Вашего сайта или HTML-тега .

Части документа, не требующие, по Вашему мнению, индексации, можно отделять в документе с помощью тегов ... . Из частей документа, размеченных этими тегами, также не будут выделены ссылки для дальнейшего обхода.

  1. При задании перекрестных ссылок в документе будьте предельно внимательны, проверьте работоспособность каждой ссылки, иначе роботы (и пользователи!) не смогут добраться до некоторых документов.

Следует также иметь в виду, что с точки зрения HTML записи типа:

и
("слэш" в конце href)

являются разными ссылками. Обычно при запросе по первой ссылке робот получит редирект на вторую, а значит извлечет сам документ при обращении к серверу только на следующем проходе. Тем самым замедлится индексация сайта.

  1. Необходимо относится к планированию и размещению сайта серьезно, чтобы впоследствии не пришлось забрасывать администраторов поисковых систем письмами с просьбой переиндексировать сайт в связи с его переносом или полным изменением структуры. Поисковые машины - вещь достаточно инерционная, и переиндексация не будет мгновенной.

Как управлять индексированием сайта

Использование файлов robots.txt

Роботы и файл robots.txt

Рамблер, как и другие поисковые машины, для поиска и индексации интернет-ресурсов использует программу-робот. Робот скачивает документы, выставленные в Интернет, находит в них ссылки на другие документы, скачивает вновь найденные документы и находят в них ссылки, и так далее, пока не обойдет весь интересующий его участок Сети. Называется этот робот StackRambler.

Когда робот-индексатор поисковой машины приходит на web-сайт (к примеру, на http://www.rambler.ru/), он прежде всего проверяет, нет ли в корневом каталоге сайта служебного файла robots.txt (в нашем примере - http://www.rambler.ru/robots.txt).

Если робот обнаруживает этот документ, все дальнейшие действия по индексированию сайта осуществляются в соответствии с указаниями robots.txt. Можно запретить доступ к определенным каталогам и/или файлам своего сайта любым роботам-индексаторам или же роботам конкретной поисковой системы.

Правда, инструкциям файла robots.txt (как и meta-тегов Robots, см. ниже) следуют только так называемые "вежливые" роботы - к числу которых робот-индексатор Рамблера, разумеется, относится.

Размещение файла robots.txt

Робот ищет robots.txt только в корневом каталоге сервера. Под именем сервера здесь понимаются доменное имя и, если он есть, порт. Размещать на сайте несколько файлов robots.txt, размещать robots.txt в подкаталогах (в том числе подкаталогах пользователей типа www.hostsite.ru/~user1/) бессмысленно: "лишние" файлы просто не будут учтены роботом. Таким образом, вся информация о запретах на индексирование подкаталогов сайта должна быть собрана в едином файле robots.txt в "корне" сайта. Имя robots.txt должно быть набрано строчными (маленькими) буквами, поскольку имена интернет-ресурсов (URI) чувствительны к регистру. Ниже приведены примеры правильных и неправильных размещений robots.txt.

Правильные:
http://www.w3.org/robots.txt
http://w3.org/robots.txt
http://www.w3.org:80/robots.txt
(В данном случае все эти три ссылки ведут на один и тот же файл.)

Неправильные:
http://www.yoursite.ru/publick/robots.txt
http://www.yoursite.ru/~you/robots.txt
http://www.yoursite.ru/Robots.txt
http://www.yoursite.ru/ROBOTS.TXT

Формат файла robots.txt

Пример

Следующий простой файл robots.txt запрещает индексацию всех страниц сайта всем роботам, кроме робота Рамблера, которому, наоборот, разрешена индексация всех страниц сайта.

# Инструкции для всех роботов
User-agent:   *
Disallow: /

# Инструкции для робота Рамблера
User-agent: StackRambler
Disallow:

Группы инструкций для отдельных роботов: User-agent

Любой файл robots.txt состоит из групп инструкций. Каждая из них начинается со строки User-agent, указывающей, к каким роботам относятся следующие за ней инструкции Disallow.

Для каждого робота пишется своя группа инструкций. Это означает, что робот может быть упомянут только в одной строке User-agent, и в каждой строке User-agent может быть упомянут только один робот.

Исключение составляет строка User-agent:   *. Она означает, что следующие за ней Disallow относятся ко всем роботам, кроме тех, для которых есть свои строки User-agent.

Инструкции: Disallow

В каждой группе, вводимой строкой User-agent, должна быть хотя бы одна инструкция Disallow. Количество инструкций Disallow не ограничено.

Строка "Disallow: /dir" запрещает посещение всех страниц сервера, полное имя которых (от корня сервера) начинается с "/dir". Например: "/dir.html", "/dir/index.html", "/directory.html".

Чтобы запрещать посещение именно каталога "/dir", инструкция должна иметь вид: "Disallow: /dir/". Для того, чтобы инструкция что-либо запрещала, указанный в ней путь должен начинаться с "/". Соответственно, инструкция "Disallow:" не запрещает ничего, то есть все разрешает.

Внимание: точно так же и инструкции "Disallow:   *", "Disallow: *.doc", "Disallow: /dir/*.doc" не запрещают ничего, поскольку файлов, имя которых начинается со звездочки или содержит ее, не существует! Использование регулярных выражений в строках Disallow, равно как и в файле robots.txt вообще, не предусмотрено.

К сожалению, инструкций Allow в файлах robots.txt не бывает. Поэтому даже если закрытых для индексирования документов очень много, все равно придется перечислять именно их, а не немногочисленные "открытые" документы. Надо продумать структуру сайта, чтобы закрытые для индексирования документы были собраны по возможности в одном месте.

Пустые строки и комментарии

Пустые строки допускаются между группами инструкций, вводимыми User-agent.

Инструкция Disallow учитывается, только если она подчинена какой-либо строке User-agent - то есть если выше нее есть строка User-agent.

Любой текст от знака решетки "#" до конца строки считается комментарием и игнорируется.

Использование META-тегов "Robots"

В отличие от файлов robots.txt, описывающих индексацию сайта в целом, тег управляет индексацией конкретной web-страницы. При этом роботам можно запретить не только индексацию самого документа, но и проход по имеющимся в нем ссылкам.

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5173
Авторов
на СтудИзбе
436
Средний доход
с одного платного файла
Обучение Подробнее