Популярные услуги

Все письменные КМ под ключ за 3 суток! (КМ-6 + КМ-7 + КМ-8 + КМ-9 + КМ-10)
КМ-6. Динамические массивы. Семинар - выполню любой вариант!
Любая задача на C/C++
Одно любое задание в mYsql
Сделаю ваше задание: Лабораторная работа на Pascal / Lazarus
Любой тест по базам данных максимально быстро на хорошую оценку - или верну деньги!
Любой реферат по объектно-ориентированному программированию (ООП)
КМ-2. Разработка простейших консольных программ с использованием ООП + КМ-4. Более сложные элементы ООП - под ключ!
Повышение уникальности твоей работе
Оба семинара по программированию под ключ! КМ-2. Разработка циклических алгоритмов + КМ-3. Функции и многофайловые программы в Си

Поисковые машины (Search engine)

2021-03-09СтудИзба

Поисковые машины (Search engine)

Поисковые машины позволяют найти WWW-документы, относящиеся к заданным тематикам или снабженные ключевыми словами или их комбинациями. На поисковых серверах отрабатываются два способа поиска:

· По иерархии понятий;

· По ключевым словам.

Заполнение поисковых серверов происходит автоматически или вручную. Поисковый сервер обычно имеет ссылки на остальные поисковые сервера, и передает им запрос на поиск по желанию пользователя.

Существует два типа поисковых машин.

1. "Полнотекстовые" поисковые машины, которые индексируют каждое слово на веб-странице, исключая стоп-слова.

2. "Абстрактные" поисковые машины, которые создают реферат каждой страницы.

Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако абстрактные машины могут индексировать страницы лучше полнотекстовых. Это зависит от алгоритма извлечения информации, например по частоте употребления одинаковых слов.

Рекомендуемые материалы

Основные характеристики поисковых машин.

1. Размер поисковой машины определяется количеством проиндексированных страниц. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы пользователей, могут быть различной давности. Причины, по которым это происходит:

· некоторые поисковые машины сразу индексируют страницу по запросу пользователя, а затем продолжают индексировать еще не проиндексированные страницы.

· другие чаще индексируют наиболее популярные страницы сети.

2. Дата индексации. Некоторые поисковые машины показывают дату, когда был проиндексирован документ. Это помогает пользователю определить, когда документ появился в сети.

3. Глубина индексирования показывает сколько страниц после указанной будет индексировать поисковая система. Большинство машин не имеют ограничений по глубине индексирования. Причины, по которым могут быть проиндексированы не все страницы:

· не правильное использование фреймовых структур.

· использование карты сайта без дублирования обычными ссылками

4. Работа с фреймами. Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

5. Частота ссылок. Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются. Некоторые машины на основании таких данных "делают вывод" стоит или не стоит индексировать документ.

6. Частота обновления сервера. Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать.

7. Контроль индексации. Показывает, какими средствами можно управлять поисковой машиной.

8. Перенаправление. Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает как это будет связано с найденными документами.

9. Стоп-слова. Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или часто использующиеся слова.

10. Spam-штрафы. Возможность блокирования спама.

11. Удаление старых данных. Параметр, определяющий действия вебмастера при закрытии сервера или перемещении его на другой адрес.

Примеры поисковых машин.

1. Altavista. Система открыта в декабре 1995. Принадлежит компании DEC. С 1996 года сотрудничает с Yahoo. AltaVista - это наилучший вариант для настраиваемого поис­ка. Однако сортировка результатов по категори­ям не выполняется и приходится вручную просматривать предоставленную информацию. В AltaVista не предусмотрены средства для получения списков активных узлов, новостей или других возможностей поиска по содержанию.

2. Excite Search. Запущена в конце 1995 года. В сентябре 1996 - приобретена WebCrawler. Данный узел имеет мощный поисковый меха­низм, возможность автоматической индивидуальной настройки предоставляемой информации, а также составленные квалифици­рованным персоналом описания множества узлов. Excite отличается от других поисковых узлов тем, что позволяет вести поиск в службах новостей и публикует обзоры Web-страниц. В поисковом механизме используются средства стандартного поиска по ключевым словам и эвристические методы поиска по содержанию. Благодаря такому сочетанию, можно найти подходящие по смыслу страницы Web, если они не содержат указанных пользователем ключе­вых слов. Недостатком Excite является несколько хаотичный интерфейс.

3. HotBot. Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi. HotBot - это база данных, содержащая документы, индексированные по полному тексту, и один из наиболее полных поисковых механизмов в Web. Его средства поиска по логическим ус­ловиям и средства ограничения поиска любой областью или узлом Web по­могают пользователю найти необходимую информацию, отсеи­вая ненужную. HotBot предоставляет возможность выбрать необходимые параметры поиска из раскрываю­щихся списков.

4. InfoSeek. Запущена раньше 1995 года, легко доступна. В настоящее время  содержит порядка 50 миллионов URL. У Infoseek хорошо продуманный интерфейс, а так­же отличные поисковые средства. Большинство ответов на запросы сопровождается ссылками «связанные темы», а после каждого ответа приводятся ссылки «аналогич­ные страницы». База данных поискового механизма страниц, индексированных по полному тексту. Ответы упорядочи­ваются по двум показателям: частоте встреч слово или фраз на страни­цах, а также метоположению слов или фраз на страницах. Существует каталог Web Directory, подразделяющийся на 12 категорий с сот­нями подкатегорий, для которых может быть выполнен поиск. Каждая страница каталога содержит перечень ре­комендуемых узлов.

5. Lycos. Работает с мая 1994 года. Широко известна и используема. В состав входит каталог с огромным числом URL. и поисковая машина Point с технологией статистического анализа содержимого страниц, в отличии от индексирования по полно­му тексту. Lycos содержит новости, обзоры узлов, ссылки на популярные узлы, карты городов, а так­же средства для поиска адресов, изо­бражений и звуковых и видео клипов. Lycos упорядочивает ответы по степени соот­ветствия запросу по нескольким критериям, например, по чис­лу поисковых терминов, встретившихся в аннотации к доку­менту, интервалу меж­ду словами в конкретной фразе документа, местоположению терминов в документе.

6. WebCrawler. Открыта 20 апреля 1994 года как проект Вашингтонского Университета. WebCrawler предоставляет возможности синтаксиса для конкретизации запросов, а также большой выбор аннотаций узлов при несложном интерфейсе.


Следом за каждым ответом WebCrawler помеша­ет небольшую пиктограмму с приблизительной оценкой соответ­ствия запросу. Коме того выводит на экран стра­ницу с кратким резюме для каждого ответа, его полным URL, точной оценкой соответствия, а также использует этот ответ в запросе по образцу в качестве его ключевых слов. Графического интерфейса для настройки запросов в WebCrawler нет. Не допускается ис­пользование универсальных символов, а также невозможно назначить весовые коэффициенты ключевым словам. Не существует возможности ограничения поля поиска определенной областью.

7. Yahoo. Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен каталог Yahooligans для детей. Появляются региональные и top-каталоги Yahoo. Yahoo основан на подписке пользователей. Он может служить от­правной точкой для любых поисков в Web, поскольку с помощью его системы классификации пользователь найдет узел с хорошо организованной информацией. Содержимое Web подразделяется на 14 общих категорий, пере­численных на домашней странице Yahoo!. В зависимости от специ­фики запроса пользователя существует возможность или работать с этими категориями, чтобы ознакомиться с подкатегориями и спи­сками узлов, или искать конкретные слова и термины по всей базе данных. Пользователь может также ограничить поиск в пределах любого раздела или подраздела Yahoo!.  Благодаря тому, что классификация узлов выполняется людьми, а не компьютером, качество ссылок обычно очень высокое. Однако, уточнение поиска в случае неудачи – сложная задача. В состав Yahoo! входит поисковый механизм AltaVista, поэтому в слу­чае неудачи при поиске на Yahoo! автоматически происходит его повторение с использованием поискового механизма AltaVista. Затем полученные результаты передаются в Yahoo!. Yahoo! обеспечивает возможность отправлять запросы для поиска в Usenet и в Fourl1, чтобы узнать адреса электронной почты.

К российским поисковым машинам относятся:

1. Rambler.Это русскоязычная поисковая система. Разделы, перечисленные на домашней странице Rambler, освещают русскоязычные Web-ресурсы. Существует классификатор информации. Удобной возможностью работы являет­ся предоставление списка наиболее посещаемых узлов по каждой предложенной тематике.

2. Апорт Поиск. Апорт входит в число ведущих поисковых систем, сертифицированных Microsoft как локальные поисковые системы для русской версии Microsoft Internet Explorer. Одним из преимуществ Апорта является англо-русский и русско-английский перевод в режиме online запросов и поисков результата, благодаря чему можно вести поиск в русских ресурсах Internet, даже не зная русского языка. Более того можно искать информа­цию, используя выражения, даже для предложений. Среди основных свойств поисковой системы Апорт можно вы­делить следующие:

• перевод запроса и результатов поиска с русского на англий­ский язык и наоборот;

• автоматическую проверку орфографических ошибок за­проса;

• информативный вывод результатов поиска для найден­ных сайтов;

• возможность поиска в любой грамматической форме;


• язык расширенных запросов для профессио­нальных пользователей.

Ещё посмотрите лекцию "3.2 Классификация помещений (условий работ)" по этой теме.

К другим свойствам поиска можно отнести под­держку пяти основных кодовых страниц (разных операционных систем) для русского языка, технологию поиска с использованием ограничений по URL и дате документов, реализацию поиска по заголовкам, комментариям и подпи­сям к картинкам и т. д., сохранение параметров поиска и определенного числа предыдущих запросов пользователя, объединение копий документа, находящихся на разных серверах.

3. List.ru (http://www.list.ruПо своей реализации этот сервер имеет много общего с англоязычной системой Yahoo!. На главной странице сервера располо­жены ссылки на наиболее популярные поисковые категории.


Список ссылок на основные категории ката­лога занимает центральную часть.  Поиск в каталоге реализован таким образом, что в резуль­тате запроса могут быть найдены как отдельные сайты, так и рубрики. В случае успешного поиска выводится URL, назва­ние, описание, ключевые слова. Допускается использование языка запросов Яндекс. Ссылка "Структура каталога" открывает в отдельном окне полный рубрикатор ката­лога. Реализована возможность перехода из рубрикатора в любую выбранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок. Каталог организован таким образом, что все сайты, содержащиеся на нижних уровнях струк­туры, представлены и в рубриках. Показываемый список ресурсов упорядочен в алфавит­ном порядке, но можно выбирать сортировку: по вре­мени добавления, по переходам, по порядку добавления в каталог, по популярности среди посетителей каталога.

4. Яndex. Программные продукты серии Яndex представляют набор средств полнотекстовой индексации и поиска текстовых данных с учетом морфологии русского языка. Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких как анализатор документов, языки разметки, конверторы форматов, паук.

Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.

Яndex предназначен для работы с текстами в локальной и в глобальной сети, а также может быть подключен как модуль к другим системам.

           

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5160
Авторов
на СтудИзбе
439
Средний доход
с одного платного файла
Обучение Подробнее