Бройдо В.Л., Ильина О.П. Архитектура ЭВМ и систем (2006) (1186249), страница 146
Текст из файла (страница 146)
Каталоги, в отличие от поисковых машин пополняют свою информацию по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге тематическим разделам. Каталог представляет собой упорядоченную по темам коллекцию ссылок на многочисленные веб-страницы и сайты. Каталог, как правило, составляется, обслуживается и поддерживается специалистами разного профиля, которые по заявкам владельцев сайтов или самостоятельно пополняют перечень ссылок и составляют обзоры веб-страниц, содержащие краткое описание информационного ресурса, его сетевой адрес и определенные ключевые слова.
Каталоги часто называют классификаторами, поскольку они представляют собой иерархические структуры, где все информационные ресурсы классифицированы по темам. Классификацию выполняют либо нанятые специалисты, и тогда она бывает качественной (например, каталог «Желтые страницы 1пгегпе㻠— 'ппр:цур.рйег.сот), либо владельцы каталога — тогда она весьма специфична и качественна не всегда. Наиболее мощные и популярные международные поисковые системы: Сооя1е, А1га Ч(зга, г'аЬоо, 1п1оБее1с, ЪЧеЬСга»!ег, Азс )еец ее, Ехс!ге и т. д.
Но поиск в них информации по русским наименованиям тем (ключевым словам) часто бывает затруднительным, а иногда и невозможным. Поэтому для русскоязычного поиска более удобными являются отечественные поисковые системы йашЫег (иллвг.гапто!ег.гц), т'анях (ветле.уапоех.ти) и Арогс (»теле.ароп'.ти), а также русскоязычные версии Еусоз (илвлеЛусоз.тц) и Сооя1е (ил«те.порп!е.солт.тц). Основные достоинства этих систем — высокая скорость формирования ответа и простота использования: клиент обращается на поисковый сервер, задает образ для поиска — ключевые слова интересующей его темы и управляющие элементы синтаксиса запросов, выполняет запрос, и система выдает списки и адреса тех документов, в которых эти ключевые слова встречаются.
Все поисковые системы имеют текстовое поле, в которое вводятся используемые для поиска документов ключевые слова. Для каждой поисковой системы приняты свои правила составления запросов (хотя и похожие), поясняемые обычно на страницах справки этих поисковых серверов. Общие рекомендации для результативного поиска: О четкое формулирование цели и темы поиска; 0 тщательный подбор ключевых слов с исключением слов общего характера, предлогов, союзов и вспомогательных слов (обычно поисковые системы игнорируют незначащие слова, но осторожность не мешает); С) подбор к ключевым словам максимального количества синонимов и альтернативных слов. Почти все поисковые системы позволяют выполнять: 647 Основные технологии работы в ~ММЬГ сз простой поиск, когда задаются лишь ключевые слова без указания структурно-логических отношений между ними; Ур лов за 1 '.в *«зс сл Щ1В 'ирн врислр ыса1 непа Рлеслз + теопал1пза.
Нее серро, Ве е1 ее сев АЛОБ и савсорэз Налег квас езлсв Своз нссроосз нозн ' творрс в Гп асе Низ Нр тепе» вропл велев ии Ие '- т 1 веос он ' иере Реоир веалп 'зу ирв ырз рзелойе тим Рееве невсв нрос1э Ирисе *р з, „„,'„ * *1. с1'ьь1в11васмел ньмквьозр:,~:'. "!"!1' ~:-',! ВЬ"'ы:татин волзьлрслззсррн~- вас взорвал» Ныв и сьпс» эие РВ, Вав;л рость Иыалз то Рань 51 вноси везир се срв версаинз ЙРСаритерс ИВА ° ИСАА Йоор» зрв.е рв зп ра 4( 21Р1осввиизлавГ вн .. онов с 7рьааг~ авв льв'цсм':::.' Ргзвпнг орпивйФ тавр Рлоио в з веавз1 Рез паСП1 Овсе Резо ап Рис. 27.7.
Страница поиска каталога Узлов С3 расширенный поиск с учетом структурно-логических отношений между словами запроса, с указаниями зон поиска и других ограничительных условий, обусловливающих большую релевантность результатов отбора полезных и отсева ненужных ссылок. Наиболее мощным и популярным каталогом является УаЬоо (истиси.уаиоо.согп).
По оценкам компании А!еха 1птегпец зтот портал — самый посещаемый в мире. По объему собранной информации он лишь незначительно уступает А!га Ч15га. Это старейший каталог — т'аЬоо был запущен в начале 1994 года. В марте 1996 гола открыт еше один каталог т'аЬоо — УаЬоо11йапз для детей. Поскольку УаЬоо основан на подписке пользователей, в нем может не оказаться некоторых нужных сайтов. Если поиск по т'аЬоо не дал подходящих результатов, клиенты могут воспользоваться поисковой машиной. Когда делается запрос к г'аЬоо, каталог переправляет его к любой из основных поисковых машин.
Первыми ссылками в списке удовлетворяющих запросу адресов являются адреса из каталога, а затем идут адреса, полученные от поисковых машин, в частности от А1Са Ч15та. Страница поиска каталога г'аЬоо показана на рис. 27.7. 64В Глава 27. Глобальная информационная сеть Интернет Самой известной из поисковых машин до недавнего времени считалась А!га Ч!зга (»теле.айаивга.солт), созданная фирмой П!8!са! Ет1п!ршепг Согрогас!оп в декабре 1995 года.
В настоящее время наиболее мощной поисковой машиной является Ооо81е, предоставляюшая более 3,5 млрд документов, поддерживающая значительное число тематических конференций. Поиск с помощью боо81е производится в точном соответствии с введенным ключевым словом с учетом различия строчных и прописных букв. В ответе ключевые слова запроса выделяются жирным шрифтом. Ооой!е позволяет сохранить результаты поиска, формируя систдму закладок. Одна из самых популярных российских поисковых машин Яндекс — часто ее имя пишут как Япт!ех (Языковый 1пт!ех). Это система полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка. Япт!ех включает в себя модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких как анализатор документов, языки разметки, конвертеры форматов, сетевой «паук», который 5 марта 2002 года проиндексировал ! Тбайт информации.
Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять расширенный поиск с учетом логических операторов: О 66 — логическое И (ключевые слова должны находиться в пределах одного документа); ьз пробел или 6 — краткое логическое И (ключевые слова должны находиться в пределах одного абзаца); С3, или ! — логическое ИЛИ; 0 ! ) — группирование слов; 0 - (гильда) — оператор И НЕ (в пределах одного абзаца); Π— (двойная тильда) — оператор И НЕ (в пределах одного документа); О /(пш) — расстояние в словах (- назад, + вперед); С) йоши(плт) — расстояние в абзацах (- назад, + вперед). Можно задавать зоны поиска: !2 ЗТ!йе — поиск в заголовках документов; 0 ЗА — поиск в ссылках и др.
В поисковой системе Япт!ех поддержана возможность осушествлять повторный поиск только в найденных документах (это нужно в случае, если найдено слишком много документов, для уточнения запроса). Япт(ех умеет работать с текстами как в локальной, так и в глобальной сети (технологии интранет и Интернет). На рис. 27.8 показана поисковая страница системы.
Последний «крик моды» — новая технология распространения информации в ЖЮЖ, так называемая рпзЬ-технология (другие ее названия: «толкай»-технология, технология «широковещания»). Рцз)т-технология подразумевает отправку пользователю информации с соответствующего сервера в режиме реального 649 Основные технологии работы в йЛМЧ/ времени. Пользователь указывает системе, какие источники и какая тематика сообщений его интересуют, и система сама посылает на его компьютер всю заказанную им новую информацию.
Эта технология является альтернативой используемой сейчас рв11-технологии (рц!1 — «тяни»), которая предлагает пользователям самим «копаться» в Сети и «перекачивать» к себе найденную информацию самостоятельно. Б рис. 27.8. Сервер поисковой машины япбех За последнее время анонсированы десятки новых программ, работающих на основе рцзЬ-технологии; фирмы Уегзсаре и М1сгозогг внедряют эту технологию в последние версии своих программных продуктов. РизЬ-программы позволяют передавать информацию не только по электронной почте, но также и на факсимильный аппарат, и на пейджер.