LAB1 Бочаров И.A. (544678), страница 3

Файл №544678 LAB1 Бочаров И.A. (Лабораторная работа 1) 3 страницаLAB1 Бочаров И.A. (544678) страница 32015-08-202015-08-20СтудИзба

Лабораторная работа 1

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

user interface - интерфейс пользователя. В случае информационно-поисковой системы под этим словосочетанием понимают и способ общения пользователя с поисковым аппаратом системы, т.е. с системой формирования запросов и просмотров результатов поиска.

search engine - поисковая машина служит для трансляции запроса пользователя, который подготавливается на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.

index database - индекс - это основной массив данных информационно-поисковой системы. Он служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.

queries – личная база данных запросов пользователя. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно хранить запросы, на которые система дает хорошие ответы.

index robot(spider, ant, bot) - робот-индексировщик. Cлужит для сканирования Internet и поддержки базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.

www sites - информационные ресурсы, просмотр которых обеспечивается программами просмотра.

Поскольку поисковая система работает с очень большими объёмами информации, по каждому запросу ей нужно проверить признаки миллионов страниц, определить их релевантность и соответственно упорядочить. Чтобы проверить свойства всех страниц по очереди, нужно либо очень много серверов, которые могут быстро обработать информацию обо всех страницах, либо очень много времени — а поиск должен работать быстро, иначе пользователи не дождутся результатов. Матрикснет (технология компании Яндекс) позволяет проверить очень много факторов за короткое время и без существенного увеличения вычислительных мощностей.

Поиск ведётся одновременно на тысячах серверов. Каждый сервер ищет по своей части индекса и формирует список самых лучших результатов. В него гарантированно попадают все самые релевантные запросу страницы.

Дальше из этих списков составляется один общий, и страницы, попавшие туда, упорядочиваются по формуле ранжирования — той самой длинной и сложной формуле, построенной с помощью Матрикснета, с учётом всех факторов и их комбинаций. Таким образом, наверху поисковой выдачи оказываются все самые релевантные сайты — и пользователь почти мгновенно получает ответ на свой вопрос.

Касательно технологий ранжирования в поисковой системе Google, можно сказать следующее:

Команда Google старается поддерживать свой очень большой каталог проиндексированных страниц в максимально свежем состоянии. Одной из ключевых технологий, используемых в их системе, является технология, которая привязывает логически важные понятия к странице, даже если та их не содержит.

В поисковой системе Google большое внимание уделяется проблеме понимания запросов. Для этого разработчиками команды были созданы развитая система синонимов, мощная система анализирования и система распознавания текстового содержимого.

Система синонимов позволяет выполнять достаточно сложные модификации запросов, сохраняя при этом первоначальный смысл, заключенный в запросе. Так, пользователь который ищет [back bumper repair] получает результаты для rear bumper repair.

Другой технологией, успешно применяемой инженерами Google, является технология поиска идеи. Обнаружение главной идеи запроса позволяет возвратить намного более релевантные результаты. Например, алгоритмы, разработанные сотрудниками Google поймут, что в запросе [new york times square church] пользователь ищет известную церковь на Times Square, а не статьи из New York Times.

Одной из ключевых особенностей, присущих конкретно этой поисковой системе, является персонализация поиска. Те пользователи которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google. Например, пользователь, который имеет множество запросов, относящихся к футболу, получит более «футбольные» результаты на запрос [ЦСКА], тогда как другие пользователи могут получить результаты, относящиеся к баскетбольной команде. По оценкам Google, пользователи, получающие персональные результаты, находят их более релевантными, чем неперсонализированные результаты.

Последней технологией, о которой пойдет речь, будет технология Cross Language Information Retrieval (CLIR). Она позволяет пользователям сначала получить информацию не на их родном языке, а затем, при использовании технологии перевода Google, информация становится доступной.

Классификация ИПС

Существует три основных типа ИПС:

Классификационные
- Используется иерархическая организация информации, которая называется классификатором. Его разделы называются рубриками. После разработки классификатора его авторами он становится доступным другой группе специалистов – систематизаторам. Эти работники, зная внутреннюю структуру классификатора, читают документы и приписывают им соответствующие информационные индексы
- Пример – Yahoo (более 100 систематизаторов)

Недостатки:

Необходимо оценивать относительную важность различных областей человеческой деятельности
Оценка очень субъективна и имеет связь с рядом национальных и прочих особенностей (возраст, пол и пр.)
Взаимодействие с различными культурами может серьезно осложнять процесс поиска и требует дополнительных усилий при реализации поиска (приглашение особого специалиста – информационного брокера)

Словарные
- Основаны на словаре из слов, встречающихся в Интернет, в котором при каждом слове будут также храниться и список документов, содержащих данное слово. В случае, если поиск в таком словаре осуществляется достаточно быстро, то при реализации ИПС можно отказаться от услуг систематизаторов и разработчиков классификаторов. Также подобная схема организации ИПС позволяет выполнять различные операции со списками документов (объединение, пересечение и т.д.). Так, по запросу «стол ИЛИ стул» ИПС предложит в качестве результата множество документов, содержащих первое либо второе слово
- Очевидно, что по любому запросу такие системы могут выдавать миллионы страниц. Поэтому в ИПС словарного типа широко применяются алгоритмы ранжирования (упорядочивания страниц).
- Пример - Yandex
Предметные
- Особый тип ИПС, возникший некоторое время назад. Основная идея организации подобных ИПС заключается в том, что при поиске определенного предмета интереса в качестве результатов выдается список соответствующих ресурсов Интернет.
- Исторически возникли из небольших кольцевых структур, которые организовывали Web-мастера, занимающиеся одной конкретной областью
- Пример – WebRing

Выполнение основной части работы

Об основных технологиях и принципах, применяемых в поисковых машинах Google и Yandex, было сказано выше, а мы перейдем к изучению расширенного режима подачи запросов.

Google

Форма подачи запросов в расширенном режиме выглядит следующим образом:

Большое количество доступных опций позволяют значительно улучшить качество поисковой выдачи. Кроме того, по ссылке в правом верхнем углу доступны советы от работников компании по использованию этого инструмента. С помощью расширенного поиска можно искать только те страницы, которые:

содержат ВСЕ введенные условия поиска;
содержат точное словосочетание;
содержат хотя бы одного из введенных слов
НЕ содержат ни одно из введенных слов;
написаны на определенном языке;
созданы в определенном формате;
были изменены в определенный период времени;
содержат числа из определенного диапазона;
находятся на определенном домене или веб-сайте;
не содержат материалов, предназначенных только для взрослых.

Улучшить результаты поиска можно, добавив в запрос некоторое количество операторов. Расширенный поиск Google позволяет использовать следующие операторы:

поиск с включением («эпизод +1»)
поиск синонимов (~еда)
поиск "OR" (или) (отпуск Лондон OR Париж)
поиск в домене (site: www.mpei.ru)
поиск по диапазону чисел (1907..1914)
и другие функции расширенного поиска

Yandex

Рассмотрим теперь аналогичный раздел на сайте поисковой машины Yandex:

Эта форма позволяет достаточно гибко задавать критерии поиска, и для большей части запросов этого обычно хватает. В случае, если поисковая задача достаточно сложна, можно прибегнуть к использованию специального языка запросов, разработанного специалистами Yandex. Приведем основные операторы этого языка с пояснением в приложении 1. Сейчас же запишем пример запроса на их встроенном языке и расшифруем его значение:

кривой ~~ (кривой & рог)

Этот запрос вернет все документы, содержащие слово «кривой», но при этом не содержащие словосочетание (два слова, стоящие рядом в одном предложении) «кривой рог».

По своим функциональным возможностям оба этих сервиса являются очень схожими, при выборе между ними следует учитывать тот факт, что поисковая система Yandex ориентирована на поиск в русскоязычной части сети Интернет, в то время как Google показывает примерно одинаковые результаты при поиске на всех языках.

Методы борьбы с нерелевантным содержимым в выдаче

Естественно, поскольку все алгоритмы ранжирования страниц основаны на вычислении определенных величин, для того, чтобы повысить место сайта в выдаче, можно прибегать к различным уловкам. Рассмотрим особенности некоторых из типов подобных страниц:

Не имеющие отношения к содержимому страницы, но популярные в поисковых запросах слова в тегах «meta keywords», «description», например «sex », «бесплатно ».
«Накачка» текста ключевыми словами — искусственное повышение частоты ключевого слова или выражения в тексте и (или) использование элементов разметки HTML (h1-3, strong, b, em, i) для искусственного повышения веса ключевого слова
«Невидимый текст» — текст, невидимый для посетителя страницы, но индексируемый поисковой машиной. Применяется цвет текста, соответствующий цвету фона, текст размером в 1 пиксель, блоки текста, со стилем «display:none»
Ссылочный спам — ссылки, «накручивающие» параметр «link popularity» и PageRank сайта. Так как поисковики, отвечая на запрос, ориентируются на количество ссылок, имеющихся на других сайтах на данный ресурс, то имеет смысл каким-либо образом увеличить этот показатель. Приведем примерную схему действия:
- Создать небольшие сайты на бесплатном хостинге, зарегистрировать их в большом количестве тематических каталогов и с них ссылаться на основной
- Принять участие в обмене ссылками
- Приобретать ссылки за деньги
- Ссылочный спам с гостевых книг, блогов, вики и пр.

Поисковые машины борются с этим, создавая фильтры, в которые добавляют сайты, ссылки с которых не учитываются при ранжировании.

Дорвеи — промежуточные страницы, созданные для накрутки веса страницы при ссылочном ранжировании. При использовании подобного метода поступают следующим образом: создается промежуточная страница, содержащая бессмысленный набор ключевых слов, используемых в возможных поисковых запросах. После попадания человека на подобный ресурс происходит автоматическая его переадресация на другую страницу с понятным человеку содержимым
Маскировка, или «клоакинг» — анализ переменных запроса, при котором поисковой машине отдается содержимое сайта, отличное от того, которое видит пользователь.

Естественно, подобные способы продвижения сайта в поисковой выдаче не одобряются со стороны поисковой системы и влекут за собой разнообразные санкции вплоть до исключения из индекса. Рассмотрим некоторые из методов борьбы с подобными страницами:

Автоматический
- Применяется специализированное программное обеспечение, которое на основе некоторых критериев (частота встречи слов в документе, применение тегов и т.д.) понижает индекс того или иного сайта или вообще исключает его из выдачи
Полуавтоматический
- На основании сообщений пользователей, жалующихся на применение поискового спама, сайту понижается позиция в выдаче или при последующей ручной проверке сайт отправляют в бан
Ручной
- Группа специалистов вручную проверяет некоторый набор страниц на предмет обнаружения поискового спама

Если рассматривать конкретные технологии, применяемые разными корпорациями, то, к примеру, Google использует следующие виды фильтров для решения задачи фильтрации поискового спама:

Google SandBox – в этот фильтр попадают свежие сайты и находятся там неопределенное время
Google Bombing – этот фильтр применяется к сайтам, на которые множество ресурсов ссылается по одному и тому же ключевому слову. Поисковой системе кажется противоестественным, что большое количество сайтов указывают на сторонний ресурс одинаковой текстовой ссылкой.
Google -30 – фильтр применяется к сайтам, использующим черные методы оптимизации – вышеупомянутые дорвеи и т.д. При применении этого фильтра позиция сайта в поисковой выдаче понижается на 30 позиций
Supplemental Results – сюда попадают страницы, которые, по мнению Google, не имеют большой значимости для пользователя, содержат неуникальный контент и т.д.
Duplicate Content – применяется, когда сайт содержит большое количество неуникальных материалов
Too many pages at once – применяется, если в день появляется подозрительно большое количество новых страниц. Создан, чтобы отслеживать сайты с автоматической генерацией контента
Too many links at once – применяется, если за малый промежуток времени появляется большое число ссылок на сайт

Похожие фильтры, отличающиеся только названиями и, скорее всего, внутренней логикой работы, использует и поисковая система Яндекс. Как можно заметить, на сегодняшний момент эта задача решается поисковыми системами довольно успешно и большая часть документов, не соответствующих запросу, просто удаляются из выдачи.

Анализ функций оценки релевантности

TF-IDF

Преимущества

привязка к частотной характеристике (обратной частоте документа), которая заметно занижает вес распространённых слов, несущих не высокую смысловую нагрузку

Недостатки

существенное занижение веса документов включающих схожие определения
документов большой длины, которые по определению будут проигрывать по tf коэффициенту
завышение веса «коротких» документов
не учитывается связность слов, входящих в документ, он представляется просто набором слов

PageRank

Недостатки

Метод отдает предпочтение старым страницам, поскольку, как хороша бы ни была только что созданная страница , для набора достаточного количества ссылок требуется значительный промежуток времени
Метод провоцирует создание так называемых «ферм ссылок» и прочих методов с целью искусственного повышения этого показателя

LexRank

Поскольку этот алгоритм использует и меру tf-idf на одном из этапов, и идею, схожую с алгоритмом PageRank, то этот метод совмещает в определенной степени недостатки каждого из приведенных методов (однако, возможно, не в таком явном виде). Этот метод является достаточно молодым, но, несмотря на свою новизну, уже неплохо зарекомендовал себя в области автоматического обобщения (summarization) текстов.

Характеристики

Тип файла

Документ

Размер

222,82 Kb

Материал

Лабораторная работа 1

Тип материала

Лабораторная работа

Предмет

Вычислительные машины, системы и сети (ВМСиС)

Высшее учебное заведение

НИУ «МЭИ»

Список файлов лабораторной работы

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.