LAB1 Логинов А. А. (544684)
Текст из файла
Национальный исследовательский университет
Московский Энергетический Институт
Лабораторная работа №1.
Поиск информации в INTERNET.
Выполнил: Логинов Андрей
группа А-13-08
Преподаватель: Куриленко Иван Евгеньевич
Москва, 2012.
Цель работы:
Научиться искать информацию в сети INTERNET и получить знания о внутреннем устройстве и принципах работы поисковых машин.
Подготовка к работе:
-
Изучить принцип адресации ресурсов в сети INTERNET
-
Ознакомиться с принципами построения и моделями работы поисковых машин разных поколений
-
Ознакомиться с современной моделью работы поисковой системы
-
Ознакомиться со способами оценки степени релевантности запросу пользователя информации, найденной поисковой машиной
-
Ознакомиться с функциями оценки релевантности TF/IDF, PageRank, LexRank
Порядок выполнения работы:
-
Изучить принципы и модель работы поисковой машины Yandex .
-
Изучить принципы и модель работы поисковой машины Google .
-
Изучить расширенный режим подачи запросов к поисковой системе
-
Проанализировать различные функции оценки релевантности. Указать для каждой функции достоинства и недостатки (например, вероятность выдачи нерелевантной информации).
-
Составить обзор методов борьбы с нерелевантным содержимым
-
Принцип адресации ресурсов в сети INTERNET.
Протокол передачи данных – набор соглашений интерфейса логического уровня, которые определяют обмен данными между различными программами. Эти соглашения задают единообразный способ передачи сообщений при взаимодействии программного обеспечения разнесённой в пространстве аппаратуры.
Для того чтобы при обмене данными компьютеры, объединённые в сеть, действовали согласованно, разработан ряд стандартов и правил, называемых протоколами. Весь набор сетевых протоколов, на которых базируется Интернет, называется TCP/IP. Название образовано из аббревиатур двух базовых протоколов – TCP, отвечающего за гарантированную транспортировку данных по каналам связи, и IP, содержащего правила адресации.
Протоколы, входящие в семейство TCP/IP разделяются на уровни:
-
Физический уровень описывает среду передачи данных (будь то кабель, оптоволокно или радиоканал), физические характеристики такой среды и принцип передачи данных.
-
Канальный уровень описывает, каким образом передаются пакеты данных через физический уровень, включая кодирование.
-
Сетевой уровень изначально разработан для передачи данных из одной сети (подсети) в другую.
-
Транспортный уровень включает протоколы, которые могут решать проблему гарантированной доставки сообщений, а также гарантировать правильную последовательность прихода данных. Транспортные протоколы определяют, для какого именно приложения предназначены эти данные.
-
Прикладной уровень, на котором работает большинство сетевых приложений. Эти программы имеют свои собственные протоколы обмена информацией, например, HTTP, FTP (передача файлов), SMTP (электронная почта), SSH (безопасное соединение с удалённой машиной), DNS (преобразование символьных имён в IP-адреса) и многие другие.
Чтобы компьютеры, объединённые в сеть, могли обмениваться сообщениями, каждый из них должен иметь уникальный адрес. В сети Интернет такой адрес называется IP-адресом.
IP (Internet Protocol) – межсетевой протокол; относится к маршрутизируемым протоколам сетевого уровня семейства TCP/IP.
В третьей версии протокол TCP разделился на два отдельных протокола: TCP и IP. Это произошло в 1978 году, но первый стандарт, который утверждает такое разделение вышел в 1980 году, и протоколу IP дали такую же версию, как и новому TCP, то есть 4-ю версию.
Всего для протокола IPv4 существует различных адресов.
Если в IPv4 на адрес отводилось 32 бита, то в IPv6 на него выделяется 128 бит. Таким образом, с использованием протокола IPv6 всего возможно адресов.
В отличие от IPv4, адреса в IPv6 могут быть записаны различными способами. Самая развёрнутая запись состоит из восьми частей, разделённых двоеточиям. Каждая часть представляет собой – 16-ричное число.
DNS (Domain Name System) – компьютерная распределённая система, предназначенная для поиска по имени домена его IP адрес и некоторой другой информации (например, имени почтового сервера).
URL (Universal Resource Locator) – универсальный указатель ресурса, который определяет местонахождение каждого файла, хранящегося на компьютере, подключённом к Интернету.
-
Принципы построения и модели работы поисковых машин разных поколений.
Поисковая машина – программная часть поисковой системы (поисковый движок), представляющая собой комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.
-
Первое поколение. Эти поисковики уделяли внимание таким факторам, как частота ключевых слов на странице, заглавие страницы, место размещения ключевых слов в теле страницы и т. п. Среди прочих факторов значительную роль играли и мета-теги (keywords, description и другие). Также, желательно было, чтобы доменное имя и URL страницы содержали ключевые слова, что долгие годы было практически невозможно использовать для сайтов на кириллице, пока не появилась поддержка кирилличных доменов.
-
Второе поколение добавило к упомянутым выше факторам, влияющим на оценку релевантности, такие факторы, как количество внешних ссылок (индекс цитирования), сами характеристики таких ссылок (текст ссылки, релевантность ресурса, на котором она находится), количество прохождений по конкретной ссылке с данного поисковика и некоторые другие.
-
Третье поколение включает поисковые машины, способные понимать различные грамматические формы слов. Такие машины создают собственные карты, которые позволяют отфильтровывать такие явления, как дорвеи, сплеш-страницы, страницы, подаваемые приёмами клоакинга, и другие методы искусственного завышения популярности. На сегодняшний день поисковые системы Яндекс и Google умеют различать словоформы и достаточно грамотно находят релевантные к данному запросу страницы, не смотря на различия в падежах.
-
Современная модель работы поисковой системы.
Поисковые машины состоят из трёх основных элементов: индексатора, индекса и программного обеспечения поисковой машины.
Индексатор, или, как его ещё называют, «поисковый робот» считывает информацию с web-страницы и переходит по ссылкам на другие страницы этого же web-сайта. Web-сайты просматриваются регулярно (несколько раз в месяц); это необходимо, чтобы следить за изменениями. Все данные о найденной информации поступают во вторую часть поисковой машины.
Индекс (каталог) хранит все, найденные индексатором данные о страницах. При изменении web-страницы, со временем меняется и информация о ней в индексе. Пока данные о web-странице не попали в каталог, страница недоступна для поисковой машины.
Программное обеспечение поисковой машины – её третья составляющая. Эта программа просеивает миллионы записанных в каталог страниц, чтобы найти информацию, отвечающую цели поиска, и затем ранжирует их по степени соответствия заданному запросу.
-
Способы оценки степени релевантности запросу пользователя информации, найденной поисковой машиной.
Релевантность в информационном поиске – семантическое соответствие поискового запроса и поискового образа документа. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.
Вначале на релевантность влияли такие показатели, как плотность ключевых слов на странице и текст заголовков, но после того, как хитрые оптимизаторы научились этим пользоваться, поисковики поменяли алгоритмы поиска. В основе внешних критериев релевантности лёг принцип цитируемости. Этот принцип подразумевает, что релевантность сайта определяется тем, насколько много других сайтов ссылается на данный сайт. Объясняется это тем, что чем больше сайтов рекомендуют посетителям зайти на этот ресурс, тем более высокую оценку получает он у поисковой машины. Но когда появилось множество так называемых каталогов, где любой желающий мог просто купить эти ссылки, этот метод устарел.
Затем обратили внимание не только на количество, но и на качество ссылок. По этой причине 90% каталогов стали абсолютно бесполезны. Компания Google первой модернизировала свою поисковую машину. Поисковый робот не просто бродил по сети и собирал ссылки, но и смотрел, на каких сайтах они находятся, оценивал важность каждой ссылки. Новый алгоритм поиска получил название PageRank, и сводился к попытке оценивать каждый документ с учётом его веса в среде всех других проиндексированных документов сети, ссылающихся на оцениваемый.
Тематический индекс цитирования (тИЦ) определяет «авторитетность» Интернет-ресурсов с учётом качественной характеристики ссылок на них с других сайтов. Эту качественную характеристику называют «весом» ссылки. Рассчитывается она по специально разработанному алгоритму. Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Само по себе количество ссылок на ресурс также влияет на значение его тИЦ, но тИЦ определяется не количеством ссылок, а суммой их весов.
тИЦ как средство определения авторитетности ресурсов призван обеспечить релевантность расположения ресурсов в рубриках каталога Яндекса.
-
Функции оценки релевантности TF/IDF, PageRank, LexRank.
TF/IDF (Term frequency/Inverse document frequency) – статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции [11].
TF (частота слова) – отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова в пределах отдельного документа.
IDF (обратная частота документа) – инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.
– количество документов в корпусе;
– количество документов, в которых встречается слово
(когда
).
В некоторых вариантах формулы не учитывается логарифмирование.
Таким образом, мера TF-IDF является произведением двух сомножителей: TF и IDF.
PageRank – это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы определяется весом множества страниц
, ссылающихся на
, и нормированным количеством исходящих ссылок
. Таким образом, PageRank – это метод вычисления веса страницы путём подсчёта важности ссылок на неё.
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.