LAB1 Логинов А. А. (544684), страница 2
Текст из файла (страница 2)
Если страницы B, C, D ссылаются на страницу А, каждая из них вносит по 0.25 в PageRank страницы А.
Предположим, что на странице B имеются ссылки на страницы A и C, а страница D содержит ссылки на все три страницы. Значение PageRank распределяются между всеми исходящими ссылками на странице. Таким образом, страница B «даёт» по 0.125 страницам A и C. Только треть PageRank страницы D учитывается в PageRank А.
LexRank – лексический аналог функции ранжирования PageRank, используемой в поисковике Google. Представляя набор предложений как граф, LexRank он специальным образом обрабатывается, и на конечном этапе используется PageRank, чтобы получить веса предложений.
Расширенный режим подачи запросов к поисковой машине.
Расширенный поиск Яндекса позволяет указывать регион поиска, расположение слов на странице, их употребление в тексте, а также язык страниц, дату последнего обновления и формат страниц.
Поиск Google не ограничивается поиском введенных слов. С помощью расширенного поиска можно искать только те страницы, которые:
-
содержат ВСЕ введенные условия поиска;
-
содержат точное словосочетание;
-
содержат хотя бы одного из введенных слов;
-
НЕ содержат ни одно из введенных слов;
-
написаны на определенном языке;
-
созданы в определенном формате;
-
были изменены в определенный период времени;
-
содержат числа из определенного диапазона;
-
находятся на определенном домене или веб-сайте;
-
не содержат материалов, предназначенных только для взрослых.
Также улучшить результаты поиска можно, добавив "операторы" к условиям поиска.
Операторы расширенного поиска включают:
-
поиск с включением;
-
поиск синонимов;
-
поиск "OR" (или);
-
поиск в домене;
-
поиск по диапазону чисел;
-
другие функции расширенного поиска.
Google игнорирует общие слова и символы на некоторых языках, такие как где, как, 1, а также отдельные цифры и буквы, так как они замедляют поиск и не влияют на качество результатов. Если общее слово должно быть включено в поисковый запрос, поставьте перед ним знак "+" (перед знаком "+" обязательно должен быть пробел). Например, чтобы Google включил "1" в поиск по запросу ("Звездные войны, эпизод 1"), введите: звездные войны эпизод +1 | |
Если нужно найти не только сами слова из запроса, но и их синонимы, поставьте тильду ("~") непосредственно перед словом (пока только в поисках на английском языке). Например, если Вы ищете информацию о еде, питании и готовке, введите такой запрос: ~food ~facts | |
Чтобы найти страницы, которые содержат одно из двух условий поиска, введите между ними "OR", написанное заглавными буквами. Например, если Вы хотите провести отпуск в Лондоне или Париже, введите следующее: отпуск лондон OR париж | |
Поиск Google может использоваться в пределах одного веб-сайта. Для этого введите условия поиска, а после них введите слово "site", двоеточие и название домена. Например, чтобы найти информацию о поступлении в НИУ МЭИ на сайте университета, введите: правила приема site:www.mpei.ru | |
Любите числа? Поиск по диапазону чисел ищет результаты, содержащие числа в указанном диапазоне. Просто введите два числа, разделенные двумя точками без пробелов, в строку поиска вместе с остальными условиями запроса. С помощью диапазона чисел можно задавать любые диапазоны - от дат (Вилли Мэйз 1950..1960) до веса (5000..10000 кг грузовик). Не забудьте указать единицу измерения или другой индикатор того, что представляет собой данный диапазон. Например, вот как можно найти DVD-проигрыватель по цене от 50 до 100 долларов США: DVD проигрыватель $50..$100 |
Достоинства и недостатки функций оценки релевантности.
Функция оценки релевантности TF/IDF.
Достоинства:
-
Учитывает не только конкретный документ, в котором встречается слово, но и другие документы коллекции.
-
Скорость вычисления. Для формирования оценки достаточно просканировать все документы в пределах одной коллекции.
Недостатки:
-
Оценка является статической. Может измениться только при изменении одного из документов коллекции.
-
Частота встречаемости слова далеко не самый надёжный показатель релевантности, особенно для русского языка. Можно составить документ, в котором релевантное слово не будет повторяться (с использованием синонимов), или же, наоборот, текст будет перегружен омонимами нерелевантного слова.
-
Совершенно бесполезный текст, буквально перегруженный ключевыми словами, позволит обхитрить данную оценку.
-
Не учитывается уровень вложенности документа.
Функция оценки релевантности PageRank.
Достоинства:
-
Учитывается своего рода «мнение» других страниц.
-
Оценка является динамической. PageRank в результате каких-либо событий может и упасть, и возрасти.
Недостатки:
-
Порождает множество путей искусственного увеличения PageRank и, как результат, опадание в поисковую выдачу нерелевантных страниц.
-
Относительно медленная скорость получения актуального значения оценки, так как перед вычислением PageRank конкретной страницы требуется вычислить PageRank страниц, ссылающихся на данную.
Методы борьбы с нерелевантным содержимым.
Часто сильно снизить релевантность содержимого могут:
-
Сайты, копирующие или переписывающие информацию с других ресурсов и не создающие оригинального контента.
-
Сайты с автоматически сгенерированным (бессмысленным) текстом.
-
Сайты, отдающие разный контент пользователям и роботам поисковых систем (клоакинг).
-
Сайты, использующие обманные техники, перенаправляющие пользователей на сторонние ресурсы или меняющие окно результатов поиска на страницы других ресурсов при переходе из поисковых систем.
-
Сайты, содержащие списки поисковых запросов (многократное повторение и перечисление ключевых слов), предназначенные исключительно для обмана поисковой системы.
Для повышения релевантности помимо исключения из индекса сайтов, снижающих её (описано выше), используются:
-
Системы распознания
Поисковые машины научились понимать, что ищут пользователи. Существуют системы распознавания текстового содержимого, системы синонимов и очень мощные системы анализирования.
Например: на запрос «посик боваров» Google выдаст результаты по «поиск товаров»
-
Понимание идеи запроса
Алгоритмы Google понимают, что в запросе “new york times square church” пользователь ищет известную церковь на Times Square, а не статьи из New York Times.
-
Выдача результатов по региону
Один и тот же запрос, написанный в различных странах, даст абсолютно разные результаты. Пользователь, ищущий “bank” в США, должен получить Американские банки, а пользователь в Великобритании получит соответствующие банки.
-
Полная персонализация
Для идентифицированных пользователей система Google будет выдавать результаты на основе его истории запросов. Если у пользователя множество запросов по футболу, то на запрос “club Barcelona” он получит результаты по футбольному клубу, а не по баскетбольному.
-
Результаты на другом языке
Google может предложить показать результаты на другом языке, переведённые фирменным переводчиком.
Список используемых источников.
-
http://yandex.ru/search/advanced
-
http://support.google.com
-
http://www.google.ru/advanced_search
-
http://ru.wikipedia.org/wiki/Релевантность
-
http://ru.wikipedia.org/wiki/TF-IDF
-
http://en.wikipedia.org/wiki/PageRank