LAB1 Апухтин М.А. (544676), страница 3
Текст из файла (страница 3)
Язык запросов Yandex
Пример | Значение |
"К нам на утренний рассол" | Слова идут подряд в точной форме |
"Прибыл * посол" | Пропущено слово в цитате |
полгорбушки & мосол | Слова в пределах одного предложения |
снаряжайся && добудь | Слова в пределах одного документа |
технический прогресс +антирес | Поиск документов, в которых обязательно встречается определённое слово |
глухаря | куропатку | кого-нибудь | Поиск любого из слов |
не смогешь << винить | Неранжирующее "и": выражение после оператора не влияет на позицию документа в выдаче |
я должон /2 казнить | Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово) |
государственное дело && /3 улавливаешь нить | Расстояние в 3 предложения в любую сторону |
нешто я ~~ пойму | Исключение слова пойму из поиска |
при моем /+2 уму | Расстояние в пределах двух слов в прямом порядке |
чай ~ лаптем | Поиск предложения, где слово чай встречается без слова лаптем |
щи /(-1 +2) хлебаю | Расстояние от одного слова в обратном порядке до двух слов в прямом |
!Соображаю !что !чему | Слова в точной форме с заданным регистром |
получается && (+на | !мне) | Скобки формируют группы в сложных запросах |
!!политика | Словарная форма слова |
title:(в стране) | Поиск по заголовкам документов |
url:ptici.narod.ru/ptici/kuropatka.htm | Поиск по URL |
беспременно inurl:vojne | Поиск с учетом фрагмента URL |
host:lib.ru | Поиск по хосту |
rhost:ru.lib.* | Поиск по хосту в обратной записи |
site:http://www.lib.ru/PXESY/FILATOW | Поиск по всем поддоменам и страницам заданного сайта |
mime:pdf | Поиск по одному типу файлов |
lang:en | Поиск с ограничением по языку |
domain:ru | Поиск с ограничением по домену |
date:200712* | Поиск с ограничением по дате |
date:20071215..20080101, date:>20091231 | Поиск с ограничением по интервалу дат |
cat:11000051 | Поиск по рубрике Яндекс.Каталога |
Поиск Google не ограничивается поиском введенных слов. С помощью расширенного поиска можно искать только те страницы, которые:
-
содержат ВСЕ введенные условия поиска;
-
содержат точное словосочетание;
-
содержат хотя бы одного из введенных слов;
-
НЕ содержат ни одно из введенных слов;
-
написаны на определенном языке;
-
созданы в определенном формате;
-
были изменены в определенный период времени;
-
содержат числа из определенного диапазона;
-
находятся на определенном домене или веб-сайте;
-
не содержат материалов, предназначенных только для взрослых.
Язык запросов Google
Поиск "+"
Google игнорирует общие слова и символы на некоторых языках, такие как где, как, 1, а также отдельные цифры и буквы, так как они замедляют поиск и не влияют на качество результатов. Если общее слово должно быть включено в поисковый запрос, поставьте перед ним знак "+" (перед знаком "+" обязательно должен быть пробел). Например, чтобы Google включил "1" в поиск по запросу ("Звездные войны, эпизод 1"), введите: звездные войны эпизод +1
Поиск синонимов
Если нужно найти не только сами слова из запроса, но и их синонимы, поставьте тильду ("~") непосредственно перед словом (пока только в поисках на английском языке). Например, если Вы ищете информацию о еде, питании и готовке, введите такой запрос: ~food ~facts
Поиск "OR" (или)
Чтобы найти страницы, которые содержат одно из двух условий поиска, введите между ними "OR", написанное заглавными буквами. Например, если Вы хотите провести отпуск в Лондоне или Париже, введите следующее: отпуск лондон OR париж
Поиск в домене
Поиск Google может использоваться в пределах одного веб-сайта. Для этого введите условия поиска, а после них введите слово "site", двоеточие и название домена. Например, чтобы найти информацию о поступлении в МГУ на сайте университета, введите: правила приема site:www.msu.ru
Поиск по диапазону чисел
Любите числа? Поиск по диапазону чисел ищет результаты, содержащие числа в указанном диапазоне. Просто введите два числа, разделенные двумя точками без пробелов, в строку поиска вместе с остальными условиями запроса. С помощью диапазона чисел можно задавать любые диапазоны - от дат (Вилли Мэйз 1950..1960) до веса (5000..10000 кг грузовик). Не забудьте указать единицу измерения или другой индикатор того, что представляет собой данный диапазон. Например, вот как можно найти DVD-проигрыватель по цене от 50 до 100 долларов США: DVD проигрыватель $50..$100
Достоинства и недостатки различных функций оценки релевантности
TF/IDF
Достоинства:
-
Учитывает не только конкретный документ, в котором встречается слово, но и другие документы коллекции.
-
Скорость вычисления. Для формирования оценки достаточно просканировать все документы в пределах одной коллекции.
Недостатки:
-
Оценка является статической. Может измениться только при изменении одного из документов коллекции.
-
Частота встречаемости слова далеко не самый надёжный показатель релевантности, особенно для русского языка. Можно составить документ, в котором релевантное слово не будет повторяться (с использованием синонимов), или же, наоборот, текст будет перегружен омонимами нерелевантного слова.
-
Совершенно бесполезный текст, буквально перегруженный ключевыми словами, позволит обхитрить данную оценку.
-
Не учитывается уровень вложенности документа.
PageRank
Достоинства:
-
Учитывается своего рода «мнение» других страниц.
-
Оценка является динамической. PageRank в результате каких-либо событий может и упасть, и возрасти.
Недостатки:
-
Порождает множество путей искусственного увеличения PageRank и, как результат, попадание в поисковую выдачу нерелевантных страниц.
-
Относительно медленная скорость получения актуального значения оценки, так как перед вычислением PageRank конкретной страницы требуется вычислить PageRank страниц, ссылающихся на данную.
Обзор методов борьбы с нерелевантным содержимым
-
Использование синонимов. Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово.
-
Понимание запросов. Важно понимать, что ищут пользователи (больше, чем просто слова в их запросе). Должна существовать система распознавания текстового содержимого, систему синонимов и очень мощную систему анализирования. Системе известно, что кто-то, вводящий в строке поиска [kofee annan], на самом деле ищет мистера Кофи Аннана, и подсказывает ему об этом: Did you mean: kofi annan; тогда как если кто-то ищет [kofee beans], то ему на самом деле нужны coffee beans (кофейные бобы).
-
Системы распознания. Поисковые машины научились понимать, что ищут пользователи. Существуют системы распознавания текстового содержимого, системы синонимов и очень мощные системы анализирования. Например: на запрос «посик боваров» Google выдаст результаты по «поиск товаров»
-
Персонализация. Пользователи, которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google. Например, пользователь, который имеет множество запросов, относящихся к футболу, получит более «футбольные» результаты на запрос [giants], тогда как другие пользователи могут получить результаты, относящиеся к бейсбольной команде.
-
Использование результатов на другом языке. Это позволяет пользователям сначала получить информацию не на их родном языке, а затем, используя технологию перевода Google, мы делаем информацию доступной. Например пользователь, который ищет биографию Тони Блэра в России, набирающий [Тони Блэр биография] получает предложение посмотреть результаты, переведенные с английского.
Список использованных источников
-
http://www.lessons-tva.info/edu/e-inf3/m3t2_4.html
-
http://www.polylog.ru/ru/pr-blog/znachenie-sotsialnykh-media-dlya-poiska-v-seti.htm
-
http://ru.wikipedia.org
-
http://devaka.ru/articles/how-search-engines-work
-
http://digits.ru/articles/promotion/pagerank.html
-
http://www.tsi.lv/ResTech/2009/vol4_1/vol4_N1-section1.pdf
-
http://company.yandex.ru/technologies/matrixnet/
-
http://www.codeisart.ru/технологии-ранжирования-google/
-
http://help.yandex.ru/search/?id=481920
-
http://help.yandex.ru/search/?id=1111313
-
http://www.google.ru/intl/ru/help/refinesearch.html