LAB1 Апухтин М.А. (544676), страница 3

Файл №544676 LAB1 Апухтин М.А. (Лабораторная работа 1) 3 страницаLAB1 Апухтин М.А. (544676) страница 32015-08-202015-08-20СтудИзба

Лабораторная работа 1

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Язык запросов Yandex

Пример	Значение
"К нам на утренний рассол"	Слова идут подряд в точной форме
"Прибыл * посол"	Пропущено слово в цитате
полгорбушки & мосол	Слова в пределах одного предложения
снаряжайся && добудь	Слова в пределах одного документа
технический прогресс +антирес	Поиск документов, в которых обязательно встречается определённое слово
глухаря \| куропатку \| кого-нибудь	Поиск любого из слов
не смогешь << винить	Неранжирующее "и": выражение после оператора не влияет на позицию документа в выдаче
я должон /2 казнить	Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово)
государственное дело && /3 улавливаешь нить	Расстояние в 3 предложения в любую сторону
нешто я ~~ пойму	Исключение слова пойму из поиска
при моем /+2 уму	Расстояние в пределах двух слов в прямом порядке
чай ~ лаптем	Поиск предложения, где слово чай встречается без слова лаптем
щи /(-1 +2) хлебаю	Расстояние от одного слова в обратном порядке до двух слов в прямом
!Соображаю !что !чему	Слова в точной форме с заданным регистром
получается && (+на \| !мне)	Скобки формируют группы в сложных запросах
!!политика	Словарная форма слова
title:(в стране)	Поиск по заголовкам документов
url:ptici.narod.ru/ptici/kuropatka.htm	Поиск по URL
беспременно inurl:vojne	Поиск с учетом фрагмента URL
host:lib.ru	Поиск по хосту
rhost:ru.lib.*	Поиск по хосту в обратной записи
site:http://www.lib.ru/PXESY/FILATOW	Поиск по всем поддоменам и страницам заданного сайта
mime:pdf	Поиск по одному типу файлов
lang:en	Поиск с ограничением по языку
domain:ru	Поиск с ограничением по домену
date:200712*	Поиск с ограничением по дате
date:20071215..20080101, date:>20091231	Поиск с ограничением по интервалу дат
cat:11000051	Поиск по рубрике Яндекс.Каталога

Google

Поиск Google не ограничивается поиском введенных слов. С помощью расширенного поиска можно искать только те страницы, которые:

содержат ВСЕ введенные условия поиска;
содержат точное словосочетание;
содержат хотя бы одного из введенных слов;
НЕ содержат ни одно из введенных слов;
написаны на определенном языке;
созданы в определенном формате;
были изменены в определенный период времени;
содержат числа из определенного диапазона;
находятся на определенном домене или веб-сайте;
не содержат материалов, предназначенных только для взрослых.

Язык запросов Google

Поиск "+"

Google игнорирует общие слова и символы на некоторых языках, такие как где, как, 1, а также отдельные цифры и буквы, так как они замедляют поиск и не влияют на качество результатов. Если общее слово должно быть включено в поисковый запрос, поставьте перед ним знак "+" (перед знаком "+" обязательно должен быть пробел). Например, чтобы Google включил "1" в поиск по запросу ("Звездные войны, эпизод 1"), введите: звездные войны эпизод +1

Поиск синонимов

Если нужно найти не только сами слова из запроса, но и их синонимы, поставьте тильду ("~") непосредственно перед словом (пока только в поисках на английском языке). Например, если Вы ищете информацию о еде, питании и готовке, введите такой запрос: ~food ~facts

Поиск "OR" (или)

Чтобы найти страницы, которые содержат одно из двух условий поиска, введите между ними "OR", написанное заглавными буквами. Например, если Вы хотите провести отпуск в Лондоне или Париже, введите следующее: отпуск лондон OR париж

Поиск в домене

Поиск Google может использоваться в пределах одного веб-сайта. Для этого введите условия поиска, а после них введите слово "site", двоеточие и название домена. Например, чтобы найти информацию о поступлении в МГУ на сайте университета, введите: правила приема site:www.msu.ru

Поиск по диапазону чисел

Любите числа? Поиск по диапазону чисел ищет результаты, содержащие числа в указанном диапазоне. Просто введите два числа, разделенные двумя точками без пробелов, в строку поиска вместе с остальными условиями запроса. С помощью диапазона чисел можно задавать любые диапазоны - от дат (Вилли Мэйз 1950..1960) до веса (5000..10000 кг грузовик). Не забудьте указать единицу измерения или другой индикатор того, что представляет собой данный диапазон. Например, вот как можно найти DVD-проигрыватель по цене от 50 до 100 долларов США: DVD проигрыватель $50..$100

Достоинства и недостатки различных функций оценки релевантности

TF/IDF

Достоинства:

Учитывает не только конкретный документ, в котором встречается слово, но и другие документы коллекции.
Скорость вычисления. Для формирования оценки достаточно просканировать все документы в пределах одной коллекции.

Недостатки:

Оценка является статической. Может измениться только при изменении одного из документов коллекции.
Частота встречаемости слова далеко не самый надёжный показатель релевантности, особенно для русского языка. Можно составить документ, в котором релевантное слово не будет повторяться (с использованием синонимов), или же, наоборот, текст будет перегружен омонимами нерелевантного слова.
Совершенно бесполезный текст, буквально перегруженный ключевыми словами, позволит обхитрить данную оценку.
Не учитывается уровень вложенности документа.

PageRank

Достоинства:

Учитывается своего рода «мнение» других страниц.
Оценка является динамической. PageRank в результате каких-либо событий может и упасть, и возрасти.

Недостатки:

Порождает множество путей искусственного увеличения PageRank и, как результат, попадание в поисковую выдачу нерелевантных страниц.
Относительно медленная скорость получения актуального значения оценки, так как перед вычислением PageRank конкретной страницы требуется вычислить PageRank страниц, ссылающихся на данную.

Обзор методов борьбы с нерелевантным содержимым

Использование синонимов. Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово.
Понимание запросов. Важно понимать, что ищут пользователи (больше, чем просто слова в их запросе). Должна существовать система распознавания текстового содержимого, систему синонимов и очень мощную систему анализирования. Системе известно, что кто-то, вводящий в строке поиска [kofee annan], на самом деле ищет мистера Кофи Аннана, и подсказывает ему об этом: Did you mean: kofi annan; тогда как если кто-то ищет [kofee beans], то ему на самом деле нужны coffee beans (кофейные бобы).
Системы распознания. Поисковые машины научились понимать, что ищут пользователи. Существуют системы распознавания текстового содержимого, системы синонимов и очень мощные системы анализирования. Например: на запрос «посик боваров» Google выдаст результаты по «поиск товаров»
Персонализация. Пользователи, которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google. Например, пользователь, который имеет множество запросов, относящихся к футболу, получит более «футбольные» результаты на запрос [giants], тогда как другие пользователи могут получить результаты, относящиеся к бейсбольной команде.
Использование результатов на другом языке. Это позволяет пользователям сначала получить информацию не на их родном языке, а затем, используя технологию перевода Google, мы делаем информацию доступной. Например пользователь, который ищет биографию Тони Блэра в России, набирающий [Тони Блэр биография] получает предложение посмотреть результаты, переведенные с английского.

Список использованных источников

http://www.lessons-tva.info/edu/e-inf3/m3t2_4.html
http://www.polylog.ru/ru/pr-blog/znachenie-sotsialnykh-media-dlya-poiska-v-seti.htm
http://ru.wikipedia.org
http://devaka.ru/articles/how-search-engines-work
http://digits.ru/articles/promotion/pagerank.html
http://www.tsi.lv/ResTech/2009/vol4_1/vol4_N1-section1.pdf
http://company.yandex.ru/technologies/matrixnet/
http://www.codeisart.ru/технологии-ранжирования-google/
http://help.yandex.ru/search/?id=481920
http://help.yandex.ru/search/?id=1111313
http://www.google.ru/intl/ru/help/refinesearch.html

Характеристики

Тип файла

Документ

Размер

337,86 Kb

Материал

Лабораторная работа 1

Тип материала

Лабораторная работа

Предмет

Вычислительные машины, системы и сети (ВМСиС)

Высшее учебное заведение

НИУ «МЭИ»

Список файлов лабораторной работы

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.