Главная » Просмотр файлов » LAB1 Мясникова О.А

LAB1 Мясникова О.А (544688), страница 2

Файл №544688 LAB1 Мясникова О.А (Лабораторная работа 1) 2 страницаLAB1 Мясникова О.А (544688) страница 22015-08-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 2)

LexRank

Исследуя документ, LexRank работает не с отдельными словами, а с целыми предложениями. Из предложений составляется граф, а затем оценивается вес каждого предложения.

Тематический индекс цитирования

Тематический индекс цитирования (тИЦ) — технология поисковой машины «Яндекс», заключающаяся в определении авторитетности интернет-ресурсов с учётом качественной характеристики — ссылок на них с других сайтов. тИЦ рассчитывается по специально разработанному алгоритму, в котором особое значение придаётся тематической близости ресурса и ссылающихся на него сайтов. Данный показатель в первую очередь используется для определения порядка расположения ресурсов в рубриках каталога «Яндекса». Все ссылающиеся сайты обязательно должны быть проиндексированы Яндексом. При этом на соответствующих страницах каталога указываются лишь округлённые значения, которые помогают приблизительно ориентироваться в авторитетности ресурсов раздела.

ТИЦ определяется суммарным весом ссылающихся сайтов. Не могут влиять на тИЦ сайты, где любой человек может поставить свою ссылку без ведома администратора ресурса. (тИЦ) имеет систему апдейтов (пересчетов показателей) и обычно его обновление происходит 2 раза в месяц.

Google

Гугл большое значение придает тому, как долго сайт находится в сети.

Помимо примитивного "исторического" подсчета существования сайта, Гугл немалое значение придает и таким данным (а их можно то же отнести к хронологической составляющей алгоритма), как:

- продолжительность нахождения контента на сайте (дата появления контента);

- сколько времени прошло с того момента, как часть контента (например, статья) была процитирована другим ресурсом. Иными словами, учитывается не только появление статьи на другом сайте, но и момент ее появления;

- количество сайтов, которые процитировали статью - причем, это делается не только по объему цитирований, но и по промежутку времени между ними.

Алгоритм Гугла очень четко отслеживает объемы обновлений, которые происходят на сайте.

В заключении этого пункта отметим следующее. Гугл анализирует и запоминает:

- как часто менялись страницы;

- существенность этих изменений;

- как меняется плотность ключевых слов на странице;

- изменялись ли якорные тексты ссылок.

Как известно, Гугл оперирует значениями Page Rank для того, что бы определить насколько весома страница. Домен, на котором находится сайт, очень о многом говорит Гуглу. Репутация хостинг-компании - еще один аспект, который учитывается Гуглом.

Технологии ранжирования Гугл основаны на понимании страниц, запросов и пользователей. Понимание страниц обеспечивается технологиями краулинга и индексирования. Одна из ключевых технологий, которая была разработана для понимания страниц, привязывает логически-важные понятия к странице, даже если она их не содержит.

Понимание запросов включает в себя систему распознавания текстового содержимого, развитую систему синонимов и очень мощную систему анализирования.

Другая технология, которая используется в системе ранжирования — это поиск идеи. Обнаружение главной идеи запроса позволяет возвратить намного более релевантные результаты. Работа по пониманию намерений пользователя нацелена на возврат результатов, которые действительно хотят пользователи получить, а не просто тех, которые они написали в своем запросе. Эта работа начинается с системы локализации мирового уровня. И добавляет улучшенную технологию индивидуализации и несколько других больших шагов, таких как Универсальный Поиск. Упор на принцип «наиболее релевантные запросу результаты» отражается в нашей работе по локализации. Один и тот же запрос, написанный в различных странах, даст абсолютно разные результаты.

Персонализация — это еще одна сильная особенность нашей поисковой системы, которая подгоняет результаты поиска для каждого пользователя. Пользователи, которые "залогинились" во время поиска и имеют включенный журнал посещений, получают результаты, которые более релевантны для них, чем общие результаты Google.

Работа над Универсальным Поиском — это ещё один пример нашего толкования намерений пользователя для предоставления им того, что они (иногда) на самом деле хотят. Т.е., кто ищет [bangalore], получают не только нужные веб-страницы, также ему становится доступна карта, видео, жизнь на улицах Бангалоре и т.д., и плюч ко всему еще и новости/блоги о Бангалоре.

Последнее улучшение, сделанное в механизме поиска: Cross Language Information Retrieval (CLIR). Это позволяет пользователям сначала получить информацию не на их родном языке, а затем, используя технологию перевода Google, информация становится доступной. Воплощается принцип «дайте мне то, что мне нужно, на любом языке».

Yandex

Для оценки релевантности сайта Яндекс использует технологию Матрикснет. Важная особенность этого метода — в том, что он устойчив к переобучению. Это позволяет учитывать очень много факторов ранжирования — и при этом не увеличивать количество оценок асессоров и не опасаться, что машина найдет несуществующие закономерности.

С помощью Матрикснета можно построить очень длинную и сложную формулу ранжирования, которая учитывает множество различных факторов и их комбинаций. Другие методы машинного обучения позволяют либо строить более простые формулы с меньшим количеством факторов, либо нуждаются в большей обучающей выборке. Матрикснет строит формулу с десятками тысяч коэффициентов. Это позволяет сделать существенно более точный поиск.
Ещё одна важная особенность Матрикснета — в том, что формулу ранжирования можно настраивать отдельно для достаточно узких классов запросов. При этом ранжирование по остальным классам запросов не ухудшится.
Кроме того, Матрикснет автоматически выбирает разную чувствительность для разных диапазонов значений факторов ранжирования.
Поиск ведётся одновременно на тысячах серверов. Каждый сервер ищет по своей части индекса и формирует список самых лучших результатов. В него гарантированно попадают все самые релевантные запросу страницы.

Дальше из этих списков составляется один общий, и страницы, попавшие туда, упорядочиваются по формуле ранжирования — той самой длинной и сложной формуле, построенной с помощью Матрикснета, с учётом всех факторов и их комбинаций.

Расширенный поиск

Рассмотрим на примере Яндекса.

Яндекс позволяет решать сложные поисковые задачи, не пользуясь языком запросов. Для этого воспользуйтесь формой расширенного поиска, где сложные поисковые условия задаются в простой и наглядной форме.

Обратите внимание, что при заполнении нескольких полей Яндекс учтет все заданные вами условия одновременно.

Поиск на сайте

Яндекс позволяет искать страницы не только по всей базе, но и по группе страниц, расположенных на одном или нескольких сайтах. Для этого достаточно указать через запятую адреса сайтов в поле находятся на сайте.

Если вы нашли качественный сайт, на котором много информации на интересующую вас тему, эффективней поискать ответ именно на нем, чем по всей базе сайтов. Поиск по сайту также выручает, когда на каком-либо сайте нет функции поиска (правда, следует помнить, что Яндекс мог проиндексировать не все страницы сайта).

Блок «Cлова»

Вы можете указать, в каких частях страницы нужно вести поиск слов запроса.

Есть два варианта:

-где угодно - поиск слов идет везде на странице;

-в заголовке - поиск ведется в заголовке страницы (title);

Яндекс понимает морфологию слов и ищет по запросу все их формы.

Если вы хотите найти слова в определенной форме, выберите один из вариантов:

-в любой форме - аналогично действиям Яндекса по умолчанию.

-точно так, как в запросе - слово будет искаться только в той форме, которую вы указали. Блок «Страницы»

Язык

Яндекс может отбирать для вас страницы только на определенном языке. Если вам интересны несколько языков, удерживая клавишу Shift, выберите нужные.

Дата обновления

Если вы хотите составить ретроспективу определенных событий, вы можете делать это, как добавляя к тексту запроса даты, так и сделав по запросу выборку документов, созданных в определенный период. Вы можете либо выбрать из списка срок давности документа, либо указать точный диапазон дат.

Формат страницы

Яндекс понимает документы, созданные в нескольких форматах: HTML, PDF (Adobe Acrobat Reader), RTF, DOC (Microsoft Word), XLS (Microsoft Excel), PPT (PowerPoint), SWF (Macromedia Flash). Если вам интересны определенные форматы, удерживая клавишу Shift, выберите нужные.

Ограничение по формату полезно, когда вы ищете научные статьи или инструкции — подобные документы редко выкладываются в HTML из-за большого количества формул и графики.

Итого

После слова «Итого» вы можете прочитать описание заданного запроса на естественном языке. Выглядеть это может, например, так:

Все параметры поиска, у которых вы не меняли значение по умолчанию, не упоминаются.

Так же возможен поиск с использованием языка запросов. Приведем основные примеры.

Поисковый контекст

Вы можете указать требования к совместной встречаемости слов запроса.

Точное совпадение

Слова идут подряд в точной форме

Такой порядок слов можно указать с помощью запроса в кавычках.

Джокер

При поиске точного выражения в кавычках вы можете разрешить одно или несколько пропущенных слов. Для этого используйте одну или несколько звездочек через пробел.

"ползет змея, как * дьявола"

Совместная встречаемость

В одном предложении

Ограничить поиск страницами, где слова запроса находятся в пределах предложения, вы можете, соединив слова оператором & через пробел.

В одном документе

Если вам нужны документы, где присутствуют заданные слова — неважно, на каком расстоянии друг от друга и в каком порядке — соедините их оператором && через пробел.

Исключить слова

В одном документе

Яндекс позволяет исключать из поисковой выдачи страницы, где есть определенные слова. Для этого используется оператор ~~, слева от которого вы пишете через пробел «что искать», а справа — какие страницы исключать из поиска.

В одном предложении

Иногда требуется, чтобы слово встречалось на странице, но не в одном предложении с другим словом запроса. С этой целью используйте оператор ~.

Расстояние между словами

Вы можете регулировать расстояние между словами с точностью до слова.

Расстояние между словами a и b — это разница между номерами слов b и a. Таким образом, расстояние между соседними словами равно 1 (а не 0), а расстояние между соседними словами, стоящими "не в том порядке", равно -1.

Слова на расстоянии в несколько слов

Вы можете указать максимально допустимое расстояние между двумя любыми словами запроса, поставив после первого слова символ /, сразу за которым идет число, означающее расстояние.

Слова на расстоянии в несколько предложений

Аналогично записи, указывающей расстояния между словами, вы можете задавать расстояние в предложениях. Для этого перед оператором расстояния / нужно указать оператор &&.

Порядок слов

Кроме расстояния между словами, вы можете указывать и порядок их следования.

Слова следуют в определенном порядке на заданном расстоянии

Если вы точно знаете не только расстояние, но и порядок слов запроса, в котором они должны идти в тексте искомых страниц, укажите между символом / и числом-расстоянием символ + для прямого порядка слов или - для обратного.

Слова расположены в заданной окрестности

Вы можете потребовать, чтобы искомые слова шли не только в нужном порядке, но и чтобы между ними было от n (минимум) до m (максимум) слов. Добавив между словами запроса оператор /(n m), вы получите интересующие вас страницы. Оператор расстояния должен отделяться пробелами с обеих сторон.

Найти любое из слов

Вы можете указать Яндексу найти любое из заданных слов. Это полезно, например, когда для нужного вам термина есть много синонимов. Достаточно поставить между словами символ |, окруженный пробелами, и вы получите страницы, где содержится хотя бы одно из слов запроса.

Сложные запросы: выручат скобки

Характеристики

Тип файла
Документ
Размер
103,24 Kb
Тип материала
Высшее учебное заведение

Список файлов лабораторной работы

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6352
Авторов
на СтудИзбе
311
Средний доход
с одного платного файла
Обучение Подробнее