LAB1 Кобец С.Ю (544682), страница 3

Файл №544682 LAB1 Кобец С.Ю (Лабораторная работа 1) 3 страницаLAB1 Кобец С.Ю (544682) страница 32015-08-202015-08-20СтудИзба

Лабораторная работа 1

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

TF-IDF (TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова t_i в пределах отдельного документа.

где n_i есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.

где |D| — количество документов в корпусе;

— количество документов, в которых встречается t_i (когда ).

Таким образом, мера TF-IDF является произведением двух сомножителей: TF и IDF. Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.

При расчёте релевантности документов, при помощи TF-IDF метрики действует взаимодействие трёх основополагающих факторов:

Полнота вхождний ключевых слов в текст документа – чем полнее вхождение ключевых слов, тем выше он ранжируетя
Относительная частотность вхождения слов поисквого запроса в самом документе – чем выше частотность вхождения cлов поискового запроса в текст документа (TF), тем документ имеет больший вес
Отношение общего числа документов в коллекции к количеству документов, содержащих вхождение слов запроса (IDF) – чем больше количество документов, содержащий слова запроса в общей коллекции (DF), тем их вхождение передает документу меньший вес.

Пример. Если документ содержит 100 слов и слово«заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Если «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10000000). Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-IDF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).

Из преимуществ метрики TF-IDF можно отметить привязку к частотной характеристике (обратной частоте документа), которая заметно занижает вес распространённых слов, несущих не высокую смысловую нагрузку. Из недостатков — существенное занижение веса документов включающих схожие определения, документов большой длины, которые по определению будет проигрывать по TF коэффициенту, и завышение веса «коротких» документов, по этой же причине.

PageRank

PageRank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.

Приблизительная формула вычисления PageRank выглядит следующим образом:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)),

где PR(A) — PageRank страницы А (значение, которое мы хотим вывести);

D — понижающий коэффициент, обычно он имеет значение 0.85;

PR(Ti) — PageRank i-го сайта, ссылающегося на страницу А;

C(Ti) — количество ссылок, ведущих с этой страницы.

Недостатки этого метода могут заключается в следующем:

Не все ссылки «хорошие». Теоретически, некая страница может подвергаться широкой критике и на нее будет много ссылок, но эту популярность можно назвать «отрицательной». К тому же владельцы сайтов и компании, которым они принадлежат, могут покупать ссылки с других сайтов и, таким образом, влиять на значение PR страницы.
«Инерционность» интернета. Что бы ни случилось с сайтом или с компанией, которой он принадлежит, как бы ни ухудшилось качество обслуживания клиентов, ссылки на сайт не исчезнут. Это еще одна причина не считать PR мерой качества сервиса.

LexRank

Подход LexRank основан на вероятностном графовом методе для вычисления отношения важности текстовой единицы информации для обработки естественного языка. Это техника используется для решения проблемы текстовой суммаризации (Text Summarization – TS). Извлечение TS основывает на понимании особенностей предложения для определения наиболее важных из них в документе или множестве документов. Благодаря технологии LexRank можно производить автоматическое реферироване статей, вычисляя предложения, в которых содержится суть документа при помощи графового представления предложений.

Борьба с нерелевантными результатами

Для того чтобы ИПС выдавала как можно больше релевантных результатов, необходимо придерживаться некоторых правил при поиске и составлении запросов. Вот некоторые из них на примере ИПС Яндекс:

Проверяйте орфографию

Если поиск не нашел ни одного документа, то вы, возможно, допустили орфографическую ошибку в написании слова. Проверьте правильность написания. Если вы использовали при поиске несколько слов, то посмотрите на количество каждого из слов в найденных документах (перед их списком после фразы "Результат поиска"). Какое-то из слов не встречается ни разу? Скорее всего, его вы и написали неверно.

Используйте синонимы

Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово. Например, вместо "рефераты" возможно больше подойдет "курсовые работы" или "сочинения". Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|). Тогда будут найдены страницы, где встречается хотя бы одно из них. Например, вместо "фотографии" попробуйте "фотографии | фото | фотоснимки".

Ищите больше, чем по одному слову

Слово "психология" или "продукты" дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. Например, "психология Юнга" или "продажа и покупка продовольствия". Рекомендуем также сужать область вашего вопроса. Если вы интересуетесь автомобилями ГАЗа, то запросы "автомобиль Волга" или "автомобиль ГАЗ" выдадут более подходящие документы, чем "легковые автомобили".

Не пишите большими буквами

Начиная слово с большой буквы, вы не найдете слов, написанных с маленькой буквы, если это слово не первое в предложении. Поэтому не набирайте обычные слова с Большой Буквы, даже если с них начинается ваш вопрос Яндексу. Заглавные буквы в запросе рекомендуется использовать только в именах собственных. Например, "группа Черный кофе", "телепередача Здоровье".

Найти похожие документы

Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку "найти похожие документы". Ссылка расположена под краткими описаниями найденных документов. Яndex проанализирует страницу и найдет документы, похожие на тот, что вы указали. Но если эта страница была стерта с сервера, а Яндекс еще не успел удалить ее из базы, то вы получите сообщение "Запрошенный документ не найден".

Используйте знаки "+" и "-"

Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минуса. И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Обратите внимание, что между словом и знаком плюс-минус не должно быть пробела. Например, если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос "путеводитель по парижу -агентство -тур". Плюс стоит использовать в том случае, когда нужно найти так называемые стоп-слова (наиболее частотные слова русского языка, в основном это местоимения, предлоги, частицы). Чтобы найти цитату из Гамлета, надо задать запрос "+быть или +не быть".

Попробуйте использовать язык запросов

С помощью специальных знаков вы сможете сделать запрос более точным. Например, укажите, каких слов не должно быть в документе, или что два слова должны идти подряд, а не просто оба встречаться в документе. (Описание синтаксиса языка запросов)

Искать без морфологии

Вы можете заставить Яндекс не учитывать формы слов из запроса при поиске. Например, запрос !иванов найдет только страницы с упоминанием этой фамилии, а не города "Иваново".

Поиск картинок и фотографий

Яндекс умеет искать не только в тексте документа, но и отыскивать картинки по названию файла или подписи. Для этого на первой странице yandex.ru нажмите ссылку "расширенный поиск". Для поиска картинки предусмотрены два поля. В поле "Название картинки" вписываются слова для поиска по названиям картинок, обычно появляющихся, когда к картинке подводится курсор. Например, название картинки "Венера" выдаст все страницы с картинками Венеры (всего, что можно понимать под этим словом).

В поле "Подпись к картинке" вписывается название файла, содержащего картинку. Например, запрос dog найдет в Интернете все картинки, в имени файла которых встречается слово "dog". С большой вероятностью эти картинки связаны с собаками.

Список использованных ресурсов

http://www.ipname.ru/article/worldwideweb/adrecacia_v_internete.htm
http://fa-kit.ru/users/admin/Lect-IPS-01.htm
http://ktonanovenkogo.ru/seo/search/relevantnost-ranzhirovanie-chto-eto-takoe.html
http://ru.wikipedia.org/wiki/TF-IDF
http://promo.66.ru/blog/42351/
http://ru.wikipedia.org/wiki/PageRank
http://www.seoexp.com/ru/history/site_promotion/pagerank/full_article/
http://www.webplaneta.de/hosttopic.php?id=10
http://bars.na.by/stud/INFORMATICS/lecture5.html
http://ktonanovenkogo.ru/seo/search/relevantnost-ranzhirovanie-chto-eto-takoe.html
http://www.seonews.ru/analytics/detail/120746.php
http://ktonanovenkogo.ru/seo/search/relevantnost-ranzhirovanie-chto-eto-takoe.html
http://ktonanovenkogo.ru/seo/search/poiskovoe-prodvizhenie-sajta-seo-google-com-region-sajta-google-ru-google-ua-rabota-osnovnoj-dopolnitelnyj-indeksy.html
https://sites.google.com/site/tilromen/poleznoe/kak-pravilno-sostavit-poiskovoj-zapros-google
http://help.yandex.ru/search/?id=1111313
http://www.polylog.ru/ru/pr-blog/znachenie-sotsialnykh-media-dlya-poiska-v-seti.htm

Характеристики

Тип файла

Документ

Размер

62,01 Kb

Материал

Лабораторная работа 1

Тип материала

Лабораторная работа

Предмет

Вычислительные машины, системы и сети (ВМСиС)

Высшее учебное заведение

НИУ «МЭИ»

Список файлов лабораторной работы

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.