LAB1 Кобец С.Ю (544682), страница 3
Текст из файла (страница 3)
TF-IDF (TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.
TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова ti в пределах отдельного документа.
,
где ni есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.
,
где |D| — количество документов в корпусе;
— количество документов, в которых встречается ti (когда
).
Таким образом, мера TF-IDF является произведением двух сомножителей: TF и IDF. Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.
При расчёте релевантности документов, при помощи TF-IDF метрики действует взаимодействие трёх основополагающих факторов:
-
Полнота вхождний ключевых слов в текст документа – чем полнее вхождение ключевых слов, тем выше он ранжируетя
-
Относительная частотность вхождения слов поисквого запроса в самом документе – чем выше частотность вхождения cлов поискового запроса в текст документа (TF), тем документ имеет больший вес
-
Отношение общего числа документов в коллекции к количеству документов, содержащих вхождение слов запроса (IDF) – чем больше количество документов, содержащий слова запроса в общей коллекции (DF), тем их вхождение передает документу меньший вес.
Пример. Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Если «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10000000). Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-IDF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).
Из преимуществ метрики TF-IDF можно отметить привязку к частотной характеристике (обратной частоте документа), которая заметно занижает вес распространённых слов, несущих не высокую смысловую нагрузку. Из недостатков — существенное занижение веса документов включающих схожие определения, документов большой длины, которые по определению будет проигрывать по TF коэффициенту, и завышение веса «коротких» документов, по этой же причине.
PageRank
PageRank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.
Приблизительная формула вычисления PageRank выглядит следующим образом:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)),
где PR(A) — PageRank страницы А (значение, которое мы хотим вывести);
D — понижающий коэффициент, обычно он имеет значение 0.85;
PR(Ti) — PageRank i-го сайта, ссылающегося на страницу А;
C(Ti) — количество ссылок, ведущих с этой страницы.
Недостатки этого метода могут заключается в следующем:
-
Не все ссылки «хорошие». Теоретически, некая страница может подвергаться широкой критике и на нее будет много ссылок, но эту популярность можно назвать «отрицательной». К тому же владельцы сайтов и компании, которым они принадлежат, могут покупать ссылки с других сайтов и, таким образом, влиять на значение PR страницы.
-
«Инерционность» интернета. Что бы ни случилось с сайтом или с компанией, которой он принадлежит, как бы ни ухудшилось качество обслуживания клиентов, ссылки на сайт не исчезнут. Это еще одна причина не считать PR мерой качества сервиса.
LexRank
Подход LexRank основан на вероятностном графовом методе для вычисления отношения важности текстовой единицы информации для обработки естественного языка. Это техника используется для решения проблемы текстовой суммаризации (Text Summarization – TS). Извлечение TS основывает на понимании особенностей предложения для определения наиболее важных из них в документе или множестве документов. Благодаря технологии LexRank можно производить автоматическое реферироване статей, вычисляя предложения, в которых содержится суть документа при помощи графового представления предложений.
Борьба с нерелевантными результатами
Для того чтобы ИПС выдавала как можно больше релевантных результатов, необходимо придерживаться некоторых правил при поиске и составлении запросов. Вот некоторые из них на примере ИПС Яндекс:
Проверяйте орфографию
Если поиск не нашел ни одного документа, то вы, возможно, допустили орфографическую ошибку в написании слова. Проверьте правильность написания. Если вы использовали при поиске несколько слов, то посмотрите на количество каждого из слов в найденных документах (перед их списком после фразы "Результат поиска"). Какое-то из слов не встречается ни разу? Скорее всего, его вы и написали неверно.
Используйте синонимы
Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово. Например, вместо "рефераты" возможно больше подойдет "курсовые работы" или "сочинения". Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|). Тогда будут найдены страницы, где встречается хотя бы одно из них. Например, вместо "фотографии" попробуйте "фотографии | фото | фотоснимки".
Ищите больше, чем по одному слову
Слово "психология" или "продукты" дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. Например, "психология Юнга" или "продажа и покупка продовольствия". Рекомендуем также сужать область вашего вопроса. Если вы интересуетесь автомобилями ГАЗа, то запросы "автомобиль Волга" или "автомобиль ГАЗ" выдадут более подходящие документы, чем "легковые автомобили".
Не пишите большими буквами
Начиная слово с большой буквы, вы не найдете слов, написанных с маленькой буквы, если это слово не первое в предложении. Поэтому не набирайте обычные слова с Большой Буквы, даже если с них начинается ваш вопрос Яндексу. Заглавные буквы в запросе рекомендуется использовать только в именах собственных. Например, "группа Черный кофе", "телепередача Здоровье".
Найти похожие документы
Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку "найти похожие документы". Ссылка расположена под краткими описаниями найденных документов. Яndex проанализирует страницу и найдет документы, похожие на тот, что вы указали. Но если эта страница была стерта с сервера, а Яндекс еще не успел удалить ее из базы, то вы получите сообщение "Запрошенный документ не найден".
Используйте знаки "+" и "-"
Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минуса. И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Обратите внимание, что между словом и знаком плюс-минус не должно быть пробела. Например, если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос "путеводитель по парижу -агентство -тур". Плюс стоит использовать в том случае, когда нужно найти так называемые стоп-слова (наиболее частотные слова русского языка, в основном это местоимения, предлоги, частицы). Чтобы найти цитату из Гамлета, надо задать запрос "+быть или +не быть".
Попробуйте использовать язык запросов
С помощью специальных знаков вы сможете сделать запрос более точным. Например, укажите, каких слов не должно быть в документе, или что два слова должны идти подряд, а не просто оба встречаться в документе. (Описание синтаксиса языка запросов)
Искать без морфологии
Вы можете заставить Яндекс не учитывать формы слов из запроса при поиске. Например, запрос !иванов найдет только страницы с упоминанием этой фамилии, а не города "Иваново".
Поиск картинок и фотографий
Яндекс умеет искать не только в тексте документа, но и отыскивать картинки по названию файла или подписи. Для этого на первой странице yandex.ru нажмите ссылку "расширенный поиск". Для поиска картинки предусмотрены два поля. В поле "Название картинки" вписываются слова для поиска по названиям картинок, обычно появляющихся, когда к картинке подводится курсор. Например, название картинки "Венера" выдаст все страницы с картинками Венеры (всего, что можно понимать под этим словом).
В поле "Подпись к картинке" вписывается название файла, содержащего картинку. Например, запрос dog найдет в Интернете все картинки, в имени файла которых встречается слово "dog". С большой вероятностью эти картинки связаны с собаками.
Список использованных ресурсов
-
http://www.ipname.ru/article/worldwideweb/adrecacia_v_internete.htm
-
http://fa-kit.ru/users/admin/Lect-IPS-01.htm
-
http://ktonanovenkogo.ru/seo/search/relevantnost-ranzhirovanie-chto-eto-takoe.html
-
http://ru.wikipedia.org/wiki/TF-IDF
-
http://promo.66.ru/blog/42351/
-
http://ru.wikipedia.org/wiki/PageRank
-
http://www.seoexp.com/ru/history/site_promotion/pagerank/full_article/
-
http://www.webplaneta.de/hosttopic.php?id=10
-
http://bars.na.by/stud/INFORMATICS/lecture5.html
-
http://ktonanovenkogo.ru/seo/search/relevantnost-ranzhirovanie-chto-eto-takoe.html
-
http://www.seonews.ru/analytics/detail/120746.php
-
http://ktonanovenkogo.ru/seo/search/relevantnost-ranzhirovanie-chto-eto-takoe.html
-
http://ktonanovenkogo.ru/seo/search/poiskovoe-prodvizhenie-sajta-seo-google-com-region-sajta-google-ru-google-ua-rabota-osnovnoj-dopolnitelnyj-indeksy.html
-
https://sites.google.com/site/tilromen/poleznoe/kak-pravilno-sostavit-poiskovoj-zapros-google
-
http://help.yandex.ru/search/?id=1111313
-
http://www.polylog.ru/ru/pr-blog/znachenie-sotsialnykh-media-dlya-poiska-v-seti.htm