An Adaptive Crawler ... перевод 4000 знаков (1176903)

Файл №1176903 An Adaptive Crawler ... перевод 4000 знаков (тематика web-краулеров)An Adaptive Crawler ... перевод 4000 знаков (1176903)2020-08-172020-08-17СтудИзба

тематика web-краулеров

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

Перевод статьи Barbosa L., Freire J. An adaptive crawler for locating hidden-web entry points //Proceedings of the 16th international conference on World Wide Web. – ACM, 2007. – С. 441-450.

Переведено предисловие и часть первой главы. Русских знаков без пробелов = 4321.

Адаптивный краулинг с целью нахождения скрытых входных точек в веб.

Предисловие.

В данной бумаге мы описываем новую адаптируемую стратегию краулинга, для эффективного нахождения входных точек в скрытые веб-ресурсы. Тот факт, что скрытые веб-ресурсы распределены достаточно редко, делает задачу их нахождения довольно серьёзной. Мы решаем данную задачу за счёт использования содержимого веб-страниц, чтобы сфокусировать процесс краулинга на топиках; за счёт приоретизации обещающих ссылок в рамках топика; а также за счёт следования по ссылкам, которые могут не вести к незамедлительной пользе. Мы представляем новый фреймворк в котором краулеры автоматически изучают паттерны обещающих ссылок и адаптируют своё направление по мере работы краулера, что сильно уменьшает количество необходимых настроек для запуска и оттачивания качества. Наши эксперименты на настоящих веб-страницах из репрезентативного множества доменов показывает, что онлайн-обучение приводит к существенному приросту показателя качества – адаптируемые краулеры добывают до 3-х раз больше скрытых форм, нежели карулеры с чётко зафиксированной стратегией.

Вступление.

Скрытый веб растёт с огромной скоростью. Количество сейчас оценивается примерно в несколько миллионов скрытых сайтов. Это сайты, чей контент обычно находится в базах данных и выявляется только при запросе, по мере заполнения и отправки форм пользователями. По мере роста количества информации, увеличился интерес к техникам, которые позволяют пользователям и приложениям извлекать эту информацию. Примерами приложений, которые пытаются упростить доступ к информации скрытого веба являются: мета-поисковики, краулеры скрытого веба, директории онлайн баз данных и система интеграции веб-информации. Так как для каждого интересующего домена существует множество скрытых ресурсов, данные которых должны быть интегрированы и поддаваться поиску, требование ключа для данных веб приложений является возможностью для нахождения этих ресурсов. Однако сделать это в большом масштабе – является сложной задачей.

Учитывая динамичную структуру веба – с новыми, постоянно появляющимися ресурсами, и постоянным удалением и изменением старых ресурсов, очень важно автоматизировать нахождение форм с возможностью поиска, которые будут служить как точки входа в базы данных скрытого веба. Однако поисковые формы имеют редкое распределение по вебу, даже для небольших доменов. Например, краулер с алгоритмом первый-лучший и ориентированный на топики, находит лишь 94 формы поиска фильмов, после просмотра 100000 страниц, имеющих отношение к фильмам. Поэтому для эффективного сбора актуальной информации о ресурсах невидимого веба, стратегия краулинга должна реализовывать широкий поиск и одновременно избегать вхождения огромных ненужных регионов веба.

Краулер должен также предоставлять высококачественные результаты. Иметь гомогенный набор форм, которые ведут к базам данных в рамках того же домена, полезно и иногда необходима для некоторых приложений. Например, эффективность техник по интеграции с формами, может сильно уменьшиться, если множество входящих форм зашумлено и содержит формы, которые не ведут в тот же домен. Однако, автоматизированный процесс краулинга инвариантно извлекает различные множества форм. Сфокусированный топик может включать в себя страницы, которые содержат поисковые формы из баз данных множества различных доменов. Например, пока краулинг работает, чтобы найти Airfare поисковые интерфейсы, краулер скорее всего добудет огромное число форм из различных доменов, таких как отели или аренда машин, так как они часто сопоставлены с Airfare поисковыми интерфейсами на сайтах путешествий. Множество добытых форм также включает в себя много форм, не поддающихся поиску, которые не представляют записи баз данных, например, логин или подписка на e-mail рассылку, запросы на цитаты и веб-email-формы.

FFC – краулер сфокусированный на формы, был нашей первой попыткой для решения проблемы автоматического поиска онлайн баз данных. FFC – комбинирует техники направляющие краулинг на топик, и с классификатором ссылок, которые идентифицируют и приоритезируют ссылки, которые более вероятно приведут к формам поиска на одном или двух шагах. Наши предварительные результаты показали, что FFC гораздо лучше справляется с задачей, если учитывать число поисковых форм, которые он находит, по сравнению с краулером, которые лишь сосредоточен на поиск по топику. Этот подход, однако имеет существенные ограничения. Во-первых, это требует ручной настройки и подгонки, включая выбор подходящих фич и создание классификатора ссылок. Дополнительно, полученные результаты совершенно не зависят на качестве множества форм, используемых на этапе обучения классификатора ссылок.

Характеристики

Тип файла

Документ

Размер

18,63 Kb

Материал

тематика web-краулеров

Тип материала

Реферат

Предмет

Английский язык

Высшее учебное заведение

МГУ им. Ломоносова

Тип файла документ

Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.

Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.

Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.

Список файлов реферата

tematika-web-kraulerov.rar

тематика web-краулеров

An Adaptive Crawler ... перевод 4000 знаков.docx

An Adaptive Crawler for Locating Hidden-Web Entry Points (2007).pdf

Crawling AJAX ... перевод 5000 знаков.docx

Crawling AJAX by Inferring User Interface State Changes (2008).pdf

Задание.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.