Главная » Все файлы » Просмотр файлов из архивов » Документы » An Adaptive Crawler ... перевод 4000 знаков

An Adaptive Crawler ... перевод 4000 знаков (тематика web-краулеров)

2020-08-17СтудИзба

Описание файла

Файл "An Adaptive Crawler ... перевод 4000 знаков" внутри архива находится в папке "тематика web-краулеров". Документ из архива "тематика web-краулеров", который расположен в категории "". Всё это находится в предмете "английский язык" из 9 семестр (1 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Онлайн просмотр документа "An Adaptive Crawler ... перевод 4000 знаков"

Текст из документа "An Adaptive Crawler ... перевод 4000 знаков"

Перевод статьи Barbosa L., Freire J. An adaptive crawler for locating hidden-web entry points //Proceedings of the 16th international conference on World Wide Web. – ACM, 2007. – С. 441-450.

Переведено предисловие и часть первой главы. Русских знаков без пробелов = 4321.

Адаптивный краулинг с целью нахождения скрытых входных точек в веб.

Предисловие.

В данной бумаге мы описываем новую адаптируемую стратегию краулинга, для эффективного нахождения входных точек в скрытые веб-ресурсы. Тот факт, что скрытые веб-ресурсы распределены достаточно редко, делает задачу их нахождения довольно серьёзной. Мы решаем данную задачу за счёт использования содержимого веб-страниц, чтобы сфокусировать процесс краулинга на топиках; за счёт приоретизации обещающих ссылок в рамках топика; а также за счёт следования по ссылкам, которые могут не вести к незамедлительной пользе. Мы представляем новый фреймворк в котором краулеры автоматически изучают паттерны обещающих ссылок и адаптируют своё направление по мере работы краулера, что сильно уменьшает количество необходимых настроек для запуска и оттачивания качества. Наши эксперименты на настоящих веб-страницах из репрезентативного множества доменов показывает, что онлайн-обучение приводит к существенному приросту показателя качества – адаптируемые краулеры добывают до 3-х раз больше скрытых форм, нежели карулеры с чётко зафиксированной стратегией.

Вступление.

Скрытый веб растёт с огромной скоростью. Количество сейчас оценивается примерно в несколько миллионов скрытых сайтов. Это сайты, чей контент обычно находится в базах данных и выявляется только при запросе, по мере заполнения и отправки форм пользователями. По мере роста количества информации, увеличился интерес к техникам, которые позволяют пользователям и приложениям извлекать эту информацию. Примерами приложений, которые пытаются упростить доступ к информации скрытого веба являются: мета-поисковики, краулеры скрытого веба, директории онлайн баз данных и система интеграции веб-информации. Так как для каждого интересующего домена существует множество скрытых ресурсов, данные которых должны быть интегрированы и поддаваться поиску, требование ключа для данных веб приложений является возможностью для нахождения этих ресурсов. Однако сделать это в большом масштабе – является сложной задачей.

Учитывая динамичную структуру веба – с новыми, постоянно появляющимися ресурсами, и постоянным удалением и изменением старых ресурсов, очень важно автоматизировать нахождение форм с возможностью поиска, которые будут служить как точки входа в базы данных скрытого веба. Однако поисковые формы имеют редкое распределение по вебу, даже для небольших доменов. Например, краулер с алгоритмом первый-лучший и ориентированный на топики, находит лишь 94 формы поиска фильмов, после просмотра 100000 страниц, имеющих отношение к фильмам. Поэтому для эффективного сбора актуальной информации о ресурсах невидимого веба, стратегия краулинга должна реализовывать широкий поиск и одновременно избегать вхождения огромных ненужных регионов веба.

Краулер должен также предоставлять высококачественные результаты. Иметь гомогенный набор форм, которые ведут к базам данных в рамках того же домена, полезно и иногда необходима для некоторых приложений. Например, эффективность техник по интеграции с формами, может сильно уменьшиться, если множество входящих форм зашумлено и содержит формы, которые не ведут в тот же домен. Однако, автоматизированный процесс краулинга инвариантно извлекает различные множества форм. Сфокусированный топик может включать в себя страницы, которые содержат поисковые формы из баз данных множества различных доменов. Например, пока краулинг работает, чтобы найти Airfare поисковые интерфейсы, краулер скорее всего добудет огромное число форм из различных доменов, таких как отели или аренда машин, так как они часто сопоставлены с Airfare поисковыми интерфейсами на сайтах путешествий. Множество добытых форм также включает в себя много форм, не поддающихся поиску, которые не представляют записи баз данных, например, логин или подписка на e-mail рассылку, запросы на цитаты и веб-email-формы.

FFC – краулер сфокусированный на формы, был нашей первой попыткой для решения проблемы автоматического поиска онлайн баз данных. FFC – комбинирует техники направляющие краулинг на топик, и с классификатором ссылок, которые идентифицируют и приоритезируют ссылки, которые более вероятно приведут к формам поиска на одном или двух шагах. Наши предварительные результаты показали, что FFC гораздо лучше справляется с задачей, если учитывать число поисковых форм, которые он находит, по сравнению с краулером, которые лишь сосредоточен на поиск по топику. Этот подход, однако имеет существенные ограничения. Во-первых, это требует ручной настройки и подгонки, включая выбор подходящих фич и создание классификатора ссылок. Дополнительно, полученные результаты совершенно не зависят на качестве множества форм, используемых на этапе обучения классификатора ссылок.

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5224
Авторов
на СтудИзбе
428
Средний доход
с одного платного файла
Обучение Подробнее