Для студентов СПбГУ по предмету ДругиеСегментация и классификация элементов web-страниц с помощью языковых моделейСегментация и классификация элементов web-страниц с помощью языковых моделей
2024-08-092024-08-09СтудИзба
Курсовая работа: Сегментация и классификация элементов web-страниц с помощью языковых моделей
Описание
Содержание
1
Введение
2015-2020 годы количество информации, произведённой человечеством, выше, чем за всю предыдущую историю, и темпы роста только увеличиваются. Так уж вышло, что достаточно большая часть этой информации хранится в интернете, и рано или поздно появляется необходимость её обработать, однако тут появляется первая проблема: далеко не вся информация, доступная в интернете, может быть скачана в удобной для обработки и использования форме: в виде таблицы, текста и т.д. Как известно интернет состоит из web-страниц, и если мы захотим использовать как источник различные сайты, например новостные ресурсы или страницы со статьями, то обнаружим, что помимо основного содержимого на странице присутствует большое количество так называемого шаблонного контента, сюда относится навигация сайте, контекстная реклама, комментарии, ссылки на другие страницы и т.д., таким образом, прежде чем получить необходимые данные в чистом виде, придётся избавиться от всего шаблонного контента - это называется задачей удаления шаблонного контента, или задача извлечения основного с
1
Введение
- наше время объем информации растёт с огромной скоростью, за 5 лет
2015-2020 годы количество информации, произведённой человечеством, выше, чем за всю предыдущую историю, и темпы роста только увеличиваются. Так уж вышло, что достаточно большая часть этой информации хранится в интернете, и рано или поздно появляется необходимость её обработать, однако тут появляется первая проблема: далеко не вся информация, доступная в интернете, может быть скачана в удобной для обработки и использования форме: в виде таблицы, текста и т.д. Как известно интернет состоит из web-страниц, и если мы захотим использовать как источник различные сайты, например новостные ресурсы или страницы со статьями, то обнаружим, что помимо основного содержимого на странице присутствует большое количество так называемого шаблонного контента, сюда относится навигация сайте, контекстная реклама, комментарии, ссылки на другие страницы и т.д., таким образом, прежде чем получить необходимые данные в чистом виде, придётся избавиться от всего шаблонного контента - это называется задачей удаления шаблонного контента, или задача извлечения основного с
Характеристики курсовой работы
Список файлов
Сегментация и классификация элементов web-страниц с помощью языковых моделей.doc