ВКР: Автоматизация сбора и анализа информации из открытых источников
Описание
ВВЕДЕНИЕ | 3 | |
ГЛАВА 1 | ЗАДАЧИ И ОСОБЕННОСТИ СБОРА ИНФОРМАЦИИ ИЗ ОТКРЫТЫХ ИСТОЧНИКОВ | 5 |
§ 1.1. | Открытые источники информации: понятия и виды | 5 |
§ 1.2. | Информационные риски и нормативно-правовые вопросы сбора информации из открытых источников | 16 |
Выводы по главе 1 | 22 | |
ГЛАВА 2 | МОДЕЛИ, МЕТОДЫ И ЗАДАЧИ АВТОМАТИЗАЦИИ СБОРА ДАННЫХ ИЗ ОТКРЫТЫХ ИСТОЧНИКОВ | 24 |
§ 2.1. | Получения данных путём извлечения их со страниц веб-ресурсов: принципы и инструменты | 24 |
§ 2.2. | Использование программного интерфейса и автоматизированных средств | 32 |
§ 2.3. | Применение ботов и автоматизированных средств сбора данных из открытых источников | 41 |
Выводы по главе 2 | 49 | |
ГЛАВА 3 | ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ АВТОМАТИЗИРОВАННОГО СБОРА И АНАЛИЗА ИНФОРМАЦИИ ИЗ ОТКРЫТЫХ ИСТОЧНИКОВ | 50 |
§ 3.1. | Выбор методов и инструментов сбора данных | 50 |
§ 3.2. | Разработка и настройка собственных скриптов и инструментов | 53 |
§ 3.3. | Применение визуализации данных | 59 |
§ 3.4. | Примеры практического применения | 62 |
Выводы по главе 3 | 65 | |
ЗАКЛЮЧЕНИЕ | 66 | |
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ | 68 | |
ПРИЛОЖЕНИЕ 1 | 72 | |
ВВЕДЕНИЕ
Интернет в настоящее время является незаменимым источником информации. Полученные из Сети данные применяются в сфере образования, бизнеса, развлечений, отдыха, медицины и т. д. В настоящее время, в связи с постоянным ростом информации в глобальной сети Интернет, во многих практических задачах возникает потребность сбора этой информации. Цели сбора данных у каждой практической задачи свои. Например, для большей наглядности, оперативности и удобства пользователей может потребоваться агрегация новостных сообщений и объявлений из различных интернет-источников на одном сайте. Другим примером практической ценности подобного сбора данных может являться анализ интернет-магазинов конкурентов, на основе представленной на них информации.
Традиционные методы извлечения информации из различных интернет-источников занимают достаточно много времени. Кроме этого, собранная информация обычно представлена по-разному, вследствие чего перед началом использования полученных данных, требуется выполнять процедуры, обеспечивающие их унификацию. Ни для кого не секрет, что во время таких действий над информацией может произойти ее искажение, в то время как сохранение целостности данных, порой бывает наиболее приоритетной задачей. Для решения вышеуказанных проблем, в данной работе будет предложен один из возможных способов автоматизации сбора и преобразования информации из открытых интернет источников.
Актуальность выпускной квалифицированной работы обусловлено тем, что сложность обработки в ручном режиме данных, а также необходимость оперативного анализа и потенциальная информационная ценность делают разработку автоматизированных методов сбора не только востребованной, но и ключевой для эффективного управления и принятия обоснованных решений в различных областях, от бизнеса до научных исследований.
Объектом исследования являются процесс сбора данных из открытых источников для решения задач органов внутренних дел (ОВД).
Предметом исследования являются телеграм-боты, позволяющие в автоматизированном режиме извлекать и обрабатывать информацию из Вконтакте.
Целью ВКР является разработка, реализация и апробация прототипа телеграм-бота для социальной сети Вконтакте с целью обеспечения эффективного автоматизированного сбора и анализа данных для решения задач ОВД.
Для достижения этой цели поставлены следующие задачи:
- изучить основные понятия и виды открытых источников;
- - проанализировать информационные риски и нормативно-правовые вопросы сбора информации из открытых источников;
- рассмотреть методы и способы получения данных с веб-ресурсов;
- - описать способы использования программного интерфейса и автоматизированных средств для сбора данных;
- - исследовать применение ботов и автоматизированных средств сбора данных из открытых источников;
- выбрать методы и инструменты для разработки прототипа телеграм
бота;
- разработать и настроить скрипты;
- применить визуализацию данных посредством телеграм бота;
- протестировать полученный прототип разработки.
Методология исследования. В процессе исследования использовались
такие методы исследования как анализ, моделирование, сравнение, обобщение, наблюдение, описание, проектирование, эксперимент.
Источниками научного исследования являются нормативно-правовые акты Российской Федерации, научная и методическая литература, в частности, работы российских и зарубежных авторов, изучавших проблемы анализа данных из открытых источников, а также ряд интернет-источников по данной теме.
Работа состоит из введения, трех глав, заключения, списка использованной литературы, приложения.
МосУ МВД им. В.Я.Кикотя
all_at_700













