Способ предотвращения утечки конфиденциальных данных из информационной системы на основе интеллектуальных методов анализа информации
Описание
РЕФЕРАТ
Отчет 105 стр., 4 ч., 16 рис., 8 табл. 16 ист., 5 прил.
ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ, ИНФОРМАЦИОННАЯ СИСТЕМА, УТЕЧКА ИНФОРМАЦИИ, АНАЛИЗ ТРАФИКА, ИНФОРМАЦИОННЫЙ ПОИСК, ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТОВ, ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ, ТЕМАТИЧЕСКАЯ КАТЕГОРИЯ, ВЕСОВОЙ КОЭФФИЦИЕНТ, СИНГУЛЯРНОЕ РАЗЛОЖЕНИЕ МАТРИЦ, МАТРИЦА УПОТРЕБЛЯЕМОСТИ, КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
Целью данной дипломной работы является повышение защищенности конфиденциальной информации в информационной системе за счет предотвращения утечки конфиденциальных. Задачей работы является разработка способа предотвращения утечки конфиденциальных данных из информационной системы основе интеллектуальных методов анализа информации, а также практическая реализация данного способа в виде соответствующего программного обеспечения.
В работе проанализированы существующие способы и решения предотвращение утечки конфиденциальных данных. Разобраны математические модели информационного поиска и латентно-семантического анализа, выбраны оптимальные для решения поставленной задачи модели, проведено техническое и экономическое обоснование разработки программного обеспечения. Разработано программное обеспечение предотвращения утечки конфиденциальных данных из банковской информационной системы за счет отслеживания исходящего и входящего почтового трафика, а также анализ текстовых сообщений с помощью интеллектуальных методов анализа информации.
Результатом работы является повышение защищенности конфиденциальной информации в информационной системе на 20-30% в рассмотренных условиях на примере банковской информационной системы.
ABSTRACT
Volume explanatory note – 105 pages.
Explanatory note contains 4 parts, 16 drawings, 8 tables, 16 sources and 5 apps.
Keywords: INFORMATION SECURITY, INFORMATION SYSTEMS, INFORMATION LEAKS, METHOD OF PREVENTING LEAKS, MAIL TRAFFIC ANALYSIS, INFORMATION SEARCH, TEXT MINING, LATENT SEMANTIC ANALYSIS, THEMATIC CATEGORY, WEIGHT COEFFICIENT, STATISTICAL MEASURE TF-IDF, SINGULAR MATRIX DECOMPOSITION, USAGE MATRIX, RANK REDUCTION, COSINE MEASURE, CORRELATION ANALYSIS, CORRELATION COEFFICIENT
The purpose of this thesis is to develop a way to prevent leakage of confidential data from the information system based on intelligent methods of information analysis.
In this paper, we analyzed existing solutions, analyzed mathematical models of information search and latent semantic analysis, selected the optimal models for solving the problem set for us, and conducted a technical and economic justification for developing a software product. In the course of the work, a software product was created for the banking information system, whose task is to track outgoing and incoming mail traffic in order to avoid possible leaks of information from employees and analyze text messages using intelligent methods of information analysis.
As a result of this final qualification work, it was possible to develop a way to prevent the leakage of confidential data and, thereby, increase the security of confidential information in the banking information system.
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
Глава 1. Концептуальное обоснование задачи предотвращения утечки конфиденциальных данных через почтовые сообщения.
1.1. Вербальная постановка задачи.
1.1.1. Определение целей и задач, решаемых программным продуктом, предназначенным для повышения уровня защищенности конфиденциальной информации в банковской ИС.
1.1.2. Анализ структуры ИС.
1.2. Техническое обоснование актуальности задачи предотвращения утечки конфиденциальных данных через почтовые сообщения на основе интеллектуальных методов анализа информации.
1.2.1. Обзор существующих решений, выполняющих схожие функции.
1.2.2. Критерий эффективности функционирования разрабатываемого с целью повышения уровня защищенности конфиденциальной информации программного продукта.
1.3. Экономическое обоснование актуальности задачи предотвращения утечки конфиденциальных данных через почтовые сообщения на основе интеллектуальных методов анализа информации.
1.3.1. Глобальная оценка экономических потерь от утечки конфиденциальных данных.
1.3.2. Оценка возможной прибыли от решения задачи предотвращения утечки конфиденциальных данных через почтовые сообщения для данной банковской информационной системы.
1.4. Вывод о целесообразности разработки в качестве способа повышения защищенности конфиденциальной информации данного программного продукта и уточненная постановка основной задачи.
Глава 2. Математическая модель функционирования системы поиска и интеллектуального анализа информации.
2.1. Математическая постановка задачи.
2.2. Математическая модель информационного поиска.
2.2.1. Определение задач информационного поиска.
2.2.2. Теоретико-множественные модели.
2.2.3. Вероятностные модели.
2.2.4. Векторные модели.
2.2.5. Способ предотвращения утечки конфиденциальных данных из информационной системы.
2.3. Методы тематического анализа текстовой информации.
2.4. Предварительная обработка документов.
2.4.1. Разделение текста документа на лексемы и выделение терминов.
2.4.2. Игнорирование распространённых терминов.
2.4.3. Морфологический анализ терминов.
2.4.4. Расчёт весового коэффициента терминов.
2.5. Математическая модель ЛСА.
2.5.1. Общее описание модели ЛСА.
2.5.2. Математическое описание сингулярного разложения матрицы и операции понижения ранга.
2.5.3. Численные методы сингулярного разложения.
2.5.4. Математическое описание используемого численного метода сингулярного разложения.
2.5.5. Корреляционный анализ входного документа и матрицы употребляемости.
2.6. Выводы касательно выбора математического аппарата.
Глава 3. Реализация математической модели функционирования системы интеллектуального анализа, предназначенной для повышения защищенности конфиденциальной информации, в виде программного продукта.
3.1. Анализ и обоснование выбора языка программирования, средств и методов разработки программного продукта.
3.2. Архитектура и назначение основных компонентов программного продукта.
3.3. Пользовательский интерфейс программного продукта.
3.4. Выводы по реализации программного продукта.
Глава 4. Технико-экономическое обоснование.
4.1. Определение трудоемкости разработки программного продукта
4.2. Определение заработной платы и социальных отчислений
4.3. Расчет расходов на используемые материалы
4.4. Расчет трат на услуги сторонних организаций
4.5. Расчет расходов на содержание и эксплуатацию оборудования
4.6. Расчет амортизационных отчислений
4.7. Совокупные затраты
4.8. Оценка затрат на разработку программного продукта.
4.9. Оценка эффективности работы программного продукта.
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ А. Программная реализация алгоритма Портера (морфологического анализа)
ПРИЛОЖЕНИЕ Б. Программная реализация последовательной обработки текста и приведения его в вид, используемый для анализа
ПРИЛОЖЕНИЕ В. Программная реализация алгоритма формирования матрицы употребляемости
ПРИЛОЖЕНИЕ Г. Программная реализация алгоритма ЛСА вместе с SVD, понижением ранга, подсчётом КМБ и определением темы
ПРИЛОЖЕНИЕ Д. Программная реализация почтового модуля
ОПРЕДЕЛЕНИЯ, ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ
DLP-система (Data Leak Prevention) – система предотвращения утечки данных;
IDF (inverse document frequency) – обратная частота документа;
SVD (Singular-Value Decomposition) – разложение по сингулярным значениям;
TF (term frequency) – частота слова;
ИБ – информационная безопасность;
ИС – информационная система;
КМБ – косинусная мера близости;
КРКС – коэффициент ранговой корреляции Спирмена;
ЛСА – латентно-семантический анализ;
НСД – несанкционированный доступ;
ПК – персональный компьютер;
ПО – программное обеспечение;
СУБД – система управления базами данных.
Всё больше компаний испытывают потребность в пристальном контроле за действиями сотрудников по отношению к конфиденциальной информации, будь то банковские корпорации или компании по производству шоколадных изделий. Всё чаще перед руководителями и сотрудниками отдела информационной безопасности встают проблемы по отслеживанию недобросовестных сотрудников, планирующих осуществление передачи секретной информации компаниям-конкурентам или сторонним злоумышленникам, промышляющих торговлей краденными данными. Именно необходимость минимизировать потери в случае утечки информации, желание своевременно выявить нарушителя и построить доверительные отношения с клиентами и привели к возникновению комплексных программных продуктов
Отчет 105 стр., 4 ч., 16 рис., 8 табл. 16 ист., 5 прил.
ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ, ИНФОРМАЦИОННАЯ СИСТЕМА, УТЕЧКА ИНФОРМАЦИИ, АНАЛИЗ ТРАФИКА, ИНФОРМАЦИОННЫЙ ПОИСК, ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТОВ, ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ, ТЕМАТИЧЕСКАЯ КАТЕГОРИЯ, ВЕСОВОЙ КОЭФФИЦИЕНТ, СИНГУЛЯРНОЕ РАЗЛОЖЕНИЕ МАТРИЦ, МАТРИЦА УПОТРЕБЛЯЕМОСТИ, КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
Целью данной дипломной работы является повышение защищенности конфиденциальной информации в информационной системе за счет предотвращения утечки конфиденциальных. Задачей работы является разработка способа предотвращения утечки конфиденциальных данных из информационной системы основе интеллектуальных методов анализа информации, а также практическая реализация данного способа в виде соответствующего программного обеспечения.
В работе проанализированы существующие способы и решения предотвращение утечки конфиденциальных данных. Разобраны математические модели информационного поиска и латентно-семантического анализа, выбраны оптимальные для решения поставленной задачи модели, проведено техническое и экономическое обоснование разработки программного обеспечения. Разработано программное обеспечение предотвращения утечки конфиденциальных данных из банковской информационной системы за счет отслеживания исходящего и входящего почтового трафика, а также анализ текстовых сообщений с помощью интеллектуальных методов анализа информации.
Результатом работы является повышение защищенности конфиденциальной информации в информационной системе на 20-30% в рассмотренных условиях на примере банковской информационной системы.
ABSTRACT
Volume explanatory note – 105 pages.
Explanatory note contains 4 parts, 16 drawings, 8 tables, 16 sources and 5 apps.
Keywords: INFORMATION SECURITY, INFORMATION SYSTEMS, INFORMATION LEAKS, METHOD OF PREVENTING LEAKS, MAIL TRAFFIC ANALYSIS, INFORMATION SEARCH, TEXT MINING, LATENT SEMANTIC ANALYSIS, THEMATIC CATEGORY, WEIGHT COEFFICIENT, STATISTICAL MEASURE TF-IDF, SINGULAR MATRIX DECOMPOSITION, USAGE MATRIX, RANK REDUCTION, COSINE MEASURE, CORRELATION ANALYSIS, CORRELATION COEFFICIENT
The purpose of this thesis is to develop a way to prevent leakage of confidential data from the information system based on intelligent methods of information analysis.
In this paper, we analyzed existing solutions, analyzed mathematical models of information search and latent semantic analysis, selected the optimal models for solving the problem set for us, and conducted a technical and economic justification for developing a software product. In the course of the work, a software product was created for the banking information system, whose task is to track outgoing and incoming mail traffic in order to avoid possible leaks of information from employees and analyze text messages using intelligent methods of information analysis.
As a result of this final qualification work, it was possible to develop a way to prevent the leakage of confidential data and, thereby, increase the security of confidential information in the banking information system.
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
Глава 1. Концептуальное обоснование задачи предотвращения утечки конфиденциальных данных через почтовые сообщения.
1.1. Вербальная постановка задачи.
1.1.1. Определение целей и задач, решаемых программным продуктом, предназначенным для повышения уровня защищенности конфиденциальной информации в банковской ИС.
1.1.2. Анализ структуры ИС.
1.2. Техническое обоснование актуальности задачи предотвращения утечки конфиденциальных данных через почтовые сообщения на основе интеллектуальных методов анализа информации.
1.2.1. Обзор существующих решений, выполняющих схожие функции.
1.2.2. Критерий эффективности функционирования разрабатываемого с целью повышения уровня защищенности конфиденциальной информации программного продукта.
1.3. Экономическое обоснование актуальности задачи предотвращения утечки конфиденциальных данных через почтовые сообщения на основе интеллектуальных методов анализа информации.
1.3.1. Глобальная оценка экономических потерь от утечки конфиденциальных данных.
1.3.2. Оценка возможной прибыли от решения задачи предотвращения утечки конфиденциальных данных через почтовые сообщения для данной банковской информационной системы.
1.4. Вывод о целесообразности разработки в качестве способа повышения защищенности конфиденциальной информации данного программного продукта и уточненная постановка основной задачи.
Глава 2. Математическая модель функционирования системы поиска и интеллектуального анализа информации.
2.1. Математическая постановка задачи.
2.2. Математическая модель информационного поиска.
2.2.1. Определение задач информационного поиска.
2.2.2. Теоретико-множественные модели.
2.2.3. Вероятностные модели.
2.2.4. Векторные модели.
2.2.5. Способ предотвращения утечки конфиденциальных данных из информационной системы.
2.3. Методы тематического анализа текстовой информации.
2.4. Предварительная обработка документов.
2.4.1. Разделение текста документа на лексемы и выделение терминов.
2.4.2. Игнорирование распространённых терминов.
2.4.3. Морфологический анализ терминов.
2.4.4. Расчёт весового коэффициента терминов.
2.5. Математическая модель ЛСА.
2.5.1. Общее описание модели ЛСА.
2.5.2. Математическое описание сингулярного разложения матрицы и операции понижения ранга.
2.5.3. Численные методы сингулярного разложения.
2.5.4. Математическое описание используемого численного метода сингулярного разложения.
2.5.5. Корреляционный анализ входного документа и матрицы употребляемости.
2.6. Выводы касательно выбора математического аппарата.
Глава 3. Реализация математической модели функционирования системы интеллектуального анализа, предназначенной для повышения защищенности конфиденциальной информации, в виде программного продукта.
3.1. Анализ и обоснование выбора языка программирования, средств и методов разработки программного продукта.
3.2. Архитектура и назначение основных компонентов программного продукта.
3.3. Пользовательский интерфейс программного продукта.
3.4. Выводы по реализации программного продукта.
Глава 4. Технико-экономическое обоснование.
4.1. Определение трудоемкости разработки программного продукта
4.2. Определение заработной платы и социальных отчислений
4.3. Расчет расходов на используемые материалы
4.4. Расчет трат на услуги сторонних организаций
4.5. Расчет расходов на содержание и эксплуатацию оборудования
4.6. Расчет амортизационных отчислений
4.7. Совокупные затраты
4.8. Оценка затрат на разработку программного продукта.
4.9. Оценка эффективности работы программного продукта.
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ А. Программная реализация алгоритма Портера (морфологического анализа)
ПРИЛОЖЕНИЕ Б. Программная реализация последовательной обработки текста и приведения его в вид, используемый для анализа
ПРИЛОЖЕНИЕ В. Программная реализация алгоритма формирования матрицы употребляемости
ПРИЛОЖЕНИЕ Г. Программная реализация алгоритма ЛСА вместе с SVD, понижением ранга, подсчётом КМБ и определением темы
ПРИЛОЖЕНИЕ Д. Программная реализация почтового модуля
ОПРЕДЕЛЕНИЯ, ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ
DLP-система (Data Leak Prevention) – система предотвращения утечки данных;
IDF (inverse document frequency) – обратная частота документа;
SVD (Singular-Value Decomposition) – разложение по сингулярным значениям;
TF (term frequency) – частота слова;
ИБ – информационная безопасность;
ИС – информационная система;
КМБ – косинусная мера близости;
КРКС – коэффициент ранговой корреляции Спирмена;
ЛСА – латентно-семантический анализ;
НСД – несанкционированный доступ;
ПК – персональный компьютер;
ПО – программное обеспечение;
СУБД – система управления базами данных.
Введение
Мы живём в постоянно меняющемся мире, мире инноваций и технологий. Вместе с появлением новых, более дорогостоящих технологий и продуктов, с повышением ответственности за личную информацию, предоставляемую клиентами и пользователями, с ростом ценности конфиденциальной информации, касающейся производственных процессов и финансового состояния организации, возрастают и требования к хранению информации, и риски, связанные с превышением полномочий при осуществлении доступа к ней, и финансовые потери в случае утечки информации.Всё больше компаний испытывают потребность в пристальном контроле за действиями сотрудников по отношению к конфиденциальной информации, будь то банковские корпорации или компании по производству шоколадных изделий. Всё чаще перед руководителями и сотрудниками отдела информационной безопасности встают проблемы по отслеживанию недобросовестных сотрудников, планирующих осуществление передачи секретной информации компаниям-конкурентам или сторонним злоумышленникам, промышляющих торговлей краденными данными. Именно необходимость минимизировать потери в случае утечки информации, желание своевременно выявить нарушителя и построить доверительные отношения с клиентами и привели к возникновению комплексных программных продуктов
Характеристики ВКР
Учебное заведение
Семестр
Просмотров
1
Размер
1,26 Mb
Список файлов
СПОСОБ ПРЕДОТВРАЩЕНИЯ УТЕЧКИ КОНФИДЕНЦИАЛЬНЫХ ДАННЫХ ИЗ ИНФОРМАЦИОННОЙ СИСТЕМЫ НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНЫХ МЕТОДОВ АНАЛИЗА ИНФОРМАЦИИ.docx
Комментарии
Нет комментариев
Стань первым, кто что-нибудь напишет!
РЭУ им. Плеханова
Tortuga











