Для студентов МГТУ им. Н.Э.Баумана по предмету АвтоматизацияАвтоматизация сверки и устранения дубликатов в персональных данныхАвтоматизация сверки и устранения дубликатов в персональных данных
2024-05-252024-05-25СтудИзба
Курсовая работа: Автоматизация сверки и устранения дубликатов в персональных данных
Описание
СОДЕРЖАНИЕ
Введение в проблематику................................................................................... 3
Постановка задачи................................................................................................. 5
Глава 1. Обзор литературы и существующих решений........................... 6
1.1. Литература................................................................................................... 6
1.2. Существующие решения........................................................................ 9
Глава 2. Данные.................................................................................................... 12
2.1. Данные, предоставленные МИАЦ.................................................... 12
2.2. Тестовые данные..................................................................................... 12
Глава 3. Предварительная обработка данных........................................... 14
3.1. Виды ошибок............................................................................................ 14
3.2. Способы устранения ошибок............................................................. 15
3.3. Результаты предобработки.................................................................. 16
Глава 4. Алгоритм поиска дубликатов........................................................ 17
4.1. Индексирование...................................................................................... 17
4.2. Вычисление матрицы расстояний.................................................... 18
4.3. Поиск дубликатов................................................................................... 19
4.4. Мера качества........................................................................................... 20
4.5. Полученные результаты....................................................................... 21
4.6. Устранение дубликатов........................................................................ 23
Глава 5. Структура библиотеки...................................................................... 24
5.1. Принципы построения.......................................................................... 24
5.2. Описание модулей.................................................................................. 25
Заключение............................................................................................................ 28
Список источников и литературы................................................................. 29
2
Введение в проблематику
Во время работы с информационной системой почти всегда возникает ситуация, в которой пользователю нужно ввести какие
-либо
данные вручную. Опечатки, изначально некорректные данные, невнимательное заполнение полей в форме — все это приводит к тому, что в данных возникают так называемые дубликаты — две или более записи, которые описывают одну сущность. Наиболее наглядно проблема налич ия дубликатов выражена в работе с персональными данными.
Специфика процесса накопления персональных данных подробно
описана в статье [1]. В течение жизни у человека появляются и исчезают
такие идентификаторов личности, как но мер бирки новорождённого,
номер свидетельства о рождении, номера паспортов (российских и заграничных), номера страховых полисов и т.д. В различных учреждениях идентификация пациента происходит на основе своих собственных политик, следовательно при агрегаци и данных из различных источников возникает задача сопоставления данных, которые описывают одну и ту же сущность. Помимо того что данные представлены в различных форматах, не стоит забывать о человеческом факторе: записи могут содержать ошибки и опечатки. К роме вышеописанных сложностей также существует проблема подмена идентичности. Ее причиной может стать как пациент (воспользовался чужим удостоверением личности), так и врач (взял биоматериал одного человека, а в документах указал другого). В качестве решения этой проблемы автор статьи предлагает предоставление доступа пациентам к информации о том, какие медицинские услуги им были оказаны. Данная статья дает весьма полное представление о том, какие проблемы возникают при идентификации личности, в чем их прич ины и что стоит обязательно учесть при создании таких информационных
3
Введение в проблематику................................................................................... 3
Постановка задачи................................................................................................. 5
Глава 1. Обзор литературы и существующих решений........................... 6
1.1. Литература................................................................................................... 6
1.2. Существующие решения........................................................................ 9
Глава 2. Данные.................................................................................................... 12
2.1. Данные, предоставленные МИАЦ.................................................... 12
2.2. Тестовые данные..................................................................................... 12
Глава 3. Предварительная обработка данных........................................... 14
3.1. Виды ошибок............................................................................................ 14
3.2. Способы устранения ошибок............................................................. 15
3.3. Результаты предобработки.................................................................. 16
Глава 4. Алгоритм поиска дубликатов........................................................ 17
4.1. Индексирование...................................................................................... 17
4.2. Вычисление матрицы расстояний.................................................... 18
4.3. Поиск дубликатов................................................................................... 19
4.4. Мера качества........................................................................................... 20
4.5. Полученные результаты....................................................................... 21
4.6. Устранение дубликатов........................................................................ 23
Глава 5. Структура библиотеки...................................................................... 24
5.1. Принципы построения.......................................................................... 24
5.2. Описание модулей.................................................................................. 25
Заключение............................................................................................................ 28
Список источников и литературы................................................................. 29
2
Введение в проблематику
Во время работы с информационной системой почти всегда возникает ситуация, в которой пользователю нужно ввести какие
-либо
данные вручную. Опечатки, изначально некорректные данные, невнимательное заполнение полей в форме — все это приводит к тому, что в данных возникают так называемые дубликаты — две или более записи, которые описывают одну сущность. Наиболее наглядно проблема налич ия дубликатов выражена в работе с персональными данными.
Специфика процесса накопления персональных данных подробно
описана в статье [1]. В течение жизни у человека появляются и исчезают
такие идентификаторов личности, как но мер бирки новорождённого,
номер свидетельства о рождении, номера паспортов (российских и заграничных), номера страховых полисов и т.д. В различных учреждениях идентификация пациента происходит на основе своих собственных политик, следовательно при агрегаци и данных из различных источников возникает задача сопоставления данных, которые описывают одну и ту же сущность. Помимо того что данные представлены в различных форматах, не стоит забывать о человеческом факторе: записи могут содержать ошибки и опечатки. К роме вышеописанных сложностей также существует проблема подмена идентичности. Ее причиной может стать как пациент (воспользовался чужим удостоверением личности), так и врач (взял биоматериал одного человека, а в документах указал другого). В качестве решения этой проблемы автор статьи предлагает предоставление доступа пациентам к информации о том, какие медицинские услуги им были оказаны. Данная статья дает весьма полное представление о том, какие проблемы возникают при идентификации личности, в чем их прич ины и что стоит обязательно учесть при создании таких информационных
3
Характеристики курсовой работы
Предмет
Учебное заведение
Семестр
Просмотров
1
Размер
309 Kb
Список файлов
Автоматизация сверки и устранения дубликатов в персональных данных.doc