Для студентов СПбГУ по предмету ДругиеСистема кластеризации мульти-язычных данных большого объемаСистема кластеризации мульти-язычных данных большого объема
2024-08-102024-08-10СтудИзба
Курсовая работа: Система кластеризации мульти-язычных данных большого объема
Описание
Оглавление
Глава 1.......................................................................................................................................... 4
Введение...................................................................................................................................... 4
1.1 Существующие алгоритмы кластеризации
5
Алгоритмы иерархической
кластеризации............................................................................................................... 5
Неиерархические алгоритмы.................................................................................... 5
Нечеткие алгоритмы.................................................................................................... 6
Алгоритмы основанные на теории графов. .6
Кластеризация на основе опорных
векторов.......................................................................................................................... 7
7
Кластеризация на основе нейронных
сетей................................................................................................................................ 7
Вычислительная сложность алгоритмов............................................................... 9
Глава 2......................................................................................................................................... 10
Обзор существующих решений............................................................................................ 10
2.1 Имеющаяся система кластеризации................................................................... 10
2.1.1 Архитектура системы...................................................................................... 11
2.1.1.1 Хранение компаний................................................................................. 14
2.1.1.2 Поиск кандидатов на сравнение.......................................................... 14
2.1.1.3 Соединение двух фаз кластеризации
16
Во второй фазе осуществляется по-
парное сравнение кандидатов внутри
группы. Сам процесс сравнения описан в
классе PairReducer..................................................................................................... 16
2.1.1.4 Сохранение результатов
кластеризации........................................................................................................ 20
2.1.2 Проблемы имеющейся системы.................................................................. 21
Глава 3......................................................................................................................................... 22
Описание системы.................................................................................................................... 22
3.1 Поддержка легкого подключения новых
языков................................................................................................................................ 22
3.1.1 Хранение региональных данных в базе
22
3.1.2 Индексы для разных языков.......................................................................... 23
3.1.3 Настройка первой фазы................................................................................. 24
3.1.4 Классы для работы с базой........................................................................... 26
3.2 Подключение турецкого языка.............................................................................. 27
3.2.1 Особенности турецкого адреса.................................................................... 27
3.2.2 Особенности турецкого языка....................................................................... 28
3.2.3 Определение “спам-слов” и слов с
большим весом........................................................................................................... 29
3.3 Тестирование разработанных компонент
30
3.3.1 Тестирование турецкой
кластеризации............................................................................................................. 30
3.3.2 Тестирование работы всей системы........................................................... 30
Глава 4......................................................................................................................................... 31
Заключение................................................................................................................................ 31
Литература................................................................................................................................. 33
3
Глава 1
Введение
В современном мире информация имеет огромную ценность. Интернет является всемирным хранилищем информации. Однако, в сеть попадает огромное количество неполных и дублирующих друг друга данных.
Поисковые компании получают доход за счет данных, поэтому для них очень актуальна проблема качества информации. Один из способов повышения качества данных - кластеризация.
Кластеризация (или кластерный анализ) — это задача разбиения множества объектов на группы, называемые кластерами. Внутри каждой группы должны оказаться «похожие» объекты, а объекты разных группы должны быть как можно более отличны. Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.
Одна из важных Областей данных - это данные о компаниях. Улучшение качества и объема такой информации ведет к повышению прибыли поисковых компаний.
Задача, поставленная перед автором этого диплома и сотрудником компании “Яндекс”, состоит в разработке системы кластеризации данных о компаниях. Система должна работать с данными на русском и турецких языках и предоставлять возможность удобного подключения новых языков. Процесс кластеризации должен запускаться ежедневно. Компании
Глава 1.......................................................................................................................................... 4
Введение...................................................................................................................................... 4
1.1 Существующие алгоритмы кластеризации
5
Алгоритмы иерархической
кластеризации............................................................................................................... 5
Неиерархические алгоритмы.................................................................................... 5
Нечеткие алгоритмы.................................................................................................... 6
Алгоритмы основанные на теории графов. .6
Кластеризация на основе опорных
векторов.......................................................................................................................... 7
7
Кластеризация на основе нейронных
сетей................................................................................................................................ 7
Вычислительная сложность алгоритмов............................................................... 9
Глава 2......................................................................................................................................... 10
Обзор существующих решений............................................................................................ 10
2.1 Имеющаяся система кластеризации................................................................... 10
2.1.1 Архитектура системы...................................................................................... 11
2.1.1.1 Хранение компаний................................................................................. 14
2.1.1.2 Поиск кандидатов на сравнение.......................................................... 14
2.1.1.3 Соединение двух фаз кластеризации
16
Во второй фазе осуществляется по-
парное сравнение кандидатов внутри
группы. Сам процесс сравнения описан в
классе PairReducer..................................................................................................... 16
2.1.1.4 Сохранение результатов
кластеризации........................................................................................................ 20
2.1.2 Проблемы имеющейся системы.................................................................. 21
Глава 3......................................................................................................................................... 22
Описание системы.................................................................................................................... 22
3.1 Поддержка легкого подключения новых
языков................................................................................................................................ 22
3.1.1 Хранение региональных данных в базе
22
3.1.2 Индексы для разных языков.......................................................................... 23
3.1.3 Настройка первой фазы................................................................................. 24
3.1.4 Классы для работы с базой........................................................................... 26
3.2 Подключение турецкого языка.............................................................................. 27
3.2.1 Особенности турецкого адреса.................................................................... 27
3.2.2 Особенности турецкого языка....................................................................... 28
3.2.3 Определение “спам-слов” и слов с
большим весом........................................................................................................... 29
3.3 Тестирование разработанных компонент
30
3.3.1 Тестирование турецкой
кластеризации............................................................................................................. 30
3.3.2 Тестирование работы всей системы........................................................... 30
Глава 4......................................................................................................................................... 31
Заключение................................................................................................................................ 31
Литература................................................................................................................................. 33
3
Глава 1
Введение
В современном мире информация имеет огромную ценность. Интернет является всемирным хранилищем информации. Однако, в сеть попадает огромное количество неполных и дублирующих друг друга данных.
Поисковые компании получают доход за счет данных, поэтому для них очень актуальна проблема качества информации. Один из способов повышения качества данных - кластеризация.
Кластеризация (или кластерный анализ) — это задача разбиения множества объектов на группы, называемые кластерами. Внутри каждой группы должны оказаться «похожие» объекты, а объекты разных группы должны быть как можно более отличны. Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.
Одна из важных Областей данных - это данные о компаниях. Улучшение качества и объема такой информации ведет к повышению прибыли поисковых компаний.
Задача, поставленная перед автором этого диплома и сотрудником компании “Яндекс”, состоит в разработке системы кластеризации данных о компаниях. Система должна работать с данными на русском и турецких языках и предоставлять возможность удобного подключения новых языков. Процесс кластеризации должен запускаться ежедневно. Компании
Характеристики курсовой работы
Список файлов
Система кластеризации мульти-язычных данных большого объема.doc