2015 Методичка по ММО (сделана частично_ не все темы) (1185321), страница 8
Текст из файла (страница 8)
Большинство систем OLAP (Online Analytical Processing) – используют такое представление.
Детализация кросс-таблицы называется Drill Down.
Для показателей (значений ячеек), могут быть заданы функции агрегирования (подсчёт показателя для объединённых ячеек).
Пример полу-агрегируемого показателя – «первый объект множества».
Примеры задач:
-
Storytelling
-
Data visualization
-
Explorative analysis (поисковый анализ данных)
-
Reporting systems (системы отчёта)
-
Проверка гипотиз
-
ST - Similarity Tensor - Описание эталонами - таблица (аналитическое пространство (тензор)) задаёт попарное взаимодействие между конкретными объектами (задана некоторая метрика, оценка схожести).
Примеры задач:
-
Входные кластеризации
-
би- ко- кластеризации
-
-
Выходные кластеризации
-
Flat partitioning (плоская кластеризация) (выходные объекты принадлежат только одному классу)
-
Иерархическая кластеризация – строится бинарное дерево, листья которого – объекты
-
Нечёткая кластеризация – (например, объект A принадлежит множеству головастиков на 1/10 долю) – именно долю, а не «с вероятностью»
-
Стохастическая кластеризация – у кластера есть описание (бывает самым разным) + распределение вероятностей, что объект принадлежит этому кластеру.
-
Именно вероятность, а не доля. Поэтому для стохастической кластеризации нельзя говорить, что объект принадлежит всем кластерам, а для нечёткой – можно.
-
Ранжирующая кластеризация (это не задача ранжирования)
Тут не выделяют конкретные различимые кластеры, надо просто, чтобы рядом стоящие объекты были похожи, а далекостоящие – не похожи, т.е. фактически объекты выстраиваются в цепочку.
-
TD - Transactional Data - Транзакционные данные - Формальный контекст (бинарный признак)
Пусть у предметной области есть понятие «элемент» и «носитель».
И каждому носителю соответствует некоторое количество элементов (называемое «транзакция» - это множество (дубликаты отсутствуют))
Формальный контекст – это когда все признаки имеют значение типа bool.
Примеры задач:
-
Поиск популярных наборов (например, какие товары покупают вместе)
-
Поиск ассоциативных правил
-
Поиск последовательных ассоциативных правил
Муть непонятная, здесь Майсурадзе пытался привести примеры задач, которые используют то или иные модели данных:
Дисперсионно-факторный анализ (частый клиент - психология). ST -> DM
ST - Задача реализации метрики – в основном используется метод главных компонент.
MT -> ST →(шаг – многомерное шкалирование)→ DM – Анализ соответствия
DM -> ST -> DM – Сокращение размерности (частный случай метода главных компонент)
ST -> ST – Тематическое моделирование (преимущественно используется стохастическая кластеризация)
-
Объём и площадь шара
Объём шара и площадь сферы в разных метрических пространствах:
Замкнутый шар (радиус r, центр с) = {x ∈ X | dist(x, c) <= r}
Сфера (радиус r, центр с) = {x ∈ X | dist(x, c) = r}
Граница шара и сфера в общем случае не совпадают. Это принципиально разные множества.
Гипотеза: если метрика в Rn порождена нормой, удовлетворяющей классическому определению, то объем шара (в традиционной мере) зависит от радиуса только множителем rn.
(Дополнительные формулы можно найти в файле “5.2 Объем шара и площадь сферы в разных метрических пространствах.docx”)
Самый интересный вывод: при росте размерности объём шара стремится к объёму куба.
-
Форматы хранения данных
Есть машинное представление целых чисел и чисел с плавающей точкой.
Текстовые файлы бывают human readable и нет.
Форматы хранения данных:
comma separated values - допускается, что разделитель может встречаться внутри полей, поэтому нужен механизм quotes (возможность заключения в кавычки (для защиты от проблемы с использованием кавычек с самих полях ведётся подсчёт чётности справа и слева от запятой (вообще говоря справа, потому что lookahead быстрее))) (регулярными выражениями легче разбирается, чем экранированием)
tab delimited values - подразумевается, что разделитетль в полях не встречается
Надо рассказать про понятие экранирования
Диаграммы для многомерной модели данных - то что в Excel.
Системы отчётноси - ПО, которое позволяют создавать (а так же менять переходить от одного к другому) и визуализировать аналитические пространства.
Диаграмма дополняет аналитическое пространство (она может вводить на категориях дополнительные пордяки) (например, как расставить метки на осях) + она добавляет виды кодирования (категории могут кодироваться размером/цветом/формой/положением)
На диаграмме отдельные объекты - на предпоследней строчке.
Диаграммы для наборов точек из Rn - например
-
Кодировки
Абстрактному символу (абстрактному понятию в человеческой голове) ставится в соответствие некоторый код.
Например это делает кодировка unicode или ascii.
Дальше код символа некоторым образом записывается в файл, при этом код может быть преобразован в какое-то другое число.
Например это делает кодировка utf-8 или utf-16, ...
Особенности ascii - она разбита на первые 128 символов, которые зафиксированны, и на слеующие 128 символов, которые в разной стране могут быть какими угодно.
Особенности unicode - это большая несколько-байтная кодировка, которая побита на куски, и каждый кусок под что-то отведён, есть кусок для китайцев, есть кусок для русских, …
Особенности utf-8 - посмотрите википедию, там наглядно.
Ещё бывает понятие little-endian и big-endian - это вопрос того, в каком порядке записывать в файл байты несколько-байтных символов.
Некоторые кодировки в качестве первых байт записывают значение, которое фиксирует little или big, а некоторые их не пользуют, потому что всегда работают лишь в одном режиме.
-
Снежинка и звезда
Схема «звезды» , схема звёздного соединения, звездоподобная схема, звёздная схема (от англ. star schema) — специальная организация реляционных таблиц, удобная для хранения многомерных показателей. Лежит в основе реляционного OLAP.
Модель данных состоит из двух типов таблиц: одной таблицы фактов (fact table) — центр «звезды» — и нескольких таблиц измерений (dimension table) по числу измерений в модели данных — лучи «звезды».
Схема снежинки получила свое название за свою форму, в виде которой отображается логическая схема таблиц в многомерной базе данных. Так же как и в схеме звезды, схема снежинки представлена централизованной таблицей фактов, соединенной с таблицами измерений. Отличием является то, что здесь таблицы измерений нормализованы с рядом других связанных измерительных таблиц, — в то время как в схеме звезды таблицы измерений полностью денормализованы, с каждым измерением, представленным в виде единой таблицы, без соединений на связанные таблицы в схеме снежинки. Чем больше степень нормализации таблиц измерений, тем сложнее выглядит структура схемы снежинки. Создаваемый «эффект снежинки» затрагивает только таблицы измерений, и не применим к таблицам фактов.
Чтобы схема не подходила ни под снежинку, ни под звезду, нужно чтобы зависимости были, например, следующими: A -> B, A -> C, B-> D, C -> D. (типа как ромбовидное наследование виртуальных классов в с++)
Данные необходимо группировать. Есть следующие этапы: модель данных на входе, модель данных на выходе и наличие целевого признака.
51