2015 Методичка по ММО (сделана частично_ не все темы) (1185321), страница 8

Файл №1185321 2015 Методичка по ММО (сделана частично_ не все темы) (2015 Методичка по ММО (сделана частично_ не все темы)) 8 страница2015 Методичка по ММО (сделана частично_ не все темы) (1185321) страница 82020-08-252020-08-25СтудИзба

2015 Методичка по ММО (сделана частично_ не все темы)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 8)

Большинство систем OLAP (Online Analytical Processing) – используют такое представление.

Детализация кросс-таблицы называется Drill Down.

Для показателей (значений ячеек), могут быть заданы функции агрегирования (подсчёт показателя для объединённых ячеек).

Пример полу-агрегируемого показателя – «первый объект множества».

Примеры задач:

Storytelling
Data visualization
Explorative analysis (поисковый анализ данных)
Reporting systems (системы отчёта)
Проверка гипотиз

ST - Similarity Tensor - Описание эталонами - таблица (аналитическое пространство (тензор)) задаёт попарное взаимодействие между конкретными объектами (задана некоторая метрика, оценка схожести).

Примеры задач:

Входные кластеризации
1. би- ко- кластеризации
Выходные кластеризации
1. Flat partitioning (плоская кластеризация) (выходные объекты принадлежат только одному классу)
2. Иерархическая кластеризация – строится бинарное дерево, листья которого – объекты
3. Нечёткая кластеризация – (например, объект A принадлежит множеству головастиков на 1/10 долю) – именно долю, а не «с вероятностью»
4. Стохастическая кластеризация – у кластера есть описание (бывает самым разным) + распределение вероятностей, что объект принадлежит этому кластеру.

Именно вероятность, а не доля. Поэтому для стохастической кластеризации нельзя говорить, что объект принадлежит всем кластерам, а для нечёткой – можно.

Ранжирующая кластеризация (это не задача ранжирования)

Тут не выделяют конкретные различимые кластеры, надо просто, чтобы рядом стоящие объекты были похожи, а далекостоящие – не похожи, т.е. фактически объекты выстраиваются в цепочку.

TD - Transactional Data - Транзакционные данные - Формальный контекст (бинарный признак)

Пусть у предметной области есть понятие «элемент» и «носитель».

И каждому носителю соответствует некоторое количество элементов (называемое «транзакция» - это множество (дубликаты отсутствуют))

Формальный контекст – это когда все признаки имеют значение типа bool.

Примеры задач:

Поиск популярных наборов (например, какие товары покупают вместе)
Поиск ассоциативных правил
Поиск последовательных ассоциативных правил

Муть непонятная, здесь Майсурадзе пытался привести примеры задач, которые используют то или иные модели данных:

Дисперсионно-факторный анализ (частый клиент - психология). ST -> DM

ST - Задача реализации метрики – в основном используется метод главных компонент.

MT -> ST →(шаг – многомерное шкалирование)→ DM – Анализ соответствия

DM -> ST -> DM – Сокращение размерности (частный случай метода главных компонент)

ST -> ST – Тематическое моделирование (преимущественно используется стохастическая кластеризация)

Объём и площадь шара

Объём шара и площадь сферы в разных метрических пространствах:

Замкнутый шар (радиус r, центр с) = {x ∈ X | dist(x, c) <= r}

Сфера (радиус r, центр с) = {x ∈ X | dist(x, c) = r}

Граница шара и сфера в общем случае не совпадают. Это принципиально разные множества.

Гипотеза: если метрика в Rⁿ порождена нормой, удовлетворяющей классическому определению, то объем шара (в традиционной мере) зависит от радиуса только множителем rⁿ.

(Дополнительные формулы можно найти в файле “5.2 Объем шара и площадь сферы в разных метрических пространствах.docx”)

Самый интересный вывод: при росте размерности объём шара стремится к объёму куба.

Форматы хранения данных

Есть машинное представление целых чисел и чисел с плавающей точкой.

Текстовые файлы бывают human readable и нет.

Форматы хранения данных:

comma separated values - допускается, что разделитель может встречаться внутри полей, поэтому нужен механизм quotes (возможность заключения в кавычки (для защиты от проблемы с использованием кавычек с самих полях ведётся подсчёт чётности справа и слева от запятой (вообще говоря справа, потому что lookahead быстрее))) (регулярными выражениями легче разбирается, чем экранированием)

tab delimited values - подразумевается, что разделитетль в полях не встречается

Надо рассказать про понятие экранирования

Диаграммы для многомерной модели данных - то что в Excel.

Системы отчётноси - ПО, которое позволяют создавать (а так же менять переходить от одного к другому) и визуализировать аналитические пространства.

Диаграмма дополняет аналитическое пространство (она может вводить на категориях дополнительные пордяки) (например, как расставить метки на осях) + она добавляет виды кодирования (категории могут кодироваться размером/цветом/формой/положением)

На диаграмме отдельные объекты - на предпоследней строчке.

Диаграммы для наборов точек из Rⁿ - например

Кодировки

Абстрактному символу (абстрактному понятию в человеческой голове) ставится в соответствие некоторый код.

Например это делает кодировка unicode или ascii.

Дальше код символа некоторым образом записывается в файл, при этом код может быть преобразован в какое-то другое число.

Например это делает кодировка utf-8 или utf-16, ...

Особенности ascii - она разбита на первые 128 символов, которые зафиксированны, и на слеующие 128 символов, которые в разной стране могут быть какими угодно.

Особенности unicode - это большая несколько-байтная кодировка, которая побита на куски, и каждый кусок под что-то отведён, есть кусок для китайцев, есть кусок для русских, …

Особенности utf-8 - посмотрите википедию, там наглядно.

Ещё бывает понятие little-endian и big-endian - это вопрос того, в каком порядке записывать в файл байты несколько-байтных символов.

Некоторые кодировки в качестве первых байт записывают значение, которое фиксирует little или big, а некоторые их не пользуют, потому что всегда работают лишь в одном режиме.

Снежинка и звезда

Схема «звезды» , схема звёздного соединения, звездоподобная схема, звёздная схема (от англ. star schema) — специальная организация реляционных таблиц, удобная для хранения многомерных показателей. Лежит в основе реляционного OLAP.

Модель данных состоит из двух типов таблиц: одной таблицы фактов (fact table) — центр «звезды» — и нескольких таблиц измерений (dimension table) по числу измерений в модели данных — лучи «звезды».

Схема снежинки получила свое название за свою форму, в виде которой отображается логическая схема таблиц в многомерной базе данных. Так же как и в схеме звезды, схема снежинки представлена централизованной таблицей фактов, соединенной с таблицами измерений. Отличием является то, что здесь таблицы измерений нормализованы с рядом других связанных измерительных таблиц, — в то время как в схеме звезды таблицы измерений полностью денормализованы, с каждым измерением, представленным в виде единой таблицы, без соединений на связанные таблицы в схеме снежинки. Чем больше степень нормализации таблиц измерений, тем сложнее выглядит структура схемы снежинки. Создаваемый «эффект снежинки» затрагивает только таблицы измерений, и не применим к таблицам фактов.

Чтобы схема не подходила ни под снежинку, ни под звезду, нужно чтобы зависимости были, например, следующими: A -> B, A -> C, B-> D, C -> D. (типа как ромбовидное наследование виртуальных классов в с++)

Данные необходимо группировать. Есть следующие этапы: модель данных на входе, модель данных на выходе и наличие целевого признака.

Характеристики

Тип файла

Документ

Размер

267,93 Kb

Материал

2015 Методичка по ММО (сделана частично_ не все темы)

Тип материала

Книга

Предмет

Методы машинного обучения

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

2015-metodichka-po-mmo-sdelana-chastichno_-ne-vse-temy.rar

2015 Методичка по ММО (сделана частично_ не все темы).docx

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.

2015 Методичка по ММО (сделана частично_ не все темы) (1185321), страница 8

Текст из файла (страница 8)

Объём и площадь шара

Форматы хранения данных

Кодировки

Снежинка и звезда

Характеристики

Список файлов книги