2015 Экзаменационные вопросы и Теормин (с ответами) по курсу ММО (1185246), страница 2
Текст из файла (страница 2)
Детализация кросс-таблицы называется Drill Down.
Для показателей (значений ячеек), могут быть функции агрегирования (подсчёт показателя для объединённых ячеек).
Пример полу-агрегируемого показателя – «первый объект множества».
-
Основные модели данных в ИАД. Многомерная модель. Понятие и видах агрегируемости показателей.
Основные модели данных в ИАД - см. вопрос 2 теормина
В принципе про агрегируемые показатели написано в предыдущем вопросе, хотя это маловато.
Агрегирование данных (data aggregation): процесс сбора, обработки и представления информации в окончательном виде. Агрегирование данных в основном выполняется для формирования отчетов, выработки политики, управления здравоохранением, научных исследований, статистического анализа и изучения здоровья населения.
Агрегация данных может происходить с использованием нескольких стандартных функций: сумма, минимум, максимум, среднее, количество.
-
Основные модели данных в ИАД. Тензоры сходства, графы взаимодействия.
Основные модели данных в ИАД - см. вопрос 2 теормина.
ТЕНЗОРЫ СХОДСТВА что это вообще?
- глянь similarity tensor из 2-го вопроса, что то связанное с этим
- проблема в том, что гугл не знает такого ни (similarity tensor) ни (тензор сходства).
-
Основные модели данных в ИАД. Транзакционные данные. Формальные контексты.
Основные модели данных в ИАД - см. вопрос 2 теормина
-
Фундаментальные задачи ИАД. Задача классификации. Задача восстановления регрессии.
Фундоментальные задачи ИАД - см вопрос 1 теормина
Тут нужно писать сжато, в вопросе 1 уже написано.
Чтобы во всем этом ЛЕГКО разобраться - первые 4 страницы лекции Майсурадзе:
2.1. Качество классификации (original).pptx
отсюда https://drive.google.com/folderview?id=0B0X-oQW4pjUUeUY3eE05TDU0Ujg&usp=sharing&tid=0B0X-oQW4pjUUajBvRjVvNVEyMVU#list
Либо вопрос №7 из билетов
-
Фундаментальные задачи ИАД. Задача кластерного анализа.
Фундоментальные задачи ИАД - см вопрос 1 теормина
-
Исторически возникла из задачи группировки схожих объектов в единую структуру (кластер) с последующим выявлением общих черт
-
В классической задаче кластеризации обучающая выборка представляет собой набор отдельных объектов
, характеризующихся вектором вещественнозначных признаков
-
Требуется постросить алгоритм (кластеризатор), который разбил бы выборку на непересекающиеся группы (кластеры)
-
В каждый класс должны попасть объекты в некотором смысле похожие друг на друга
Рис. 1.3. Пример задачи кластеризации. Звездочками обозначены прецеденты. Группы объектов, обведенные кружками, образуют отдельные кластеры
Примеры задач кластерного анализа
• Экономическая география: по физико-географическим и экономическим показателям разбить страны мира на группы схожих по экономическому положению государств
• Финансовая сфера: по сводкам банковских операций выявить группы «подозрительных», нетипичных банков, сгуппировать остальные по степени близости проводимой стратегии
• Маркетинг: по результатам маркетинговых исследований среди множества потребителей выделить характерные группы по степени интереса к продвигаемому продукту
• Социология: по результатам социологических опросов выявить группы общественных проблем, вызывающих схожую реакцию у общества, а также характерные фокус-группы населения
-
Фундаментальные задачи ИАД. Задача сокращения размерности.
Фундоментальные задачи ИАД - см вопрос 1 теормина
Для задач снижения размерности целевой признак отсутствует, в ней переходят от одних описаний к другим. Принято вводить невязку через метрику на пространстве описаний.
Типичный функционал качества агрегирует множество невязок между исходными и новыми описаниями.
-
Обобщающая способность.
Обобщающая способность - точность алгоритма прогнозирования на всевозможных новых, не использованных для обучения объектах, т.е. это точность по всей генеральной совокупности.
Мерой обобщающей способности явяется математическое ожидание потерь по всей генеральной совокупности.
Цель задачи прогнозирования - максимизация обобщающей способности. Но нужно понимать, что подсчитать её достаточно проблематично, т.к. обобщающая способность определяется через множество всей генеральной совокупности.
-
Принцип минимизации эмпирического риска.
Эмпирический риск (Empirical Risk) — это средняя величина ошибки алгоритма на обучающей выборке.
Метод минимизации эмпирического риска (Empirical Risk Minimization, ERM) — это общий подход к решению широкого класса задач обучения по прецедентам, в первую очередь — задач обучения с учителем, включая задачи классификации и регрессии.
Более формально:
Эмпирический риск — это функционал качества, характеризующий среднюю ошибку алгоритма на выборке
:
Метод минимизация эмпирического риска заключается в том, чтобы в заданной модели алгоритмов найти алгоритм, доставляющий минимальное значение функционалу эмпирического риска:
-
Методы оценивания обобщающей способности. Скользящий контроль.
-
Регрессионный анализ. Метод наименьших квадратов (МНК). Простая одномерная регрессия.
Распространённым средством решения задач прогнозирования непрерывной величины Y по переменным X1 , . . . , Xn является использование метода множественной линейной регрессии. В данном методе связь переменной Y с переменными X1 , . . . , Xn задаётся с помощью линейной модели Y = β0 + β1 X1 + . . . + βnXn + ε, где β0, β1, . . . , βn - вещественные регрессионные коэффициенты, ε - случайная величина, являющаяся ошибкой прогнозирования.
Традиционным способом поиска регрессионных коэффициентов является метод наименьших квадратов (МНК). МНК заключается в минимизации функционала эмпирического риска с квадратичными потерями:
Рассмотрим простейший вариант линейной регрессии, описывающей связь между переменной Y и единственной переменной X : Y = β0 + β1 X + ε Функционал эмпирического риска на выборке ˜St = {( y 1 , x 1) , . . . , ( y m, x m) } принимает вид:
Необходимым условием минимума функционала Q(S˜t, β0, β1) является равенство 0 и
. Отсюда:
Выражение для βˆ1 может быть переписано в виде:
, где Cov(Y, X | S˜t) является выборочной ковариацией переменных Y и
X, D(X | S˜t) является выборочной дисперсией переменной X.
-
Множественная линейная регрессия. Недостатки МНК.
При вычислении оценки вектора параметров B = (B0, …, Bn) в случае многомерной линейной регрессии удобно использовать матрицу плана X размера m × (n + 1) , которая строится по обучающей выборке ˜ St. Матрица плана имеет вид
То есть j-я строка матрицы плана представляет собой вектор значений переменных X1, … ,Xn для объекта sj c одной добавленной слева компонентой, содержащей 1.
Пусть y = (y1, … ,ym) - вектор значений переменной Y . Связь Y с переменными X1, … , Xn на объектах обучающей выборки может быть описана с помощью матричного уравнения
где e= (e1, … ,em) - вектор ошибок прогнозирования для объектов ˜ St. Функционал Q( ˜ St; B0, B1 , … , Bn) может быть записан в виде
Одним из главных недостатков МНК является устойчивость этого метода, что плохо сказывается в некоторых случаях на обобщающей способности. Причина низкой устойчивости - мультиколлинеарность. Данное явление возникает при сильной коррелированности одной из переменных выборки с какой-либо линейной комбинацией других переменных. (Слайды 16-17 3 Лекция Сенько)
-
Использование методов регуляризации.
Регуляризация используется для избавления МНК от недостатков (в плане устойчивости).
Для этого включают дополнительную шумовую компоненту в исходный оптимизируемый функционал.
Типы регуляризаций:
-
регуляризация по Тихонову - добавление штрафной компоненты к оптимизируемому функционалу (по формулам там была модификация значений признаков объектов)
-
гребневая регрессия (ridge) - добавляет сумму квадратов регрессионных компонентов к функционалу (это приводит к положительности дискриминанта и улучшается устойчивость)
-
метод лассо - добавляет модули регрессионных компонент к функционалу (делает отбор переменных (т.к. некоторые регрессионные переменные приравниваются к 0) и применение на маленьких выборках возможным) (при высокой корреляции некоторых переменных, на практике метод лассо ухудшает свои показатели)
-
эластичная сеть - добавление суммы квадрата регрессионных компонент с коэффициентом θ и модуля регрессионных компонент с коэффициентом (1-θ) (вбирает все лучшее из первых двух).
-
Методы распознавания. Что такое байесовский классификатор? Байесовские методы в распознавании.
Распознавание — это отнесение исходных данных к определенному классу с помощью выделения существенных признаков, характеризующих эти данные, из общей массы несущественных данных.