2015 Ответы на доп вопросы (1185336), страница 2
Текст из файла (страница 2)
TSS – полная сумма квадратов
ESS – сумма квадратов остатков
RSS – уклонение за счет влияния факторов, объясненная сумма квадратов (объясняемая с помощью регрессии)
-
Основная задача в однофакторном дисперсионном анализе
Пусть имеется следующий набор измерений:
k – уровень фактора, j – номер измерения
Предполагаем:
-
– неслучайные веществ числа
-
-
- независимы
Модель в новом виде:
Основная задача: Есть ли различия в поведении Y на разных уровнях.
Формально проверяем гипотезу
Замечание: есть модификация модели, где (отклонение от среднего уровня) – случайная величина, независимая от ошибок
и
В таком случае основная задача: вносит ли изучаемый фактор вклад в общую дисперсию модели.
Формально:
-
Основная задача в двухфакторном дисперсионном анализе
Пусть имеется следующая модель измерений:
;
– случайные ошибки
На исследуемую величину влияет два фактора: k – уровень первого фактора, j – уровень второго фактора. (рассматриваем случай, когда для каждого набора (сочетания) факторов имеется только одно измерение).
Предполагаем:
-
– некоторые константы
-
-
– независимы
Введем следующие обозначения:
- эффект столбца;
- эффект строки
– модель без учета взаимодействия факторов
Перепишем модель:
Основная задача: есть ли влияние факторов (есть ли эффект строки или столбца). Проверяем, есть ли разница средних по строкам.
Формально:
-
Основная задача дискриминантного анализа
Две основные задачи:
-
Интерпретация: можно ли по измеряемым характеристикам различить изучаемые совокупности?
-
Классификация: Найти одну или несколько функций от измеряемых характеристик, которые позволят разделить изучаемые группы
Постановка задачи:
Двумерный случай для простоты: каждый объект характеризуется парой чисел: . X имеет нормальное двумерное распределение со средними
и матрицей ковариации ∑.
Пусть мы имеем две совокупности, которые различаются средними:
, но имеют одну и ту же матрицу ковариаций.
Задача: отнести вновь поступивший объект с хар-ками к одной из совокупностей.
Интуитивно нужно построить линейную функцию и сравнить новую с этой прямой.
Задача легко решаема, когда известны средние и матрица ковариации одна и та же для обеих совокупностей. В реальной задаче средние неизвестны, а матрицы ковариации могут отличаться.
В этом случае первый этап – обучение (2 набора измерений, про каждый из которых известно, из какой совокупности).
Два основных подхода:
-
Метод главных компонент
-
Метод канонических корреляций
-
Кластерный анализ: постановка задачи
Из генеральной совокупности выбрано n объектов: , у каждого объекта p количественных характеристик
измерение i-ой характеристики у j-ого объекта -
– измерения всех характеристик объекта j.
– матрица измерений.
Постановка задачи: Пусть m < n (если m = n, то каждый объект – кластер). Требуется на основе измерений X разбить множество объектов I на m классов (кластеров) так, чтобы:
-
Каждый объект
принадлежал одному и только одному кластеру
-
Объекты внутри одного кластера были бы в некотором смысле сходными
-
Объекты из разных кластеров были бы несходными
Для решения задачи используется некоторая целевая функция. Она учитывает число кластеров и качество группировки. Интуитивно ясно, что объекты нужно объединить в один класс, если расстояние между измерениями
будет достаточно мало, а для точек из разных классов оно будет достаточно большим.
В реальной задаче количество кластеров, как правило, неизвестно и они строятся последовательно.
Меры сходства:
-
Евклидово расстояние
-
L1-норма
-
Максимальная норма
-
Расстояние Махаланобиса
-
Кластерный анализ: последовательное построение факторов
Общая схема:
-
Сначала все объекты рассматриваются как отдельные кластеры
-
Выбирают два порога: 0<r<s
-
Если все кластеры находятся на расстоянии большем, чем s, то все заканчивается
-
Если расстояние между какими-то кластерами меньше s, то находим два наиболее близких и объединяем их, если расстояния внутри нового кластера не более r
-
Пересчитываем новые расстояния между кластерами
-
Процедура продолжается до тех пор, пока расстояния внутри всех кластеров будут не более r, а расстояния между кластерами не более(?) s.
Может привести к построению только одного кластера (т.е. разделить не удалось).