rpd000003197 (1012246), страница 34
Текст из файла (страница 34)
a*i-ma i Z= Z (с i i)1/2.
Если известна дисперсия ошибок наблюдения указанное неравенство непосредственно используется для построения доверительного интервала , которому принадлежит истинное значение параметра модели a*i. Однако, на практике, как правило, дисперсия ошибок измерений неизвестна и должна быть оценена с помощью имеющихся экспериментальных данных. В этом случае в качестве оценки дисперсии ошибок измерений использую выборочную дисперсию,
Оценки Si2 для дисперсии i2 вычисляется на основе соотношения:
Si2=сii S2.
В этом случае величина T=(a*i - ma)/ Si имеет распределение Стьюдента с N-k степенями свободы и, следовательно, доверительный интервал, которому принадлежат истинные значения параметров модели рассчитывается на основе квантили T распределения Стьюдента
a*i -ma SiT= T (с i i)1/2S.
Приведенные выше результаты, относящиеся к методу наименьших квадратов, были получены в предположении о том, что использованная модель адекватна реальному физическому процессу. Поэтому следующим обязательным этапом реализации метода наименьших квадратов является подтверждение адекватности использованной модели. Рассмотрим метод, позволяющий принимать решение о том, адекватна или неадекватна принятая модель.
Проверка адекватности модели основана на анализе двух ошибок: ошибок, характеризующих точность модели и ошибок наблюдений. Если ошибки, характеризующие точность модели превосходят ошибки наблюдений, то гипотеза об адекватности модели отвергается, поскольку в этом случае нельзя оценивать ошибку наблюдений путем нахождения разности между результатом наблюдений выходной переменной и результатом её расчета по модели.
Для проверки адекватности модели, будем полагать, что в каждой из N точек xi проведено m измерений выходной переменной yi1, yi2,...,yim. Будем также полагать, оценки коэффициентов ai*,i=1,..,k и оценки значений выходной переменной yi , i=1,..., N получены в МНК на основе усреднения наблюдений yij , i= 1,...,N; j=1,...,k в каждой из N точек xi
Для проверки гипотезы об адекватности модели рассмотрим две суммы квадратов:
1) сумму квадратов, характеризующую неадекватность модели, формируемую следующим образом:
Эта сумма зависит от разности между рассчитанными по модели и наблюдаемыми значениями выходной переменной. Причем включение числа точек m, по которым проводилось усреднение значений yi, объясняется следующим соображением: при одном и том же значении разности модель тем грубее, чем большее число точек использовано для вычисления средних значений выходной переменной yi.
Соответствующее значение выборочной дисперсии ошибки, вызванной неадекватностью модели рассчитывается следующим образом:
12=S1/N-k
2) сумму квадратов, характеризующую собственно ошибки наблюдений:
Соответствующее значение выборочной дисперсии ошибок наблюдений:
22=S2/N(m-1)
В пользу гипотезы об адекватности используемой модели говорит малое значение дисперсии 12. Напротив, увеличение значений 12 указывает на то, что использованная нами модель недостаточно точно описывает экспериментальные данные, то есть является недостаточной адекватной реальному процессу. Вопрос, следовательно, заключается в том, чтобы оценить, насколько малым должно быть значение 12, чтобы с достаточной степенью доверия утверждать, что модель является адекватной. Для этого используют отношение следующего вида:
F= 12/ 22
Показано [ 36 ], что в случае, когда модель адекватна, распределение случайного значения F может быть описано с помощью F-распределения с числом степеней свободы (N-k),m(N-1). Следовательно, для заданного уровня доверительной вероятности , характеризующей достоверность решения об адекватности модели, по таблице F- распределения можно определить критическое значение Fкр, для которого:
P{F>Fкр)=1-.
Рассчитав на основе экспериментальных данных значение F и сравнив его с критическим значением Fкр можно утверждать что:
- модель адекватна, если F Fкр;
- в противном модель неадекватна, а значит, необходимо ее уточнение на уровне структуры.
Лекция 8.doc
Лекция 8. Кластерный анализ многомерных экспериментальных данных.
Еще одной достаточно распространенной задачей многомерного статистического анализа в процессе обработки экспериментальных данных является задача, цель которой состоит в разбиении всей совокупности исследуемых объектов, на группы “схожих” по характеризующим их признакам объектов, называемых кластерами. Результаты исследований применительно к рассматриваемой задаче могут быть представлены табл. 8.1 размера (nxk) , где n- число регистрируемых в процессе эксперимента признаков; k - число исследуемых объектов; xij, i=1,...,n;j=1,..,k – значения i-го признака, зарегистрированные у j-го объекта.
Таблица 8.1
Структура экспериментальных данных в методе кластерного анализа.
Объекты Признаки | 1 | 2 | ................. | k |
s1 | x11 | x12 | .................. | x1k |
s2 | x21 | x22 | .................. | x2k |
............................................ | .................. | .................... | .................. | ............... |
sn | xn1 | xn2 | .................. | xnk |
Основная цель кластерного анализа заключается в том, чтобы разбить всю совокупность исследуемых объектов на группы “схожих” по своим свойствам объектов, называемых кластерами. Методы кластеризации довольно разнообразны и различаются по реализованным в них способам определения близости между кластерами, между объектами в пределах одного кластера, а также в зависимости от конкретных алгоритмов вычислений.
Наибольшей наглядностью представления результатов обладают так называемые аггломеративные (объединительные) методы [1]. Они начинают с создания элементарных кластеров, каждый из которых состоит ровно из одного исходного объекта с последующим объединением двух наиболее близких (в рамках принятого способа вычисления расстояния между объектами) в один. Графическое изображение процесса объединения кластеров называется дендрограммой или деревом объединения кластеров. Результаты кластеризации с использованием объединительных методов зависят от конкретного способа вычисления расстояний между объектами и между кластерами. Эта зависимость тем сильнее, чем менее явно исследуемая совокупность разбивается на группы.
Проиллюстрируем аггломеративные процедуры кластерного анализа применительно к приведенной выше таблице результатов наблюдений. Предметом исследований является оценка близости свойств объектов 1,…k.
Первый шаг предполагает вычисление расстояний rij, i=1,...,n; j=1,..,k между всеми парами исследуемых объектов. Существуют различные подходы к вычислению расстояний rij.
1. Евклидово расстояние, определяемое как расстояние между двумя точками (объектами) в пространстве значений признаков. Применительно к рассматриваемой структуре представления данных наблюдений, расстояние rij между объектами i,j определяется следующим образом:
2. Квадратичное евклидово расстояние
Очевидно, что такой способ вычисления расстояний между объектами обладает большей чувствительностью к различиям их свойств, чем рассмотренный выше.
3. Расстояние, формируемое как сумма абсолютных невязок
позволяет получать “усредненную” оценку расстояний между объектами по исследуемым признакам. Во многих случаях это расстояние совпадает с евклидовым расстоянием. Однако заметим, что при таком способе вычисления расстояний влияние больших различий сглаживается.
4. Расстояние Чебышева
целесообразно использовать тогда, когда объекты интерпретируются как различающиеся, если они различаются по крайней мере по одному из исследуемых признаков.
5. Взвешенное расстояние:
где p,t- параметры, устанавливаемые пользователем. Такой способ вычисления расстояний позволяет устанавливать различные веса невязок, как для отдельных значений (за счет параметра р), так и взвешивать невязки по всей совокупности измерений.
6. Расстояние, как процентная мера числа несовпадений:
Определив k(k-1)/2 значений rij, i,j=1,..,k; ij для различных пар исследуемых объектов можно определить первый кластер K1 = {i1 i2}, объединяющий объекты с номерами i1,i2[1,..,k], расстояние между которыми минимально: