rpd000003197 (1012246), страница 32
Текст из файла (страница 32)
nij- количество экспериментов, в процессе которых регистрировалось одновременное появление комбинации признаков xi, yj; ni.,i=1,...,r- число исследований, в процессе которых регистрировалось появление признака xi в комбинации с любым (неважно каким признаком) yj, j=1,...,s; n.j,j=1,...,s- число экспериментов, в процессе которых регистрировалось появление признака yj в комбинации с любым (неважно каким признаком) xi, i=1,...,r; n- общее число исследований.
Поскольку, для независимых признаков P(xiyj) = P(xi)P(yj), тогда, переходя от вероятностей к их частотам, при справедливости гипотезы о независимости признаков X,Y для любых номеров i=1,...,r; j=1,...,s должно выполняться условие: nij (ni. n.j)/n
Для проверки выполнения указанного условия используется статистика Фишера-Пирсона следующего вида:
Теорема Фишера-Пирсона утверждает [32], что в случае независимости признаков X,Y статистика X2 имеет распределение 2 с числом степеней свободы (r-1)(s-1). Следовательно, предположение о независимости признаков должно быть отвергнуто, если X2 2,,где 2 - квантиль распределения 2, соответствующая доверительной вероятности : P(2 < 2) =. Ранее неоднократно указывалось, что достаточная достоверность выводов достигается при использовании уровней доверительной вероятности =0.95, =0.99, =0.999.
В этом случае вероятность получить значение статистики, превышающее 2, очень мала P(Х2 2) =1-, что является достаточным основанием, чтобы утверждать наличие статистически значимой связи качественных признаков, характеризующих экспериментальный объект.
7.2. Оценка статистической связи признаков, выраженных в порядковых шкалах. Коэффициенты ранговой корреляции.
Предположим по-прежнему, что состояние исследуемого объекта характеризуется парой признаков Х,Y. Пусть в результате проведенного исследования измерения признаков Х,Y проведены в порядковой шкале, отражающей c помощью тестовых баллов степень выраженности каждого из них. В результате сформированы выборки реализаций х1,...,хn и y1,..., yn.
Порядок анализа статистической взаимосвязи признаков в этом случае проводится следующим образом [32]:
1) выполняется ранжирование реализаций х1,...,хn. Предположим, что результатом проведенного ранжирования является последовательность чисел r1,...,rn.;
2) проводится ранжирование реализаций y1,...,yn. Допустим, что результатом проведенного ранжирования является последовательность чисел s1,...,sn .
Очевидно, если признаки Х,Y взаимосвязаны, то изменение значений признака Х в какой то степени сопровождается соответствующим изменением признака Y и наоборот. Следовательно, порядок в котором следуют числа х1,...,хn в определенной степени влияет на порядок в котором следуют числа y1,...,yn. Это, в свою очередь, означает, что последовательность рангов r1,...,rn в какой-то мере влияет на последовательность рангов s1,...,sn. Напротив, если признаки Х,Y независимы, то изменение значений признака Х ни в какой мере не влияет на изменение признака Y, то есть при любом наборе рангов r1,...,rn возможны любые перестановки рангов s1,...,sn.
Проблема, следовательно, состоит в выборе меры сходства двух наборов рангов. В качестве такой количественной меры используется коэффициент ранговой корреляции Спирмена. В качестве меры близости ранговых последовательностей r1,...,rn и s1,...,sn используется скалярная величина:
Очевидно, что Smin = 0 тогда и только тогда, когда ri= si для всех i=1,...,n. Напротив, Smax =(n3-n)/3 , если si= n - ri + 1 для всех i=1,...,n. Чтобы ослабить влияние объема выборки n на оценку степени сходства ранговых последовательностей используют коэффициент ранговой корреляции Спирмена:
=1 только в случаях полной предсказуемости ранговых последовательностей, что соответствует случаям S=Smin, S=Smax.
Оказывается, что при справедливости гипотезы о независимости признаков, распределение коэффициента подчиняется определенным статистическим закономерностям, выраженным законом распределения значений . Для малых объемах выборки n составлены точные таблицы распределения значений коэффициента Спирмена. При больших объемах выборки n (n 30) для проверки предположения о независимости признаков используется случайная величина
имеющая стандартное t- распределение (распределение Стьюдента) с числом степеней свободы n-2. Следовательно, предположение о независимости признаков в этом случае должно быть отвергнуто, если оказывается малой вероятность p=P{tT}. Как уже неоднократно указывалось достаточным основанием, чтобы отвергнуть основное предположение является выполнение условия p p*, где p* – стандартный уровень значимости (p*=0.001, p*=0.01 или p*=0.05).
7.3. Оценка статистической связи признаков, выраженных в количественных шкалах.
Предположим, что в каждом эксперименте состояние исследуемого объекта характеризуется парой признаков Х,Y, каждый из которых представляет собой непрерывную случайную величину, то является количественным признаком. В результате серии экспериментов сформированы выборки реализаций х1,...,хn и y1,..., yn.
В этом случае в качестве количественной меры статистической связи случайных величин Х,Y выступает их корреляционный момент Kxy или коэффициент корреляции rxy, выборочные оценки которых можно получить по реализациям хi,yi,i=1,..,n.Выборочная оценка корреляционного момента
где x*, y*-выборочные средние случайных величин Х,Y:
Однако использование корреляционного момента Kxy в качестве меры связи признаков Х,Y не совсем удобно, так как при переходе к другим единицам измерений корреляционный момент тоже изменяется. Поэтому в качестве меры связи признаков используется не корреляционный момент, а коэффициент корреляции, выборочная оценка которого:
где - выборочные оценки среднеквадратических отклонений случайных величин Х,Y.
В общем случае, когда случайные величины Х,Y связаны произвольной вероятностной зависимостью, коэффициент корреляции может принимать любое значение в интервале -1 rxy 1, причем он равен предельным значениям rxy = 1 только в том случае, если случайные величины связаны линейной зависимостью
В случае независимости случайных величин Х,Y коэффициент корреляции равен нулю: rXY = 0. Обратное утверждение верно не всегда [32]. То есть, из условия равенства нулю коэффициента корреляции rXY = 0 в общем случае не следует независимость случайных величин. Однако, если совместное распределение пары случайных величин Х,Y оказывается нормальным, то равенство rXY = 0 означает их статистическую независимость. Поэтому проверка предположения независимости признаков Х,Y в этом случае сводится к проверке гипотезы H0: rXY= 0. Проблема непосредственной проверки сформулированной гипотезы в условиях реальных экспериментальных исследований, объем которых всегда ограничен, заключается в том, что истинное значение коэффициента корреляции нам неизвестно, для анализа доступен лишь его выборочный аналог
.
Известно, что в случае справедливости гипотезы H0: rXY= 0, распределение выборочного коэффициента корреляции симметрично и сконцентрировано около нуля, поэтому гипотезу о независимости признаков следует отвергнуть, если значение выборочного коэффициента корреляции слишком сильно отличается от нуля. Для поверки статистической значимости отклонений от 0 выборочного коэффициента корреляции
используется статистика следующего вида:
которая подчиняется распределению Стьюдента с числом степеней свободы n-2.
Учитывая, что Т – случайная величина «достаточно большим» является такое значение статистики, для которого выполняется неравенство /Т*/ Т/2, где /Т*/ – абсолютное значение статистики, рассчитанное на основе выборочных значений; Т/2 – значение квантили стандартного t-распределения с n-2 степенями свободы, соответствующее доверительной вероятности /2. Как неоднократно указывалось ранее достаточная достоверность результатов проверки гипотезы достигается на уровне =0.95, =0.99 или =0.999.
В том случае, если доказан факт наличия связи между случайными показателями Х,Y, возникает задача построения функциональной зависимости, описывающей эту связь. Для решения этой задачи используется аппарат регрессионного анализа.
Регрессионный анализ [36] объединяет широкий круг задач, связанных с построением функциональных зависимостей между переменными X и Y. Статистический подход к задаче построения функциональной зависимости Y=f(X) основан на предположении, что результате проведенных исследований сформированы пары значений (xi, yi) i=1,...,n. В основе регрессионной модели лежит предположение о том, что значение переменной Y может быть представлено в виде суммы двух составляющих, первая из которых закономерно зависит от X, то есть является функцией X, а вторая - случайна по отношению к X. То есть Y=f(X)+, где - некоторая случайная величина. Иногда называют ошибкой эксперимента, связывая её присутствие с несовершенством метода измерения значения Y.