73154-1 (602975), страница 2
Текст из файла (страница 2)
В геохимических системах в качестве случайности выступает частичная непредсказуемость результата эксперимента (при отборе и анализе проб). Действительно, истинное значение концентрации элемента в определенной точке геологического объекта совершенно определенное и является закономерным результатом геохимических процессов. Но при отборе и анализе проб (данный комплекс условий эксперимента) мы в каждой конкретной точке получаем значения концентраций, колеблющихся с определенной надежностью около определенного значения, т.е. имея многократное повторение процесса опробования можно рассматривать колеблющиеся в определенных пределах значения концентраций как случайные события. Рассматривая концентрации как случайные величины, можно выделить два случая:
а) изучаемая величина по своей природе не является случайной, но методы ее измерения (комплекс условий) обладают некоторой погрешностью, которая приводит к случайным значениям. Примером может служить анализ одной и той же пробы без расхода аналитического материала (ядерно-физический способ). Погрешность способа анализа будет выступать в качестве случайности в получении результата. Это классический пример применения вероятностных методов к теории ошибок, впервые изложенный Далласом [81];
б) Изучаемая величина является случайной относительно общего комплекса условий по своей природе. Задача определения среднего содержания в геологическом объекте по сериям отобранных проб при измерениях содержаний в отдельных пробах с абсолютной точностью. Колебания значений среднего содержания по сериям в этом случае также будут иметь место.
Таким образом, в геохимии имеют место случайные события, и это совершенно не противоречит физико-химическому подходу к изучению геологических объектов.
В общем случае значения концентраций в геохимических системах из-за частичной непредсказуемости результатов по вышеуказанным причинам могут рассматриваться как случайные величины, к которым применимы вероятностные методы изучения, с помощью статистических моделей, которые бывают двумерными и многомерными [44, 47] .
Для кристаллохимических связей характерна двумерная модель, в которой объект исследования рассматривается как двумерная статистическая совокупность с двумерной функцией распределения случайных величин X и У. В данном случае связи близки к функциональным, элемент случайности возникает из-за ошибок измерений коррелируемых величин. Между двумя случайными величинами проявляются стохастические (вероятностные) связи, когда заданному значению случайной величины X = х соответствует не определенное значение У, а некоторый набор ее значений –у1, у2, у3 …уn; каждое из которых характеризуется определенной вероятностью -p1, p2, p3 …pn. Функция распределения величины У, соответствующая значению Х=х характеризуется математическим ожиданием ` Ух и дисперсией .
Распределения величины У соответствующие выбранным значениям величины X, называются условными распределениями, а дисперсии условными дисперсиями. Геометрическое место точек, соответствующих центрам условных распределений ` ух называется регрессионной зависимостью, а уравнение ее - уравнением регрессии. Аналогично каждому значению распределения величина У=у соответствует некоторая функция распределения величины X с математическим ожиданием ` ху и дисперсией
.
Система из двух случайных величин всегда будут соответствовать две регрессионных зависимости:
ух=f (x) и ху=f (у)
В частном случае зависимости могут быть линейными, в общем случае - нелинейными.
Для линейной регрессии система уравнений имеет вид:
у = а1+в1× х (регрессия у на х);
х = а2+в2× у (регрессия х на у).
Уравнения нелинейной регрессии соответствуют более сложной зависимости, но практически всегда могут быть аппроксимированы по частям уравнениями прямых или полиномами до третьего порядка.
В общем, регрессия может быть однозначно описана, если известей вид уравнения и значения коэффициентов при неизвестных. Остановимся на анализе линейной регрессии. В системе двух уравнений линейной регрессии коэффициенты а1 и а2, определяют положения начальных точек уравнений и называются коэффициентами пересечения или свободными членами уравнений [2, 34, 44, 48]. При а1 = а2, =0 уравнения исходят из начала координат.
Степень зависимости (тесноты связи) случайных величин определяется коэффициентами линейной регрессии - в1 и в2, геометрически они представляют собой тангенсы углов наклона прямых регрессии к осям абсцисс и ординат (a и b ). В общем случае прямые регрессии имеют общую точку пересечения с координатами в виде математических ожиданий величин X и У , а угол g между ними изменяется в пределах (0-90°) и характеризует также связь между величинами (чем меньше g , тем теснее связь, g =0 связь - функциональная, т.к. обе линии сливаются, в1= 1 / в2 или в1× в2=1)
Основными числовыми характеристиками двумерного распределения случайных величин являются показатели их связи: для линейной регрессии - коэффициент корреляции и корреляционный момент (ковариация); для нелинейной регрессии - корреляционное отношение [2, 44, 75].
Коэффициентом корреляции r между случайными величинами х и у называется математическое ожидание произведения их нормированных отклонений:
где Мх и Му – центры распределения величин х и у, и
- их дисперсии. Коэффициент корреляции r может быть представлен в следующей форме:
Величина М(х-Мх)(у-Му) называется корреляционными моментом (ковариацией) – COV (x;y).
Коэффициент корреляции – величина безразмерная с пределами изменения - ± 1. При r =0 линейная связь полностью отсутствует. Знак r (+) или (-) указывает на характер связи (прямая или обратная).
Равенства | r | =1 означает наличие линейной функциональной зависимости между величинами х и у.
Несмещенными и состоятельными оценками математических ожиданий Х= Мх и У=Му служат эмпирические средние значения:
;
Несмещенными и состоятельными оценками дисперсии и
служат эмпирические дисперсии:
Несмещенной и состоятельной оценкой корреляционного момента служит эмпирический корреляционный момент (ковариация)
По этим оценкам определяют эмпирический коэффициент корреляции:
который дает состоятельную, но смещенную оценку теоретического коэффициента корреляции r (смещение , при n>50 составляет менее 1%).
Значимость r проверяется путем сравнения величины |r| × с его критическими значениями Н при заданной надежности r . При |r| ×
> H гипотеза о корреляционной связи подтверждается с надежностью r . Доверительные оценки r сложны и разработаны для случая нормального совместного распределения вероятностей величин X и У. Для приближенных доверительных оценок истинного значения коэффициента корреляции имеются номограммы[322]. Эмпирический коэффициент r может быть оценен оперативно графическим способом [44]. Доверительные интервалы для эмпирического коэффициента корреляции r, при малом количестве наблюдений n позволяет определить следующее преобразование, предложенное Р. Фишером:
Величина Z при небольших n с хорошим приближением следует нормальному закону cо средним
и дисперсией
Это позволяет построить доверительный интервал [ Z1, Z2] для MZ по формуле:
откуда следует, что истинное значение r с той же доверительной вероятностью ( 1-a ) заключено в пределах:
th Z1 < r< th Z2
где th - гиперболический тангенс аргумента, определяемый по таблицам. Использование Z-преобразованной величины r-оказывается более предпочтительным [76]. Параметры эмпирической прямой регрессии у на х оцениваются по формулам:
где ву/х - эмпирический коэффициент регрессии у на х.
Параметры линейной функции удовлетворяют принципу наименьших квадратов
по у: сумма квадратов отклонений наблюденных значений уi от
рассчитанных по уравнению прямой регрессии меньше, чем сумма квадратов отклонений их от любой другой прямой, т.е. имеет место не
равенство:
Наименьшая сумма квадратов отклонений наблюденных значений уi от линейной функции Ахi + B, т.е. сумма квадратов отклонений их от значений может быть выражена через эмпирический коэффициент регрессий по формуле:
Аналогичен подход по оценке параметров прямой регрессии x на у. Доверительные оценки параметров прямой регрессии у на х (аналогично х на у) выполняются с использованием суммы квадратов отклонений измеренных значений yi от рассчитанных по уравнению прямой регрессии. Принято, что все ошибки измерения независимы и следуют нормальному закону распределения около нуля с дисперсией s 2. Для теоретической прямой регрессии y =` y – ву/х (х-` х) доверительными границами для ` у служат:
а доверительными границами для ву/х служат
где t - значение коэффициента надежности из таблиц распределения Стьюдента при числе степеней свободы R =n-2 [134].
Доверительные оценки отклонения теоретической прямой регрессии от эмпирической для фиксированных значений аргумента x-x0 определяются как:
Необходимо отметить, что эта оценка значительно ухудшается при удалении от среднего значения Мх-` x, это указывает на опасность экстраполяции прямой регрессии за пределы интервала значений аргумента.
Для проверки гипотезы о том, что значения ` у /х подсчитанные по уравнению для каждого х, лежат на прямой, проводят поинтервальную оценку. Для каждого интервала (их количество l>8-10) подсчитывают условное среднее значение ` у /хj и условную дисперсию по формулам:
где mj - число точек ( xij, yij,) в j -том интервале, а затем вычисляют параметр:
Если F превосходит критическое табличное значение при числах степеней свобода K1=l-2; K2=n-l надежностью P гипотезу о линейном характере усредненной зависимости y от x следует поставить под сомнение [70, 76, 80].
В случае нелинейной корреляции в качестве меры тесноты связи, т.е. меры концентрации экспериментальных точек около усредненных кривых регрессии, применяется корреляционное отношение h y/x для зависимости у от x или h y/x для зависимости x от y.
Корреляционные отношения вычисляются по формулам:
где обозначения, те же, что в приведенных выше выражениях, причем mj’ и l’ имеют тот же смысл для x, какой mJ и l - для у. Корреляционные отношения удовлетворяют неравенствам: