Определение характеристик распределения по экспериментальным данным
2.8 определение характеристик распределения по экспериментальным данным
2.8.1 Статистические ряды
В статистике используются понятия генеральной совокупности и выборки. Пример генеральной совокупности - данные о прочности какой-либо марки стали по ВСЕМ металлургическим заводам страны. Обычно оперируют с частью генеральной совокупности, отобранной для анализа - ВЫБОРКОЙ. Пример выборки - данные о весе снежного покрова за ряд лет по одной метеостанции.
Упорядоченные по величине результаты опытов или наблюдений (например, расположенные в порядке возрастания значений) называют ВАРИАЦИОННЫМ РЯДОМ. Результаты проведенных наблюдений образуют ЭМПИРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ.
Разность наибольшего и наименьшего членов ряда R = Xn - X1 называется РАЗМАХОМ эмпирического распределения, а число наблюдений n - объемом выборки.
Функцией распределения случайной величины для данного статистического материала (ВЫБОРКИ) будет частота события < X, где X - любое возможное значение случайной величины .
Значение статистической функции распределения легко вычислить, подсчитав число опытов m, в которых величина приняла значение, меньшее, чем X, и разделив его на общее число произведенных опытов n.
(2.20)
Вместо зависимости (2.20) часто используют зависимость
Рекомендуемые материалы
, (2.21)
дающую средние значения частот. Эта зависимость хороша для значений случайной величины , близких к средним, однако, в области крайних значений (m0, mn) она дает искаженные результаты.
Имеются и другие предложения, например
(2.22)
Эта зависимость определяет МЕДИАНЫ частот распределения.
P(X)
| График статистической функции распределения представляет собой ступенчатую ломаную линию. Если переменная Х в результате опыта принимает одно и то же значение Хi несколько раз, этому соответствует более высокий скачок графика в точке Хi. |
0 X1 Хn X
При большом числе наблюдений с простой статистической совокупностью становится работать неудобно. В этом случае на основе обработки строится СТАТИСТИЧЕСКИЙ РЯД.
Диапазон наблюдений значений величины делят на интервалы (разряды). Определяется количество попаданий значений в каждый интервал.
Обычно число интервалов выбирают в пределах 10 - 15, при малых объемах выборки 5-6. Однако во многих случаях для анализа больших выборок число интервалов увеличивают. В монографии Л. П. Пилюгина [11], где оценивается надежность строительных конструкций на основе метода преобразования рядов распределения, число интервалов выбирается в пределах 20 - 25. Если значение попадает на границу интервалов, то его можно отнести к обоим интервалам, прибавив к числу попаданий m того и другого разрядов по 1/2.
Ниже в таблице обработаны результаты испытаний чистых стандартных образцов древесины сосны на сжатие. По табличным значениям построена гистограмма распределения предела прочности, ступени которой напоминают график кривой плотности нормального закона распределения Гаусса.
Таблица Обработка результатов испытаний древесины сосны на сжатие
№ интер- вала | Интервал, МПа | Середина интервала, МПа | Число зна чений в интервале mi | ||
1 2 3 4 5 6 7 8 9 10 | 35 - 36,9 37 - 38,9 39 - 40,9 41 - 42,9 43 - 44,9 45 - 46,9 47 - 48,9 49 - 50,9 51 - 52,9 53 - 54,9 | 36 38 40 42 44 46 48 50 52 54 | 2 3 8 21 31 27 15 12 2 1 | 0,0164 0,0246 0,0656 0,1721 0,2541 0,2213 0,1230 0,0984 0,0164 0,0082 | 0,0164 0,0410 0,1066 0,2787 0,5328 0,7541 0,8771 0,9755 0,9919 1,0000 |
Итого: | n = 122 |
|
0,25- =====
| | |
| | =====
| | | |
| ===== | |
| | | | =====
| | | | | |
| | | | | ====
| ===== | | | | |
| | | | | | | |
| ===== | | | | | =====
| ===== | | | | | | | |
| | | | | | | | | | =====
-----------------------------------------------------------------------------------------------
35 37 39 41 43 45 47 49 51 53 55
σmax, МПа
|
35 37 39 41 43 45 47 49 51 53 55 σmax, МПа
По данным этой же таблицы можно построить график суммы частот попадания в соответствующие интервалы, соответствующий интегральному закону распределения предела прочности древесины для данной выборки, называемый эмпирической функцией распределения.
Числовые характеристики - МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ДИСПЕРСИЮ эмпирического распределения обычно определяют по приближенным формулам:
(2.23)
2.8.2 Выравнивание статистических рядов
Для выявления наиболее существенных черт статистического материала и исключения случайностей, связанных с погрешностями или недостаточным объемом экспериментальных данных, производят обработку статистических данных, называемую ВЫРАВНИВАНИЕМ статистического ряда.
Вид теоретической кривой распределения обычно, но не всегда выбирается заранее из общих соображений, в том числе ВНЕШНЕГО вида графика статистического распределения. Задача сводится к выбору наиболее подходящих параметров распределения, при которых соответствие между статистическим и теоретическим распределением оказывается наилучшим.
Чаще всего используют известный метод НАИМЕНЬШИХ КВАДРАТОВ, основанный на том, чтобы сумма квадратов отклонений экспериментальных точек от аппроксимирующей кривой была минимальной. Используется также МЕТОД МОМЕНТОВ, согласно которому для функции, зависящей, например, от 2-х параметров, параметры кривой распределения подбираются таким образом, чтобы математическое ожидание и дисперсия теоретического распределения совпадали с их статистическими оценками. Если число параметров больше двух, используется такое число эмпирических (выборочных) моментов, сколько имеется параметров.
К оценкам параметров закона распределения предъявляются требования СОСТОЯТЕЛЬНОСТИ, НЕСМЕЩЕННОСТИ и ЭФФЕКТИВНОСТИ.
Статистическая оценка называется СОСТОЯТЕЛЬНОЙ, если она сходится по вероятности к оцениваемому теоретическому параметру при увеличении числа наблюдений.
Статистическая оценка называется НЕСМЕЩЕННОЙ, если ее математическое ожидание равно оцениваемой характеристике.
Несмещенная статистическая оценка называется ЭФФЕКТИВНОЙ, если она имеет наименьшую возможную дисперсию.
Оценки, полученные методом моментов, часто бывают СМЕЩЕННЫМИ и НЕЭФФЕКТИВНЫМИ. Метод наименьших квадратов, как и некоторые другие (метод наименьших абсолютных уклонений, метод МИНИМАКСА - наименьшего максимума абсолютных отклонений) являются приближенными.
Наилучшим считается метод МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ. Этот метод основан на том, что функция плотности вероятности зависит не только от значений переменной , принявшей значения Х1, Х2, Х3, ... Хn, но и от значений параметров θ1, θ2, θ3…θn, то есть при фиксированных значениях Хi случайной величины рассматривается функция МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ.
.
Задача состоит в том, чтобы найти такое распределение , которое наилучшим образом соответствовало выборочному набору значений Хi. Соответствие распределения, зависящего от θ и набора наблюдений (X1, X2, X3, ..... Xn), означает, что вероятность получить тот же самый набор значений случайной величины при другом значении параметра θ меньше. Задача состоит в том, чтобы найти такое значение параметра θ *, при котором для фиксированных значений X1, X2, X3, ..... Xn выполняется условие
(2.24)
Известно, что точка максимума не изменится, если вместо L(θ) рассматривать
ln L(θ) = ln(θ).
Функция ln(θ). называется ЛОГАРИФМИЧЕСКОЙ ФУНКЦИЕЙ ПРАВДОПОДОБИЯ. Она удобнее в использовании при решении задачи.
Так как X1, X2, X3, ..... Xn - независимые одинаково распределенные случайные величины, то в соответствии с формулой (1.7)
(2.25)
13 Коммуникационная сеть - лекция, которая пользуется популярностью у тех, кто читал эту лекцию.
и
(2.26)
Для отыскания максимума функции (2.26) решают уравнение правдоподобия
(2.27)
Оценки математического правдоподобия при выполнении условия РЕГУЛЯРНОСТИ состоятельны, асимптотически нормальны и эффективны [17], а решение уравнений правдоподобия единственно. Таким образом, метод дает асимптотически наилучшие оценки: несмещенные с наименьшей дисперсией.
Для оценки соответствия между выбранной теоретической кривой и выборочными данными (X1, X2, X3,....Xn) используют КРИТЕРИИ СОГЛАСИЯ. Для плотности распределения наиболее употребим критерий ПИРСОНА.