2_Статист (Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ)
Описание файла
Файл "2_Статист" внутри архива находится в папке "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ". Документ из архива "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ", который расположен в категории "". Всё это находится в предмете "математический анализ" из 8 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "высшая математика" в общих файлах.
Онлайн просмотр документа "2_Статист"
Текст из документа "2_Статист"
23
Глава | 2. | методы Описательной статистики |
Методы систематизации данных и выявление статистических закономерностей составляет основное содержание математической статистики. Так как исходной базой для всех построений математической статистики является рассмотрение результатов опыта или наблюдений как выборки из некоторой генеральной совокупности, то математическая теория выборки является центральным разделом математической статистики. Основу ее представляют методы статистической оценки распределения и характеристик генеральной совокупности.
Задачу об оценке можно разделить на две:
-
какую величину, подсчитанную по выборке, принять в качестве приближенного значения характеристики генерального распределения точечные оценки;
-
в каком интервале вокруг этой величины будет заключена с заданной надежностью искомая характеристика интервальная оценка.
К основным методам статистического анализа относятся методы аналогий, моментов, наименьших квадратов, суть которых состоит в следующем.
Метод аналогии заключается в том, что для оценки параметров генерального распределения выбираются аналогичные параметры характеристики выборочного распределения.
Метод моментов заключается в замене теоретических моментов случайной величины их выборочным оценкам, причем составляется столько уравнений, сколько неизвестно выборочных параметров.
Метод наименьших квадратов заключается в том, что статистика определяется из условия минимизации суммы квадратов отклонений выборочных данных от определяемой оценки.
Метод максимального правдоподобия основан на выборе такого значения оценки параметров, которое дает максимум плотности распределения, для этой оценки как случайной величины.
Для оценки неизвестного параметра генеральной совокупности введем некоторую величину , являющуюся функцией измерений = (x1, x2, ..., xn), называемую статистикой.
Статистикой называется любая функция результатов опытов, которая не зависит от неизвестных статистических характеристик.
Оценка статистической характеристики называется состоятельной, если она сходится по вероятности к при неограниченном увеличении числа опытов.
Оценка параметра называется несмещенной, если ее математической ожидание равно при любом числе опытов.
Оценка называется эффективной, если она обладает наименьшей дисперсией по сравнению с любыми другими оценками.
Статистика называется достаточной, если знание любых других статистик не дает никакой дополнительной информации о , сверх той которая содержится в .
Случайный интервал, полностью определяемый результатами опытов и не зависящий от неизвестных характеристик, который с заданной вероятностью накрывает неизвестную скалярную статистическую характеристику , называется доверительным интервалом для этой характеристики, соответствующим коэффициенту доверия . Величина 1- называется уровнем значимости отклонения оценки. Концы доверительного интервала называются доверительными границами.
Основные посылки статистических методов основаны на центральной предельной теореме. Ее частным случаем является теорема Муавра-Лапласа. Предположим, что в каждом из n испытаний вероятность p события A остается неизменной. Теорема Муавра-Лапласа заключается в следующем: пусть n - число испытаний по схеме Бернулли; p - вероятность ‘успехов’, тогда k- число ‘успехов’ в n испытаниях при n стремится к нормально распределенной СВ с параметрами Mk=np и Dk=npq, т.е.
Утверждение теоремы позволяет использовать последнее соотношение для приближенного вычисления вероятности отклонения частоты от вероятности ‘успеха’ в схеме повторных испытаний.
2.1 Точечные оценки и доверительные интервалы
В качестве основных характеристик, используемых в статистических методах обработки данных являются оценки математического ожидания и дисперсии показателей функционирования деятельности предприятий.
2.2 Оценки среднего, дисперсии и ковариации
Выборочное среднее экспериментальных значений x1,x2,...,xn
является оценкой математического ожидания.
На основании свойств математического ожидания и дисперсии для характеристик выборочного среднего получим:
Выборочное среднее случайной величины с конечными моментами первого и второго порядков сходится к математическому ожиданию по вероятности при неограниченном увеличении числа опытов. Выборочное среднее - состоятельная и несмещенная оценка математического ожидания.
Выборочная дисперсия является оценкой дисперсии. Математическое ожидание выборочной дисперсии равно . При этом дисперсия оценки дисперсии равна:
Полученное соотношение для дисперсии показывает, что оценка s2 является состоятельной оценкой. Однако, как показано, оценка s2 является смещенной оценкой дисперсии, и поэтому в качестве несмещенной и состоятельной оценки дисперсии используют:
Statistica. В табл.1. приведены оценки средних значений и СКО расстояний перевозок для анализируемых автоколонн. Оценки средних вычисляются в модуле Basic Statistics>Discriptive Statistics с указанием необходимости вычисления «Means » и «Diviation ».
Таблица | 2.1. |
Среднее расстояние пробега
Код автоколонны | Среднее расстояние автоперевозок | СКО для средних расстояний перевозки |
K41 | 46,6861 | 7,83870 |
K42 | 104,0972 | 29,36506 |
K31 | 24,9667 | 4,15176 |
K32 | 48,7139 | 2,26655 |
F5 | 29,4528 | 5,78167 |
K7 | 24,9444 | 1,66381 |
F8 | 32,7222 | 3,17248 |
K9 | 41,7306 | 3,42293 |
K121 | 33,6000 | 2,41685 |
K122 | 43,5333 | 4,49857 |
F14 | 52,6583 | 7,02263 |
F18 | 46,6861 | 4,47910 |
K161 | 43,9472 | 3,02792 |
K162 | 39,9861 | 2,41106 |
V151 | 41,6278 | 4,14264 |
V152 | 40,8306 | 7,34212 |
V153 | 20,3500 | 1,55720 |
V154 | 26,9111 | 5,79905 |
V156 | 35,9778 | 3,51455 |
All Groups | 41,0222 | 19,04267 |
Анализ таблицы показывает существенное превосходство среднего расстояния для колонны К42. Как видно из таблицы для автоколонны К42 средне-квадратическое отклонение также больше остальных. Можно сделать вывод - чем больше расстояние перевозки, тем больше его неопределенность (разброс).
В качестве графической интерпретации двух полученных оценок одновременно интересен график коробка-усы, который дает графический образ для оценок среднего и СКО. Так на рис.1. приведен график коробка-усы для среднего расстояния перевозок каждой из колонн автокомбината. Данные на графике делятся на четыре равные части, соответствующие квантилям распределения. Центральная точка представляет оценку среднего значения, стороны квадрата определяют границы стандартной ошибки, а "усы" - границы стандартного отклонения.
Среднее расстояние перевозок колонн автокомбината
Рис. | 2.1. |
График Коробка-Усы - эффективный способ графического представления характеристик выборки. Он позволяет выявить далеко отстоящие наблюдения и асимметрическое поведение данных. Анализ графика показывает, что для колонны К42 это среднее существенно превышает остальные, при этом СКО также существенно больше остальных. Эта автоколонна специализируется на дальних перевозках. Из рисунка также видно, что колонны К7 и V153 имеют очень маленький разброс расстояний перевозок. Это говорит о стабильности районов обслуживания.
Помимо математического ожидания и дисперсии, как наиболее используемых характеристик распределения, применяются и ряд других характеристик, используемых для более тщательного анализа структур данных.
Модальное значение (мода) xmod случайной величины определяется как такое возможное значение исследуемого признака, при котором значение плотности f(x) (в непрерывном случае) или {P(x)} (в дискретном случае) достигает своего максимума.