Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 33
Текст из файла (страница 33)
5.3.Приведенные примеры показывают то разнообразие подходов, которое ис"пользуется в пакете при построении оценок параметров распределения.Покажем некоторые возможности прямых арифметических и функ"циональных преобразований пакета для непосредственных вычисленийна примере построения оценки одного из параметров логнормальногораспределения.Рис. 4.8. Пакет SPSS. Результаты расчетов процедуры «1"Sample K"S»Распределение Пуассона имеет стандартную параметризацию, при которойxP (ξ = x) =λ −λe ,x!x = 0, 1, . . . ,λ > 0.В качестве оценки параметра λ по выборке x1 , x2 , .
. . , xn в пакете исполь"зуется несмещенная эффективная оценка максимального правдоподобияλ̂ =n1xi .n i=1Для непрерывного равномерного распределения (17) Uniform в пакете исполь"зуется следующая параметризация:f (x, a, b) =1,b−aПример 4.2к. По выборке размера n = 18 из логнормальногораспределения с плотностью вероятности(lnx−µ)21f (x, µ, σ) = √e− 2σ2x 2πσпостроим оценку максимального правдоподобия параметра µ.Ïîäãîòîâêà äàííûõ.
Пусть выборка размером n = 18 из ло"гнормального распределения находится в переменной lognor редактораданных пакета. Выше указывалось, что требуемая оценка вычисляетсяпо формуле µ̂ = n1 ni=1 ln(xi ), где xi — элементы выборки.Âûáîð ïðîöåäóðû. Проще всего получить требуемую оценку,используя процедуру Compute.(a x b),где параметры a и b задают левую и правую границу распределения.
В каче"стве оценок параметров a и b в пакете используются оценки максимальногоправдоподобия:b̂ = x(n) ,â = x(1) ,где x(1) и x(n) — минимальный и максимальный элементы выборки. Указанныеоценки являются смещенными (их математические ожидания не равны a иb). Несмещенными оценками с минимальной дисперсией для этих параметровявляются величины:11(nx(1) − x(n) ),b∗ =(nx(n) − x(1) ).a∗ =n−1n−1Çàïîëíåíèå ïîëåé ââîäà äàííûõ. В окне ввода данных и пара"метров процедуры Compute (см.
рис. 2.19) задать в поле Target Variable имяпеременной, в которой будут находится логарифмы исходных данных,например, ln. В поле Numeric Expression задать функцию LN(lognor). После вы"полнения процедуры в редакторе данных появится переменная с именемln, в которой будут находиться логарифмы исходной переменной lognor.Для вычисления оценки µ̂ применить к переменной ln процедуруFrequencies из блока Descriptive Statistics меню Analyze редактора данных. Работаэтой процедуры подробно обсуждалась в п. 1.9.2.Для нормального распределения в пакете используется стандартная пара"метризация плотности распределения f (x, a σ)Êîììåíòàðèè. 1. Процедура Compute включает широкий круг стандарт"ных математических функций, работающих со скалярными и векторными пе"161162ременными. Результатом работы этих функций всегда является переменная,размер которой совпадает с максимальным размером переменных, загруженныхв редактор данных.
Так, например, вычисляя значение функции стандартно"го нормального распределения вероятностей в точке 1.5 с помощью выраженияCDFNORM(1.5), в результате будет выдана векторная переменная, каждое значениекоторой равно 0.93, а размер этой переменной будет определяться переменны"ми, ранее загруженными в редактор данных.
Такой порядок имеет свои плюсы(когда надо получить значения функции распределения сразу в нескольких точ"ках, указывая в качестве аргумента функции вектор содержащий координатыточек) и очевидные минусы.2. Наряду со стандартными математическими функциями эта процедурапозволяет работать с широким спектром специальных статистических функций,включая функции распределения вероятностей и обратные к ним (функцииквантилей), датчики случайных чисел и др.3.
Процедура Compute эффективно используется для выбора требуемого мас"сива наблюдений из общего массива данных загруженного в редактор пакета.Для этого в ней можно использовать арифметические и логические операциидля формирования фильтров отбора.5:…ƒ … …… Нормальное распределение играет особую роль в теории вероятно"стей и математической статистике. Как показывает практика, самыеразнообразные статистические данные с хорошей степенью точностиможно считать выборками из нормального распределения.
Примерамимогут служить помехи в электроаппаратуре, ошибки измерений, раз"брос попадания снарядов при стрельбе по заданной цели, рост наудачувзятого человека, скорость реакции на раздражитель и т.д. В главе 2отмечалось, что можно предполагать нормальное распределение у слу"чайной величины, если на ее отклонение от некоторого заданного зна"чения влияет множество различных факторов, причем влияние каждогоиз них вносит малый вклад в это отклонение, а их действия независимыили почти независимы.Кроме того, в силу центральной предельной теоремы и ее разновид"ностей (см. [24], [30], [118]) распределение целого ряда широко распро"страненных в статистике функций от случайных величин (статистик,оценок) хорошо аппроксимируется нормальным распределением.Прежде чем перейти к подробному разбору конкретных методованализа нормальных выборок, кратко охарактеризуем основные егоцели и возможные результаты.5.1.
……… О проверке нормальности распределения. Для исследованиянормальных (т.е. подчиняющихся нормальному распределению) данныхматематической статистикой выработаны эффективные методы. Строгоговоря, эти методы непригодны для данных другой природы (то естьони могут давать для них неправильные результаты). Поэтому, когдамы готовимся применить ориентированные на нормальное распределе"ние методы к имеющимся наблюдениям, полезно выяснить, похоже лираспределение этих наблюдений на нормальное.
С полной уверенно"стью сказать этого все равно будет невозможно, но по крайней мере отгрубых ошибок такие проверки могут нас уберечь.163164Методы установления закона распределения (или типа закона рас"пределения) выборки получили название критериев согласия. К нимотносятся критерии типа Колмогорова"Смирнова, хи"квадрат и омега"квадрат, критерии асимметрии и эксцесса и др.
Они подробно разби"раются нами в гл. 10. Одной из главных особенностей этих методовявляется требование достаточно больших объемов (сотни или дажетысячи) анализируемых данных для получения эффективных выводов.Другими словами, для небольших объемов данных эти методы способныотвергнуть предположение о нормальности только при довольно резкихотклонениях от нормального распределения. Если же истинный законраспределения данных не очень сильно отличается от нормального, тоэти критерии не отвергнут предположение о нормальности. В этойглаве мы ограничимся только рассказом об одном, самом наглядноми распространенном на практике методе проверки на нормальность —глазомерном (см.
п. 5.2).Рассматриваемые задачи. Анализ одной нормальной совокупно"сти сводится к двум взаимосвязанным типам задач: получению оценокпараметров нормального распределения и доверительных интерваловдля них и проверки гипотез о том что эти параметры равны заданнымзначениям. Мы рассмотрим эти задачи в п. 5.3 и 5.4.
Кроме того, в п. 5.4мы рассмотрим и задачу проверки того, равны ли средние и дисперсииу двух нормальных выборок.Стоит сказать, что методы, используемые для решения этих задач(критерии Стьюдента, Фишера и т.д.) очень широко используются ив более сложных задачах — в регрессионном, факторном и другихвидах анализа данных. Материал данной главы позволит Вам хорошоразобраться в их сути.Замечание. Стоит заметить, что для нормально распределенных выбо"рок самыми эффективными оценками параметров нормального распределенияявляются хорошо известные нам простые оценки — выборочное среднее и вы"борочная дисперсия.
Однако эти оценки имеют весьма существенный недоста"ток — они не устойчивы к грубым (ошибочным) наблюдениям или выбросам.Поэтому при их использовании следует соблюдать определенную осторожностьи внимательно изучать другие сопутствующие описательные характеристикивыборок (см. п. 1.8).Напомним еще раз те свойства нормального распределения, которыенепосредственно используются для анализа нормальных выборок.Нормальный закон распределения. Напомним, что случайная ве"личина ξ имеет нормальный (гауссовский) закон распределения, если еефункция распределения F (x) задается формулой: F (x) = Φ ((x − a)/σ) ,u2где Φ(u) = √12π −∞ e−t /2 dt — функция Лапласа, a и σ 2 — параметры165закона распределения. Как отмечалось выше, параметры a и σ 2 имеютнепосредственный вероятностный смысл: это соответственно математи"ческое ожидание и дисперсия случайной величины ξ.Свойства нормального распределения уже обсуждались в гл.