Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 64
Текст из файла (страница 64)
На экране появится запрос типараспределения вероятностей (рис. 10.4). Нажмите в нем кнопку 1 =нормальное (можно нажать клавишу «1»).Ðåçóëüòàòû. Выдача результатов процедуры (рис. 10.5) содержитв строке Распределение нормальное: 13.42, 0.1345 оценки среднего и стандарт"ного отклонения выборки, а также значение статистик Колмогорова иомега"квадрат для сложной гипотезы, их уровни значимости и объемвыборки в графе степ. своб. Сравнивая полученные уровни значимостис 5%, система выдает заключение Гипотеза 1: Распределение отличается оттеоретического для каждого из указанных выше критериев.ÑÎÃËÀÑÈÅ ÐÀÑÏÐÅÄÅËÅÍÈÉ.
Ôàéë: diamz.stdÐàñïðåäåëåíèå íîðìàëüíîå: 13.422, 0.13445Êîëìîãîðîâ=0.07175, Çíà÷èìîñòü=0.016229, ñòåï.ñâîá = 200Ãèïîòåçà 1: <Ðàñïðåäåëåíèå îòëè÷àåòñÿ îò òåîðåòè÷åñêîãî>Îìåãà-êâàäðàò=0.28287, Çíà÷èìîñòü=0.00035817, ñòåï.ñâîá = 200Ãèïîòåçà 1: <Ðàñïðåäåëåíèå îòëè÷àåòñÿ îò òåîðåòè÷åñêîãî>Рис.
10.5. Результаты проверки согласия для исходных данныхпотетической функций распределения для исходных данных. Указанныеграфики выводятся при ответе «Y» на запрос программы Вывести график.Проведем расчеты значений статистик Колмогорова и омега"квадратдля «цензурированных» данных. На рис. 10.7 приведены результатыпроцедуры в этом случае.ÑÎÃËÀÑÈÅ ÐÀÑÏÐÅÄÅËÅÍÈÉ. Ôàéë: diamz.stdÐàñïðåäåëåíèå íîðìàëüíîå: 13.416, 0.10765Êîëìîãîðîâ=0.045714, Çíà÷èìîñòü=0.47567, ñòåï.ñâîá = 199Ãèïîòåçà 0: <Ðàñïðåäåëåíèå íå îòëè÷àåòñÿ îò òåîðåòè÷åñêîãî>Îìåãà-êâàäðàò=0.036583, Çíà÷èìîñòü=0.82347, ñòåï.ñâîá = 199Ãèïîòåçà 0: <Ðàñïðåäåëåíèå íå îòëè÷àåòñÿ îò òåîðåòè÷åñêîãî>Рис. 10.7.
Результаты проверки согласия для цензурированных данныхКак видно из полученных результатов, данные без резко выделя"ющегося значения («цензурированные»), не противоречат гипотезе онормальности распределения. Графики эмпирической и подобранной ги"потетической функций распределения для «цензурированных» данныхприведены на рис. 10.6 (правая часть).Êîììåíòàðèè. Для нормального распределения расчеты статистик Колмо"горова и омега"квадрат включены также в процедуру 2=Гистограмма и нормальность.Ее работа будет разобрана в примере 10.2к.Причиной отвержения гипотезы о нормальном характере (по всейвыборке) данных, как это будет показано ниже, явилось одно «грубое»(аномальное) наблюдение. Механизм влияния этого наблюдения навычисляемые характеристики критериев следующий. «Грубое» наблю"дение заметно исказило значение оценки максимального правдоподобиядисперсии выборки (сравните значения оценок стандартного отклоне"ния на рис.
10.5 и 10.7), и тем самым повлияло на значения подобран"ной, согласно гипотезе, функции нормального распределения F (x, θ̂),где вектор θ = (x, s2 ). Эффект этого влияния хорошо виден на рис. 10.6(левая часть), где приведены графики эмпирической и подобранной ги"319В следующем примере будет рассмотрена реализация критерия со"гласия хи"квадрат для сложной гипотезы. В качестве выборочных дан"ных будет использован тот же массив диаметров головок заклепок.Пример 10.2к. Проверим согласие распределения выборки диа"метров головок заклепок (табл. 1.1) с нормальным распределением,используя критерий хи"квадрат. Проведем аналогичные расчеты для«цензурированной» выборки.Ïîäãîòîâêà äàííûõ — такая же, как в примерах 1.1к и 10.1к.Âûáîð ïðîöåäóðû. В меню Статистические методы следует выбратьпункт 2 = Гистограмма/нормальность. Работа этой процедуры, объединяющей320ГИСТОГРАММА И ТЕСТ НОРМАЛЬНОСТИ.несколько различных задач, рассматривалась в примерах 1.2к и 1.3кпри построении таблицы табуляции частот и гистограммы.Çàïîëíåíèå ïîëåé ââîäà äàííûõ.Файл: diamz.stdX;лев X;станд Частота%Накопл.%13.1 ;2.3913636313.2 ;1.64752412301513.3 ;0.90376733.59748.513.4 ;0.15991582915577.513.5 0.58387361819195.513.61.32778419999.513.72.07140019999.513.82.81520019999.513.93.5590019999.5144.30280019999.514.15.04660019999.514.25.79040019999.514.36.53410019999.514.47.27790019999.514.58.021710.520010014.68.7655Колмогоров=0.07175, Значимость=0.016229, степ.своб = 200Гипотеза 1: <Распределение отличается от нормального>Омега;квадрат=0.28287, Значимость=0.00035817, степ.своб = 200Гипотеза 1: <Распределение отличается от нормального>Хи;квадрат=511.55, Значимость=0, степ.своб = 13Гипотеза 1: <Распределение отличается от нормального>На экране появится окноАнализ переменной (рис.
10.3), в котором следует выбрать переменную dдля анализа. Далее последует запрос пакета о параметрах группировкиданных (рис. 10.8). Зададим число интервалов группировки равным 15,левую границу группировки данных — 13.1 и правую границу — 14.6,как это показано на рис. 10.8.Рис. 10.9. Результаты проверки нормальности распределенияРис. 10.8. Задание интервалов группировкиДиапазон группировки наблюдений здесь выбран исходя из мини"мального (13.13) и максимального (14.56) элементов выборки.
Числоинтервалов группировки выбрано так, чтобы длина интервала группи"ровки составила 0.1. Напомним, что в выборке есть одно резко выде"ляющееся наблюдение, которое мы расцениваем как грубо ошибочное.Если мы хотим включить в обработку и его, то трудно говорить о каком"то оптимальном выборе разбиения данных.
Все выборочные значения,кроме «грубого», сосредоточены в интервале (13.13, 13.69). Поэтомуправая половина указанного диапазона группировки содержит всего од"но наблюдение. Это влечет за собой образование (даже при маломчисле интервалов группировки) таких интервалов, ожидаемая частотапопадания в которые будет мала (такие интервалы будут располагатьсяна правом конце диапазона).
Из"за этого возникает проблема аппрок"симации распределения статистики критерия с помощью распределенияхи"квадрат, о чем будет подробнее сказано ниже.Ðåçóëüòàòû. Экран вывода результатов процедуры при введенныхпараметрах группировки представлен на рис. 10.9. (Описание формыэкрана выдачи результатов дано в примере 1.2к.)Как видно из таблицы, представленной на рис. 10.9, процедура уве"личивает на единицу введенное число интервалов группировки за счетдобавления справа от указанного правого конца диапазона бесконечногополуинтервала. Полученное значение статистики хи"квадрат столь ве"лико, что даже при весьма приблизительном характере аппроксимацииее распределения нулевая гипотеза должна быть отвергнута.
Конечно,321это происходит из"за присутствия аномального значения, о котором мытак много говорили.Приведем результаты применения процедуры для «цензурирован"ных» данных (рис. 10.10) при следующих параметрах: диапазон группи"ровки (13.1, 13.7), число интервалов группировки — 6.ÃÈÑÒÎÃÐÀÌÌÀ È ÒÅÑÒ ÍÎÐÌÀËÜÍÎÑÒÈ. Ôàéë: diamz.stdX-ëåâ13.113.213.313.413.513.613.7X-ñòàíä ×àñòîòà-2.93346-2.004524-1.075567-0.14658580.78237361.711382.6404%3.015112.0633.66829.14618.094.0201Íàêîïë.63097155191199%3.015115.07548.74477.88995.98100Êîëìîãîðîâ=0.045714, Çíà÷èìîñòü=0.47567, ñòåï.ñâîá = 199Ãèïîòåçà 0: <Ðàñïðåäåëåíèå íå îòëè÷àåòñÿ îò íîðìàëüíîãî>Îìåãà-êâàäðàò=0.0365832, Çíà÷èìîñòü=0.81358, ñòåï.ñâîá = 199Ãèïîòåçà 0: <Ðàñïðåäåëåíèå íå îòëè÷àåòñÿ îò íîðìàëüíîãî>Õè-êâàäðàò=2.0531, Çíà÷èìîñòü=0.7259, ñòåï.ñâîá = 4Ãèïîòåçà 0: <Ðàñïðåäåëåíèå íå îòëè÷àåòñÿ îò íîðìàëüíîãî>Рис.
10.10. Результаты проверки нормальности распределения дляцензурированных данныхОбратим внимание на то, что при составлении статистики хи"квадрат (при вычислении ожидаемых частот) в процедуре используютсяобычные оценки x и s2 . (По теории надо вычислять оценки параметров aи σ 2 по наблюденным частотам.) Поэтому истинный уровень значимостинесколько отличается от указанного на экране 0.7259. Как отмечалосьвыше, аппроксимация распределения статистики в этом случае отлича"322ется от распределения хи"квадрат. Приближенный уровень значимостивычисленной статистики лежит между квантилями распределения хи"квадрат с (r − 3) и (r − 1) степенями свободы, где r — число интерва"лов группировки. То есть уровень значимости полученной статистикилежит в интервале (0.7259, 0.9148). Поэтому гипотезу о нормальномраспределении (для «цензурированных» данных) следует принять.Êîììåíòàðèè.
Критерий согласия хи"квадрат для сложной гипотезыпредставлен в пакете только для нормального распределения.10.8.2. SPSSПример 10.1к. Проверим согласие распределения выборки диаме"тров головок заклепок (табл. 1.1) с нормальным распределением, ис"пользуя критерий Колмогорова"Смирнова. Проведем аналогичные рас"четы для «цензурированной» выборки.Ïîäãîòîâêà äàííûõ. Данные этого примера уже рассматривалисьв примерах 1.1к и 5.1к. Пусть они находятся в переменной d редактораданных пакета (см. рис. 1.23). В пакете нет необходимости создаватьотдельную переменную для «цензурированных» данных. Достаточнозадать фильтр для отбора наблюдений из исходной переменной. Дляэтого в меню Data (данные) редактора пакета следует выбрать процедуруSelect Cases (выбор наблюдений).
В окне ввода данных и параметров этойпроцедуры задать режим If condition is satisfied (если выполнено условие) изадать само условие выбора, скажем, d<14. Процедура Select Cases сфор"мирует в редакторе данных специальную служебную переменную filter $, в которой 1 соответствует отобранным данным, а 0 — отброшенным.Такой порядок очень удобен для формирования различных подвыбороки исключения резко выделяющихся значений.Âûáîð ïðîöåäóðû. Для решения задачи следует выбрать процеду"ру Explore блока Descriptive Statistics (см. п. 1.9.2).
Эта процедура включаеткритерий Колмогорова"Смирнова для нормальных выборок. При этомв ней минимальный уровень значимости критерия рассчитывается споправкой на сложную гипотезу (поправка Лильефорса).Êîììåíòàðèè. 1. В пакете существует процедура 1'Sample K'S (одновыбо"рочный критерий Колмогорова"Смирнова). Ее работа описана в примере 4.1кп. 4.7.2. Эта процедура предназначена для проверки только простой гипотезы,т.е.