Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 65
Текст из файла (страница 65)
для случая, когда гипотетическое распределение известно нам полностью. Ксожалению, процедура не позволяет задать параметры гипотетического распре"деления заранее. Она сама вычисляет значения этих параметров по выборке,то есть на самом деле пытается проверить сложную гипотезу. Поэтому расчи"тываемые уровни значимости этой процедуры ошибочны, а сама она не решаетзадачи, объявленной в документации пакета.323В этом можно убедиться на разбираемом нами примере. На рис. 10.11 в по"следней строке таблицы приведен минимальный уровень значимости статистикиКолмогорова"Смирнова, рассчитанной для нецензурированного массива данных.Он оказался равен 0.255.
Это значит, что гипотезу о нормальном характереследует принять. Но ранее мы убедились, что эту выборку нормальной считатьнельзя (из"за одного грубо ошибочного значения). Причина этого ошибочногозаключения ясна: статистика Колмогорова"Смирнова в том случае, когда пара"метры гипотетического рапсределения оцениваются по выборке имеет другоераспределение, чем при простой гипотезе (см. п. 10.5).Мы не рекомендуем пользоваться этой процедурой для проверки согласия.(Процедуру можно использовать для оценки параметров четырех законов рас"пределений, как это показано в примере 4.1к).2. Укажем ситуацию, когда результаты расчетов этой процедуры все жемогут быть использованы для статистических выводов о согласии.
Заметим,что уровень значимости статистики Колмогорова для сложной гипотезы всегдаменьше уровня значимости этой статистики для простой гипотезы. Такимобразом, если полученный уровень значимости для простой гипотезы мал, тоуровень значимости для сложной гипотезы еще меньше, и эту гипотезу следуетотвергать.
В других случаях надо обращаться к таблицам соответствующихпроцентных точек или использовать возможности процедуры Explore для проверкинормальности, как это показано ниже.Рис. 10.11. Пакет SPSS. Результаты работы процедуры«1"Sample K"S» для «нецензурированного» массива данныхÇàïîëíåíèå ïîëåé ââîäà äàííûõ.
Для выполнения этого крите"рия следует в окне ввода данных процедуры Explore (рис. 10.12) нажатькнопку «Plot». На экране появится окно настройки графических воз"можностей процедуры (рис. 10.13). В этом окне следует отметить опциюNormality plots with test. Вернувшись в окно ввода параметров процедурыExplore, запустить ее на выполнение, нажав кнопку «OK».Ðåçóëüòàòû. Требуемые результаты работы заданной опции про"цедуры приведены на рис.
10.14.324Полученный уровень значимости критерия Колмогорова"Смирновас поправкой Лильефорса — 0.014 — говорит, что гипотезу о принад"лежности данных к нормальному семейству распределений следует от"вергнуть.Результаты этой процедуры для цензурированных данных приведенына рис. 10.15.Рис. 10.12. Пакет SPSS.
Окно ввода данных и параметров процедуры «Explore»Рис. 10.14. Пакет SPSS. Результаты работы процедуры«Explore» для «цензурированного» массива данныхВ случае, когда минимальный уровень значимости достаточно велик,эта процедура вычисляет не сам уровень значимости, а его оценку снизу.Информация об этом указывается в сноске под таблицей. Оценка снизудля минимального уровня значимости критерия для цензурированныхданных достаточно велика (0.200) и не дает веских оснований отвергнутьнулевую гипотезу.Рис. 10.13.
Пакет SPSS. Окно настройки графического вывода процедуры «Explore»Рис. 10.14. Пакет SPSS. Результаты работы процедуры«Explore» для «нецензурированного» массива данныхОни включают значение статистики Колмогорова"Смирнова, объемвыборки (обозначенный в таблице df) и минимальный уровень значи"мости Sig.
Кроме того процедура строит график эмпирической функ"ции распределения выборки на нормальной вероятностной бумаге NormalProbability Plot (см. п. 5.2).325Êîììåíòàðèé. Заметим, что эта оценка снизу минимального уровня зна"чимости далека от истинного значения. Как было показано в п. 10.8.1 (рис. 10.7),на самом деле уровень значимости в этом случае равен примерно 0.476. Но этагрубость оценки не влияет на итоговый вывод, так как вычисление нижнейграницы уровня значимости происходит в области значений, где заведомо нетоснований отвергать гипотезу.Пример 10.2к. Проверим согласие распределения выборки диа"метров головок заклепок (табл. 1.1) с нормальным распределением,используя критерий хи"квадрат. Проведем аналогичные расчеты для«цензурированной» выборки.В пакете представлена процедура, реализующая критерий хи"квадрат для конечных дискретных распределений данных.
Ее запускосуществляется из пункта Chi'Square блока Nonparametric Tests меню Analyze(см. рис. 3.9). Обработать с помощью этой процедуры данные, имею"щие непрерывное распределение, напрямую нельзя. Решение подобнойзадачи в SPSS возможно, но требует навыков работы с этим пакетоми хорошей статистической квалификации пользователя. Поэтому непроводя детального разбора, укажем лишь основные этапы решениязадачи. На первом этапе необходимо провести перекодировку исходных326данных с целью получения таблицы частот. Для этого надо задать раз"биение диапазона значений выборки на непересекающиеся интервалы(интервалы группировки).
Как это лучше сделать, говорилось в п. 10.6.Затем воспользоваться процедурой Recode из меню Transform редакторапакета. С помощью этой процедуры можно создать новую переменную,в которой каждое значение исходной выборки будет заменено номероминтервала группировки. Именно эту переменную следует вводить дляобработки в процедуру Chi'Square, но предварительно необходимо длякаждого из полученных интервалов группировки определить гипотети"ческую вероятность. Это отдельная задача, которая может решаться поразному.
Скажем, можно выбрать интервалы группировки так, чтобывероятность попадания в каждый из них была одинаковой. Если жеодинаковыми будут сами длины интервалов группировки, то придетсярасчитывать гипотетические вероятности с помощью функций распре"деления. Полученные значения гипотетических вероятностей следуеттакже ввести в процедуру Chi'Square при заполнении полей окна вводаданных и параметров этой процедуры. Результатом работы процеду"ры будут значения статистики хи"квадрат, число степеней свободы иминимальный уровень значимости.11"…… : …11.1.
"…Что такое временной ряд. Временной ряд — это последователь"ность чисел; его элементы — это значения некоторого протекающегово времени процесса. Они измерены в последовательные моменты вре"мени, обычно через равные промежутки.Как правило, составляющие временной ряд числа — элементывременного ряда, — нумеруют в соответствии с номером моментавремени, к которому они относятся (например, x1 , x2 , x3 и т.д.).Таким образом, порядок следования элементов временного ряда весьмасуществен.Почти в каждой области знания встречаются явления, которые важ"но изучать в развитии во времени или пространстве. И почти всегда взакономерное течение явления вмешивается случай в виде случайныхимпульсов, случайных помех, случайных ошибок и т.д.
Поэтому изуче"ние временных рядов — это составная часть прикладной статистики (идовольно важная ее часть).Расширения понятия временного ряда. Понятие временногоряда часто толкуют расширительно. Например, одновременно могутрегистрироваться несколько характеристик упомянутого процесса. Вэтом случае говорят о многомерных временных рядах. Если измеренияпроизводятся непрерывно, говорят о временных рядах с непрерывнымвременем, или случайных процессах. Наконец, текущая переменнаяможет иметь не временной, а какой"нибудь иной характер, напримерпространственный (тогда говорят о случайных полях).Примеры временных рядов. Данные типа временных рядов ши"роко распространены в самых различных областях человеческой дея"тельности.
В экономике это ежедневные цены на акции, курсы валют,еженедельные и месячные объемы продаж, годовые объемы производ"ства и т.п. В метеорологии типичными временными рядами являютсяежедневная температура, месячные объемы осадков, в гидрологии —периодически измеряемые уровни воды в реках. В технике времен"327328ные ряды возникают в результате отслеживания различных параметровтехнологических процессов.На рис. 11.1 приведены примеры различных временных рядов (длянаглядности последовательные измерения, составляющие временнойряд, на графиках соединены линиями).скорее всего линейный тренд, отклонения от которого можно считатьнезависимыми случайными величинами.
Курс доллара на торгах ММВБвесной"летом 1994 г. (ряд б)) также содержит линейный тренд, однакоотклонения от него имеют более сложную статистическую структуру,чем в предыдущем случае. График ежемесячных продаж шампанского(ряд в)) содержит явно повторяющиеся годовые циклы с возрастающейамплитудой. Среднечасовая загрузка телекоммуникационного каналаМосква"Париж в течение двух недель (одна неделя равна 168 часам)февраля 1996 г. (ряд г)) имеет ясные суточные циклы. Кроме суточных,этот ряд содержит и недельные циклы, но на приведенном графике онизаметны мало, так как недостаточно длителен интервал наблюдения.Ряд д) создан датчиком нормальных случайных чисел на компьютере ислужит примером чисто случайного процесса без внутренних законо"мерностей и зависимостей.Измерение значений временного ряда.