Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 79
Текст из файла (страница 79)
Прежде чем начать разбор при"меров в пакете SPSS, сделаем одно важное замечание. Пакет SPSS обладаетразвитым командным макроязыком, позволяющим создавать командные файлы,полностью описывающие все этапы анализа. Только в последних Windows"версиях пакета появилась возможность проводить почти все процедуры ввода,редактирования и анализа данных в режиме меню"ориентированного интерфей"са с диалоговыми окнами. Мы ограничим свой рассказ, ориентированный наначинающих пользователей пакета, только работой с этим интерфейсом. Заоднобудет проиллюстрирован довольно типичный Windows"интерфейс современныхстатистических пакетов.
Однако, работая в SPSS, следует помнить, что прирешении задачи с использованием меню"ориентированного интерфейса одно"временно происходит создание командного файла решаемой задачи. Одно изудобств и достоинств командного языка заключается в том, что при решенииоднотипных задач нет необходимости каждый раз заполнять поля ввода и на"страивать режимы работы процедур. Можно просто запускать однажды сфор"мированный командный файл. При этом можно практически ничего не знатьо самом командном языке SPSS.13.2.2.
… …ƒ…Рассмотрим эти задачи на следующем примере.Пример 13.1к. Для данных урожайности зерновых культур в СССРподобрать модель тренда с помощью процедур регрессионного анализа ипостроить на базе подобранной модели прогноз на несколько лет вперед.Подготовка данных. Пусть данные таблицы 1.2 находятся в тек"стовом (ASCII) файле zerno.txt в виде двух столбцов, первый из которыхсодержит значение года, а второй — значение урожайности. Для загруз"ки этих данных в пакет SPSS выберем в меню пакета пункт FILE, а в немподпункт Read ASCII Data.... На экран будет выведен запрос открытия фай"ла, его вид — такой же, как в большинстве Windows"программ. Тольков нижней части запроса имеется переключатель File Format) (Формат фай"ла), позволяющий выбирать между фиксированным (Fixed) и свободным(Freefield) форматами файла.
Установим значение этого переключателяFixed, выбрав фиксированный формат файла. Этот формат предполагает,что значения каждой переменной в строках файла записаны в тех жестолбцах, что и в первой строке файла. Затем щелкнем мышью кноп"ку запроса Define (Определить) и перейдем к определению форматазаписи переменных в файле. На экране откроется диалоговое окно395Рис. 13.1. Окно определения переменных фиксированногоформата процедуры загрузки текстовых файлов в SPSSDefine Fixed Variables (Определить переменные фиксированного формата),см. рис.
13.1.В этом окне необходимо задать имена переменных. В нашем случаемы создали переменные date и zerno, а также указали начальную иконечную колонки столбца, в котором лежит каждая переменная, иформат этой переменной. Завершив описание переменных, щелкнеммышью кнопку окна OK. Произойдет загрузка данных в SPSS и ониотразятся в электронной таблице пакета (рис. 13.2).Рис. 13.2. Таблица SPSS с данными об урожайности зерновыхКомментарий. При загрузке ASCII"файлов могут возникнуть две пробле"мы. Первая — несовпадение разделителя целой и дробной части числа в исход"ном файле и в установке в Windows. (Обычно для этих целей используется либоточка либо запятая.) При этом не происходит корректной загрузки данных вSPSS.
Для исправления ситуации обратитесь в пункт Стандарты (Windows Inter"national Settings) Панели Управления (Control Panel) и поменяйте тип десятичного396разделителя в пункте Формат чисел. Вторая проблема — частичное (округленное)отображение чисел в электронной таблице. Для исправления этой ситуацииобратитесь в пункт меню SPSS Data Define Variable Type и увеличьте в выведенномокне значение поля Decimal Places. Это значение задает число позиций, отведенныхдля десятичной части числа в электронной таблице.Построение графика.
Анализ временного ряда начнем с постро"ения графика. Возможности SPSS по построению и оформлению гра"фиков очень широки, их описание занимает в документации более 250страниц. Мы не будем вдаваться в детали оформления графиков, абудем излагать лишь общий порядок действий и показывать полученныерезультаты.Для построения графика временного ряда в пункте меню Graphs (Диа"граммы) можно выбрать один из двух возможных типов процедур: SimpleScatterplot (Простой график рассеивания) или Sequence (График последова"тельности). В этой задаче будет рассмотрена работа процедуры SimpleScatterplot. Ее диалоговое окно приведено на рис. 13.3.Рис.
13.4. График урожайности зерновых в SPSSРис. 13.5. Диалоговое окно процедуры Curve Estimation в SPSSРис. 13.3. Диалоговое окно процедуры Simple Scatterplot в SPSSВыделяя щелчком мыши требуемые переменные и нажимая соот"ветствующие кнопки запроса , присвоим значения переменных date иzerno осям X и Y соответственно.
Подобный простой способ выбора пе"ременных используется практически во всех процедурах SPSS и в рядедругих статистических пакетов под Windows (STADIA, STATGRAPH"ICS). На рис. 13.4 изображен полученный результат (после небольшогодополнительного оформления).397Выбор процедуры. На графике рис. 13.4 видно, что анализируе"мые данные содержат линейный тренд. Для его идентификации следуетвыбрать в меню пакета пункт Statistics (Статистика), и далее в открыв"шемся подменю — пункт Regression (Регрессия). Здесь в еще одномподменю можно выбрать один из двух методов: Linear Regression (линейнаярегрессия) или Curve Estimation (оценка кривой).Процедура Linear Regression предоставляет широкие возможности прианализе адекватности классической модели простой и множественнойлинейной регрессии, включая выделение возможных «выбросов», про"верку нормальности и некоррелированности остатков.
А процедура CurveEstimation больше нацелена на выделение различных кривых трендов. По"этому мы продолжим свой анализ с помощью процедуры Curve Estimation,диалоговое окно которой приведено на рис. 13.5.398Задание параметров процедуры. В окне рис. 13.5 следует пере"нести переменную zerno в поле Dependent(s) (зависимая переменная). Дляэтого надо выделить ее щелчком мыши и нажать кнопку . Аналогич"ным образом в поле Independent (независимая переменная) надо поместитьпеременную date. В примоугольнике Models (модели) выберем линейнуюмодель Linear, а также укажем включение константы в эту модель, уста"новив флажок Include constant in equation.
Затем нажмем кнопку окна OK.Замечание. Поле независимой переменной можно оставить незаполнен"ным, поставив переключатель типа независимой переменной в положение Time —в этом случае зависимая переменная будет трактоваться как временной ряд.Модели тренда. Дадим формулы моделей тренда, приведенных впрямоугольнике Models на рис. 13.5. Пусть x — независимая переменнаяили время, bi и u — константы (параметры моделей). Тогда формулымоделей можно записать так:Рис.
13.6. Результаты работы процедуры CurveEstimation в окне выдачи результатов в SPSSLinear (линейная): y = b0 + b1 x;Logarithmic (логарифмическая): y = b0 + b1 ln(x);Inverse (обратная): y = b0 + (b1 /x);Quadratic (квадратичная): y = b0 + b1 x + b2 x2 ;Cubic (кубическая): y = b0 + b1 x + b2 x2 + b3 x3 ;Power (степенная): y = b0 · (xb1 ) или ln(y) = ln(b0 ) + b1 ln(x);Compound (показательная): y = b0 (b1 )x или ln(y) = ln(b0 ) · [ln(b1 )] · x;S (S"образная): y = e(b0 +b1 /x) или ln(y) = b0 + b1 /x;Logistic (логистическая): y = 1/(1/u + b0 · (bx1 )) или ln(1/y − 1/u) =ln(b0 ) + [ln(b1 )] · x;Growth (роста): y = e(b0 +b1 x) или ln(y) = b0 + b1 x;Exponential (экспоненциальная): y = b0 ·(eb1 x ) или ln(y) = ln(b0 )+b1 ·x.Замечание.
Кнопка Save диалогового окна (рис. 13.5) позволяет со"хранить в виде отдельных переменных значения подобранной модели Predictedvalues, остатки Residuals и доверительные интервалы Prediction intervals, которые будутпомещены в электронную таблицу пакета.Результаты. После выполнения процедуры Curve Estimation в окнеOutput вывода результатов появится ряд вычисленных статистическиххарактеристик, включая коэффициент корреляции R, коэффициент де"терминации R2 , таблицу анализа вариации, значения оценок коэффи"циентов модели и их статистические характеристики (рис.
13.6). Од"новременно график ряда с подобранной кривой тренда будет помещенв окно Chart Carousel (рис. 13.7)Результаты расчетов (см. рис. 13.6) показывают, что линейная мо"дель тренда объясняет примерно 83% общей вариации данных, а по"лученные оценки коэффициентов модели значимо отличаются от нуля.399Рис. 13.7. Окно Chart Carousel с результатамиработы процедуры Curve Estimation в SPSSВ частности, значение коэффициента B при переменной year (то естьсредний прирост урожайности за год), равен примерно 0.275 (ц/га).Анализ остатков. Дальнейший анализ модели связан с исследо"ванием остатков.
Выясним два вопроса: можно ли считать остаткинекоррелированными и насколько их распределение согласуется с нор"мальным.Замечание. Учитывая небольшую длину исследуемого ряда, вряд лиможно ожидать здесь высокой точности и достоверности результатов. Однакоподобный анализ позволит понять, как далеко мы могли отклониться от условийприменения метода наименьших квадратов для удаления тренда, и, тем самым,насколько можно верить полученным результатам.400Ïðîâåðêà êîððåëèðîâàííîñòè îñòàòêîâ.
Выше упоминалось,что одним из результатов работы процедуры Curve Estimation является со"здание новой переменной err 1, в которой хранятся остатки подобранноймодели. Для выяснения коррелированности остатков вычислим оценкиих автокорреляционной функции. Это можно сделать, например, вызвавпроцедуру Autocorrelations из пункта Time Series меню Graphs.
Диалоговое окнопроцедуры приведено на рис. 13.8.Рис. 13.9. График автокорреляционной функцииостатков для ряда урожайности зерновых в SPSSРис. 13.8. Диалоговое окно процедуры Autocorrelations в SPSSВ окно Variables (переменные) поместим переменную err 1 со значени"ями остатков. С помощью кнопки Options зададим максимальное числолагов Maximum Numbers of Lags равным 10, учитывая небольшую длину из"учаемого ряда. Затем нажмем кнопку OK.