Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 12
Текст из файла (страница 12)
Вопросы, связанные с проверкой нормальности в данной процедуре,обсуждаются в главах 5 и 10.Пример 1.3к. Для выборки диаметров головок заклепок построитьгистограмму частот с шагом группировки 0.075 мм на интервале от 13до 13.75 мм (т.е. без учета сильно выделяющегося наблюдения).55Прочие возможности. Из других графических методов описательнойстатистики в пакете STADIA представлен также матричный график, в которомзначения каждой переменной, находящейся в текущий момент в блоке редактораданных, сгруппированы в отдельном столбце графика с указанием положениясреднего значения и интервала стандартного отклонения.1.9.2.
SPSSВ базовом модуле пакета SPSS широко представлены численные играфические методы описательной статистики. Процедуры целенапра"вленно вычисляющие только описательные статистики сгруппированы56устойчивые оценки среднего значения выборок, включая усеченные оценки, М"оценки Хубера и другие робастные оценки (см. [116], [108]), а так же строитьдиаграммы «ящик с усами» и «ствол"лист» (см.
[98]), графики на нормальнойвероятностой бумаге (см. п. 5.2 гл. 5) и многое другое.Crosstabs (таблицы сопряженности) — используется для выяснения связидвух или нескольких переменных, измеренных в номинальных или порядковыхшкалах (см. п. 9.3 гл. 9). Эта процедура строит двумерные и многомерныетаблицы сопряженности и проверяет гипотезу о независимости переменныхс помощью критерия хи"квадрат Пирсона и вычисляет различные меры связимежду двумя переменными.Различные элементы методов описательной статистики входят и вомногие другие статистические процедуры пакета.
В довольно полномобъеме они представлены так же в процедуре «Means» блока «Comparemeans» (см. рис. 1.23)Рассмотрим несколько примеров.Пример 1.1к. Для выборки диаметров головок заклепок (табл. 1.1)вычислить среднее значение, медиану, дисперсию, нижнюю и верхнююквартили, а так же минимальный и максимальный элементы.Рис. 1.23. Пакет SPSS. Редактор данных c меню «Analyze» и «Descriptive Statistics»в пункте «Descriptive Statistics» (описательные статистики) меню статистическихпроцедур пакета «Analyze» (анализ) (рис. 1.23).Рассмотрим рис. 1.23, кратко опишем назначения процедур, входя"щих в меню «Descriptive Statistics» и разберем на примерах наиболее упо"требительные из них.Frequencies (частоты) — позволяет получить широкий набор числовых харак"теристик, включая частоты, проценты, накопленные (кумулятивные) проценты,среднее, дисперсию, стандартное отклонение, медиану, моду, сумму значений,минимальное и максимальное значения переменных, асимметрию, эксцесс, стан"дартные ошибки оценок асимметрии и эксцесса, квартили, процентили, столби"ковые диаграммы гистограммы и др.
для одной или нескольких выборок. Работаэтой процедуры разобрана в примере 1.1к.Descriptives (описательные статистики) — вычисляет основные описательныестатистики: среднее значение, его стандартную ошибку, минимальное и макси"мальное значения, дисперсию, стандартное отклонение, размах, асимметрию иэксцесс и др. характеристики одной или нескольких выборок. Основное отличиеэтой процедуры от Frequencies в том, что она вычисляет нормированные значе"ния выборок и сохраняет их в отдельных переменных редактора данных. Этупроцедуру лучше всего применять для данных, закон распределения которыхблизок к нормальному.Explore (разведочный анализ) — позволяет вычислить те же описательныестатистики, что и две предыдущие процедуры, не только для нескольких выбо"рок, но и для их подгрупп.
Кроме того, эта процедура может выдавать различные57Ïîäãîòîâêà äàííûõ. В окне редактора базы данных пакета со"здать числовую переменную с именем d и ввести в нее (для определенно"сти — по столбцам) значения из табл. 1.1. Если уже есть готовый файлданных, например DIAMZ.sav, загрузить его из пункта Open меню File панелиуправления пакета. (Данные в SPSS хранятся в собственном «эконом"ном» формате. Файлы этого формата имеют расширение sav. Пакетобладает большими возможностями загрузки файлов других форматов.Âûáîð ïðîöåäóðû. В меню Analyze выбрать блок процедур DescriptiveStatistics.
В окне этого блока выбрать процедуру Frequencies как это показанона рис. 1.23.Выполнение процедуры Frequencies, как и большинства других ста"тистических и графических процедур пакета, начинается с заполненияполей окна ввода данных и настройки параметров процедуры. Это окнопредставлено на рис. 1.24Çàïîëíåíèå ïîëåé îêíà ââîäà äàííûõ è ïàðàìåòðîâ. Выде"лить щелчком мыши переменную d в левой части окна. (В этой частиавтоматически отображаются все переменные, загруженные в редакторпакета.) Перенести ее в окно Variable(s) — анализируемых переменных,щелкнув мышкой на стрелке переноса в центре окна.
Затем перейти вменю настройки параметров выдачи числовых результатов (рис. 1.25),нажав кнопку Statistics в нижней части окна (см. рис. 1.24). (Кнопка Charts— задает настройки вывода графиков и диаграмм.)58Mean — среднее значениеMedian — медианаMode — модаSum — суммаГруппа Dispersion (разброс) включает различные показатели разбросавыборки:Std. deviation — стандартное отклонениеVariance — дисперсияRange — размахMinimum — минимумMaximum — максимумS.E.
mean — стандартная ошибка среднего значенияГруппа Distribution (распределение) включает набор статистик харак"теризующих форму распределения выборки.Рис. 1.24. Пакет SPSS. Окно ввода данных и парамтров процедуры «Frequencies»Skewness — коэффициент асимметрииKurtosis — коэффициент эксцессаВ окне задания вывода статистических характеристик отметить мы"шью требуемые в задаче характеристики, как это показано на рис. 1.25,и нажать кнопку «Continue». Осуществится возврат в окно ввода данныхи параметров процедуры (рис. 1.24), в котором следует нажать кнопку«Ok». (Пассивность этой кнопки свидетельствует, что в процедуре либоне заданы данные для анализа, либо не до конца определены необходи"мые для работы процедуры параметры.)Ðåçóëüòàòû.
В окне навигатора вывода результатов (рис. 1.26)появится таблица результатов вычислений. Она, кроме заказанныхописательных статистик, указывает, что анализируемая переменнаявключает 200 значений (NValid) и число пропущенных наблюдений(Missing) равно 0.Рис. 1.25. Пакет SPSS. Окно задания вывода статистическиххарактеристик данных процедуры «Frequencies»Окно задания вывода статистических характеристик разбито начетыре крупных блока, каждый из которых отвечает за ту или инуюгруппу описательных статистик выборки.Перечислим эти группы и дадим перевод входящих в них харак"теристик.Группа Percentile ValuesQuartiles — квартилиCut points for n equal groups — точки разбиения выборки на n равных группPercentile(s) — процентилиГруппа Central Tendency (положение центра) характеризует положениецентра выборки и включает следующие описательные статистики:59Êîììåíòàðèè.
1. В окно ввода данных Variable(s) процедуры Frequencies можноввести сразу несколько переменных. Заданные описательные статистики будутрасчитаны отдельно для каждой из них.Пример 1.2к. Сгруппировать данные примера 1.1к в диапазоне от13 мм до 14.8 мм с шагом группировки 0.15 мм и вычислить частотыпопадания в полученные интервалы группировки.Авторам не известно простое прямое решение этой задачи в пакетеSPSS. Один из косвенных путей — использование frequency table (таблицычастот), которая является табличным аналогом точечной диаграммы, тоесть для каждого наблюдения выборки указывает, сколько раз онов ней встречается.
Для получения frequency table необходимо вызватьпроцедуру Frequencies (см. пример 1.1к). В окне ввода данных и настройкипараметров процедуры указать в качестве анализируемой переменной60Рис. 1.27. Пакет SPSS. Таблица частот процедуры «Frequencies»Рис. 1.26. Пакет SPSS. Окно навигатора вывода результатовпроцедуры «Frequencies» с таблицей результатовd и задать выдачу frequency table, щелкнув мышкой в окне Display frequencytable (см.
рис. 1.24). В результате работы процедуры в окне навигаторавывода результатов пакета появится заказанная таблица, верхняя частькоторой представлена на рис. 1.27.В таблице все несовпадающие значения выборки упорядочены повозрастанию в первой колонке, и указано: число совпадающих значенийв колонке frequency, процент этих значений в выборке в колонке Percent(процент в этой колонке вычисляется от всех наблюдений, включаяпропущенные), процент значений от только имеющихся наблюдений вколонке Valid Percent и накопленный процент в колонке Cumulative Percent.Так как в нашей выборке нет пропущенных наблюдений, то значенияколонок Percent и Valid Percent совпадают.
Из этой таблицы видно, чтоминимальное значение 13.13 встретилось в выборке лишь один раз,что составляет 0.5% от объема выборки n = 200, а значение 13.20присутствует в выборке 3 раза, что составляет 1.5%.Из таблицы на рис. 1.27 путем простого, но утомительного расчетаполучаем частоты попадания наблюдений в каждый из требуемых ин"тервалов группировки. Так, в интервал от 13 до 13.15 мм попало всего 2значения или 1% от всех наблюдений. В интервал от 13.15 до 13.30 мм61попало 14% наблюдений.