Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 11
Текст из файла (страница 11)
Более наглядное описание данных достигается путемгруппировки наблюдений в классы. Под группировкой, или классифика"цией, мы будем понимать некоторое разбиение интервала, содержащеговсе n наблюденных результатов x1 , . . . , xn на m интервалов, которыебудем называть интервалами группировки. Длины интервалов обо"значим через ∆1 , . . .
, ∆m , а середины интервалов группировки — черезt1 , . . . , tm .48Число наблюдений nij в j"м интервале группировки равно количе"ству xi , i = 1, . . . , n, удовлетворяющих неравенству1∆j .2Определим величину hj = nj /n, которая означает частоту попада"ния наблюдений в j"ый интервал группировки. Для того, чтобы из"бавиться от влияния размера интервала группировки на hj , вводитсявеличина fj = hj /∆j .|xi − tj | <Определение. Графическое изображение зависимости частотыпопадания элементов выборки от соответствующего интервалагруппировки называется гистограммой выборки.Подчеркнем, что в качестве ординаты здесь берется не сама часто"та, а частота, деленная на длину интервала группировки. Если всеинтервалы группировки имеют одинаковую длину, деление на ∆ обычноопускают и nj или hj используют как ординаты, как это показано нанескольких рисунках ниже.
На рис. 1.9 приведена гистограмма выборкипри длине интервала группировки, равной 0.01 мм. Ординатой на этомрисунке является число заклепок в каждом интервале группировки.Рис. 1.9. Гистограмма. Длина интервалагруппировки равна 0.01 ммРис. 1.11. Гистограмма. Длина интервалагруппировки равна 0.07 ммРис. 1.10.
Гистограмма. Длина интервалагруппировки равна 0.03 ммвлияние случайных колебаний начинает преобладать, так как каждыйинтервал содержит при этом лишь небольшое число наблюдений. Этотэффект хорошо виден на рис. 1.9. На рис. 1.10—1.12 приведеныгистограммы выборки при длине интервала группировки, равной 0.03,0.07 и 0.11 мм соответственно.
Из приведенных рисунков видно, чточем больше величина интервала группировки, тем более скрадываютсяхарактерные черты распределения.Если группированное распределение должно являться основой дляпоследующих вычислений, то, как правило, все интервалы группировкидолжны быть небольшими и иметь одну и ту же длину.Пример. О пользе наглядных приемов описательной статистики красно"речиво говорит следующий пример, относящийся еще к началу нашего века.Мы изложим его, следуя Р.Фишеру (одному из создателей современной мате"матической статистики)..
. . Иоханес Шмидт из Карлсберговской лаборатории в Копенгагене былне только ихтиологом, но и неутомимым биостатистиком. Он развивал идею,что рыбы одного вида распадаются на относительно изолированные сообще"ства. Между этими группами он находил статистические различия по числупозвонков или лучей плавников. Для доказательства этого он строил гистограм"мы распределений числа позвонков (лучей плавников) для каждой из групп исравнивал их между собой.
Причиной различий сообществ рыб служит то, чтоэти сообщества не смешиваются при размножении: каждая группа мечет икрув своем месте. Часто такие различия были заметны даже между стаями рыбодного вида, обитавшими в одном фьорде.Однако для угрей Шмидт не смог найти никаких статистических различиймежду выборками, выловленными даже в очень далеких друг от друга местах —будь то различные части Европейского материка, Азорские острова, Нил илиИсландия.
Шмидт решил, что угри всех различных речных систем составляютодно сообщество, а значит, они должны иметь общее место размножения.Через некоторое время это предположение подтвердилось в ходе экспедицииисследовательского судна «Диана». Одним из главных успехов этого плаваниябыла поимка личинок угря в некотором ограниченном районе Западной Атланти"ки — Саргассовом море. Выяснилось, что все угри, независимо от своего «местажительства», отправляются выводить потомство только в Саргассово море.1.9. $ … STADIA SPSSРис. 1.12.
Гистограмма. Длина интервалагруппировки равна 0.11 ммОтметим, что согласно определению площадь каждого столбца ги"стограммы равна (точнее, пропорциональна) частоте попадания наблю"дений в данный интервал группировки.Ясно, что величина интервала группировки существенно влияет наобщий вид гистограммы. Если длина интервала группировки мала, то491.9.1. STADIAВ пакете STADIA довольно полно представлены методы описатель"ной статистики, все они собраны воедино в разделе пакета «Параме"трические тесты» меню Статистические методы (смотри описание структурыпакета в приложении 2).
Проиллюстрируем их работу на рассмотренных50выше примерах. При этом будет рассмотрена версия пакета STADIA6.0 для Windows. Интерфейс более поздних версий этого пакета неотличается от версии 6.0.Пример 1.1к. Для выборки диаметров головок заклепок (табл. 1.1)вычислим среднее значение, медиану, дисперсию, нижнюю и верхнююквартили, а также минимальный и максимальный элементы.Ïîäãîòîâêà äàííûõ. Находясь в электронной таблице пакета,следует либо ввести данные таблицы 1.1 с клавиатуры, либо загрузитьих из уже созданного файла.
Пусть данные таблицы 1.1 находятсяв текстовом (ASCII) файле DIAMZ.TXT в виде столбца с именем d. Длязагрузки файла данных в пакет STADIA в пункте меню Файл выберитеподпункт Ввести, как это показано на рис. 1.13.Рис. 1.14. Пакет STADIAОкно чтения файла данныхРис. 1.15. Пакет STADIA. Окновыбора переменных для анализаРис. 1.13. Пакет STADIA. Вызов процедуры загрузки файла данныхВ открывающемся при этом диалоговом окне Чтение файла (рис. 1.14)укажите необходимый тип файла данных, каталог и имя файла.
Длявыбора файла достаточно подвести указатель мыши к имени файла идважды нажать левую кнопку мыши.Результаты ввода (загрузки) данных в электронную таблицу пред"ставлены на рис. 1.16.Âûáîð ïðîöåäóðû. После выбора пункта меню Статист или нажа"тия клавиши «F9» (см. рис. 1.13) программа выведет на экран менюСтатистические методы (рис.
1.17).С помощью мыши выберите в меню пункт 1 = Описательная статистика.На экране появится окно Анализ переменных (рис. 1.15). В нем можновыбрать одну или несколько переменных из электронной таблицы длядальнейшего анализа. Выделив переменную d в списке переменных,нажмите мышью на кнопку со стрелкой вправо. Выбранная перемен"ная переместится в поле для анализа. Завершив выбор переменных,нажмите кнопку ÓòâåðäèòüÐåçóëüòàòû. На экране в окне Результаты появятся значения основ"ных описательных статистик (см.
верхний ряд чисел рис. 1.18) и запроссистемы Выдать дополнительную статистику. В ответ на запрос можно на"51Рис. 1.16. Пакет STADIA. Электронная таблица с загруженными даннымижать Äà (или Yes), и тогда программа выведет остальные описатель"ные статистики (рис. 1.18). Заметим, что во встроенном справочникепрограммы имеются определения и сведения о назначениях всех этихописательных статистик. Для вывода данной информации на экранследует нажать «F1».Требуемые в примере максимальное и минимальное значение вы"борки находятся в графе <—Диапазон—>, верхняя и нижняя квартили —52Пример 1.2к.
Сгруппировать данные примера 1.1к в диапазоне от13 мм до 14.8 мм с шагом группировки 0.15 мм, и вычислить частотыпопадания в полученные интервалы группировки.Ïîäãîòîâêà äàííûõ осуществляется так же, как в примере 1.1к.Âûáîð ïðîöåäóðû. В меню статистических методов (рис. 1.17)следует выбрать процедуру 2=Гистограмма/нормальность, нажав на экранесоответствующую кнопку мышью или нажав клавишу «2».Çàïîëíåíèå ïîëåé ââîäà äàííûõ.На экране появится окноАнализ переменной (рис. 1.15), в котором следует выбрать переменную dдля анализа.
Далее последует запрос пакета о параметрах группировкиданных (рис. 1.19). Введем число интервалов группировки равным 12,левую границу группировки данных — 13 и правую границу — 14.8, какэто показано на рис. 1.19. Затем нажмите кнопку Óòâåðäèòü.Рис. 1.17.
Пакет STADIA. Меню статистических методовРис. 1.19. Задание интервалов группировкиÊîììåíòàðèè. 1. Часть описательных статистик, вычисляемых этойпроцедурой, относится только к выборкам из нормального распределения. Этокасается размера доверительного интервала для среднего и значений концовдоверительного интервала для дисперсии.Ðåçóëüòàòû.
На экране появятся результаты расчетов, включаю"щие таблицу табуляции частот (рис. 1.20), значения статистик Колмого"рова, омега"квадрат и хи"квадрат, а также заключение системы Гипотеза1: Распределение отличается от нормального.В первом столбце таблицы указан правый конец интервала группи"ровки, во втором значения первого столбца трансформированы следую"щим образом: из каждого элемента первого столбца вычитается среднеезначение выборки и полученная разность делится на стандартное откло"нение выборки.
Следующие четыре столбца содержат частоту, относи"тельную частоту, накопленную частоту и относительную накопленнуючастоту соответственно.После нажатия «Enter» появится запрос системы Вывести график?. Приответе Äà (или Yes) программа выводит гистограмму и подобраннуюпо выборке кривую плотности нормального распределения в специаль"ное графическое окно. Полученные графики показаны на рис. 1.21слева.2. Если в окне выбора переменных для анализа выбрано несколько пе"ременных, то будут вычислены описательные статистики для каждой из этихпеременных.Êîììåíòàðèè. 1.
Изучение таблицы табуляции частот показывает, чтов выборке находится одно сильно выделяющееся наблюдение, которое, по"видимому, и оказало влияние на результат проверки нормальности. ВлияниеРис. 1.18. Пакет STADIA. Окно результатов процедуры описательной статистикив графе <—Квартили—>. Названия остальных необходимых в примерехарактеристик присутствуют на экране в явном виде.5354Ïîäãîòîâêà äàííûõ осуществляется так же, как в примере 1.1кдля пакета STADIA.Âûáîð ïðîöåäóðû.
В блоке статистических методов нажатиемклавиши «2» следует выбрать процедуру 2=Гистограмма и нормальность.Çàïîëíåíèå ïîëåé ââîäà äàííûõ. На запрос системы Укажите числоинтервалов и диапазон гистограммы (Enter=вычисл) следует ввести скорректиро"ванные значения: 10, 13, 13.75 и нажать «Enter».Ðåçóëüòàòû. На экране (рис. 1.22) появятся результаты расчетов,включающие таблицу табуляции частот, значения статистик Колмого"рова, омега"квадрат и хи"квадрат, а также заключение системы Гипотеза0: Распределение не отличается от нормального.
Выводимый для этого случаяграфик показан на рис. 1.21 справа.Рис. 1.20. Пакет STADIA. Экран результатов процедуры «Гистограмма и нормальность»Рис. 1.22. Пакет STADIA. Экран результатов процедуры «Гистограмма и нормальность»Рис. 1.21. Гистограмма с наложенным графиком нормальной кривой (а —исходные данные, б — без учета сильно выделяющегося наблюдения)этого наблюдения на различные выборочные статистики будет рассмотрено вглавах 5 и 10. В примере 1.3к мы проведем приведенные выше расчеты безучета сильно выделяющегося наблюдения.2.