Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 37
Текст из файла (страница 37)
Построим 95% доверительные интервалы для сред"него значения и дисперсии по выборке диаметров головок заклепок(табл. 1.1) и проверим гипотезу о равенстве среднего значения выборкизаданной величине 13.4.Решение этой задачи в пакете осуществляет процедура 1=Описательнаястатистика из меню Статистические методы.
Ее работа была подробно рассмо"трена в примере 1.1к. Экран выдачи результатов этой процедуры дляданных диаметров головок заклепок приведен на рис. 1.18.Для получения левого конца доверительного интервала для среднегоследует вычесть из полученной оценки для среднего 13.421 величинуДоверит.
ср., то есть 0.018499. Для получения правого конца доверитель"ного интервала для среднего следует прибавить к среднему указаннуювыше величину.В пакете отсутствует процедура, в явном виде реализующая крите"рий Стьюдента для проверки гипотезы о равенстве среднего значениянормально распределенной выборки заданному числу. Для решенияэтой задачи при уровне значимости α = 0.05 против двустороннихальтернатив следует посмотреть, попадает ли гипотетическое значение13.4 в полученный доверительный интервал для среднего. В данномслучае гипотетическое значение лежит правее нижней границы 95%доверительного интервала, которая равна 13.4015. Поэтому гипотезуH : a = 13.4 следует отвергнуть на указанном уровне значимости 0.05.181182179183181168169174184Рост юношей, см165 174 163 168172 174179 185 171 174 180 175Для выборки ростов девушек с помощью глазомерного метода про"верки нормальности можно убедиться в соответствии этих данных нор"мальному закону распределения.
Выборка ростов юношей недостаточновелика, чтобы можно было с уверенностью судить о ее законе рас"пределения. Аналогия с первой выборкой дает разумное основаниепредполагать и ее нормальной.Ïîäãîòîâêà äàííûõ. Поместим наблюдения из таблиц 5.1 и 5.2 впеременные girl и boy электронной таблицы пакета (см. рис. 5.4).Âûáîð ïðîöåäóðû. В меню Статистические методы (рис. 1.17) выберемпункт 4 = Стьюдента и Фишера.Çàïîëíåíèå ïîëåé ââîäà äàííûõ.
На экране появится окно Анализпеременных. С помощью мыши выделим в левом поле этого окна именапеременных girl и boy. Нажав кнопку со стрелкой вправо, перенесем ихв правое поле и нажмем кнопку запроса Óòâåðäèòü.Ðåçóëüòàòû. На рис. 5.5 приведены значения статистик Фишераи Стьюдента для проверки гипотез о равенстве дисперсий и среднихзначений двух нормальных выборок. Указаны их минимальные уровнизначимости и числа степеней свободы соответствующих распределений.182позволяет строить доверительные интервалы для среднего для одной инескольких выборок, выводит на график гистограмму и строит графикна нормальной вероятностной бумаге, а также вычисляет различныеустойчивые оценки для среднего значения.
В блоке Compare Means (см.рис. 5.9) практически все процедуры предназначены для работы с од"ной или несколькими нормальными выборками и парными данными.Ниже на примерах будут разобраны процедуры One'Sample T'Test (крите"рий Стьюдента для одной выборки) и Independent Samples T'Test (критерийСтьюдента для нескольких независимых выборок).Пример 5.1к. Построим 95% доверительные интервалы для сред"него значения и дисперсии по выборке диаметров головок заклепок.Проверим гипотезу о равенстве среднего значения выборки заданнойвеличине 13.4.Ïîäãîòîâêà äàííûõ.
Смотри пример 1.1к.Рис. 5.4. Электронная таблица с данными из табл. 5.1 и 5.2В случае совпадения объемов анализируемых данных выводится значе"ние статистики Стьюдента для парных наблюдений (см. п. 5.4.3). Длякаждого из перечисленных критериев выводится заключение системыо принятии или отвержении гипотезы на уровне значимости α = 0.05против двусторонних альтернатив.На основании полученных результатов можно заключить, что име"ется различие между средними значениями анализируемых выборок.Имеющиеся данные не противоречат гипотезе о равенстве дисперсийвыборок.КРИТЕРИЙ ФИШЕРА И СТЬЮДЕНТА.Âûáîð ïðîöåäóðû. В блоке Compare means (см. рис. 5.9) меню Analyzeредактора пакета выбрать процедуру One'Sample T'Test.Çàïîëíåíèå ïîëåé ââîäà äàííûõ.
Окно ввода данных и параме"тров этой процедуры представлено на рис. 5.6.Файл:Переменные: girl, boyСтатистика Фишера=0.64116, Значимость=0.1039, степ.своб = 19,52Гипотеза 0: <Нет различий между выборочными дисперсиями>Статистика Стьюдента=6.6794, Значимость=0, степ.своб = 71Гипотеза 1: <Есть различия между выборочными средними>Рис. 5.6. Пакет SPSS. Окно ввода данных и параметров процедуры «One"Sample T"Test»Рис.
5.5. Результаты проверки различия между средними и дисперсиями выборокÊîììåíòàðèè. Процедура указывает минимальные уровни значимостикритериев против двусторонних альтернатив. Чтобы получить значения ми"нимальных уровней значимости для критерия Стьюдента против односторон"них альтернатив, следует разделить значение минимального уровня значимостипротив двусторонних альтернатив пополам.5.5.2. SPSSОсновные процедуры для анализа нормальных выборок сосредото"чены в двух блоках Descriptive Statistics и Compare Means меню Analyze. Обратимособое внимание на процедуру Explore из блока Descriptive Statistics. Она183В этом окне перенести переменную d из левого поля в поле TestVariable. Для получения доверительного интервала для среднего значенияв поле Test Value указать значение 0.
Если необходимо проверить гипотезуо равенстве среднего заданному числу 13.4, в поле Test Value указать эточисло. Кнопка «Option» позволяет скорректировать уровень доверия вполе Confidence Interval. По умолчанию он равен 95%.Ðåçóëüòàòû. Процедура выдает две таблицы в окно навигаторавывода результатов (см. рис. 5.7.)Таблица One'Sample Statistics включает объем выборки N, ее среднеезначение Mean, стандартное отклонение Std. Deviation и стандартную184Пакет SPSS не предоставляет простой возможности для построениядоверительного интервала для дисперсии выборки. Для расчета границдоверительного интервала (5.3) процедура Compute пакета может выдатьзначения χ21−α и χ2α с заданным числом степеней свободы.
Осталь"ные вычисления в (5.3) надо провести вручную, используя полученноезначение стандартного отклонения в качестве оценки величины s.Пример 5.2к. Проведем анализ однородности двух нормальныхвыборок для данных о росте девушек и юношей. (Описание этих данныхдано в пункте 5.4.1.). Проверим гипотезу о равенстве их среднихзначений и дисперсий.Рис.
5.7. Пакет SPSS. Результаты расчетов процедуры«One"Sample T"Test» для случая Test Value равно нулюошибку среднего значения Std. Error Mean. Последняя величина равнастандартному отклонению, деленному на квадратный корень из объемавыборки.Таблица One'Sample Test содержит значения t"статистики Стьюдентаt, ее число степеней свободы df, минимальный уровень значимостиt"статистики против двусторонних альтернатив Sig. (2'tailed), разностьмежду выборочным средним и значением, указанным в поле Test Valueэкрана ввода параметров процедуры, а также нижнюю Lower и верхнююUpper границы 95% доверительного интервала для разности 95% ConfidenceInterval of the Difference. Если в поле Test Value указан 0, получаем простодоверительный интервал для среднего.Результаты проверки гипотезы о равенстве среднего значения 13.4(Test Value = 13.4) приведены на рис. 5.8.Ïîäãîòîâêà äàííûõ.
В редакторе данных пакета ввести данныетаблиц 5.1 и 5.2 в одну переменную height, как это показано на рис. 5.9.Создать переменную sex и в ней указать признак пола респондента,например, 0 – для девушек и 1 – для юношей. Это стандартнаяформа ввода данных в SPSS для всех процедур анализа выборок, заисключением анализа парных данных.Рис. 5.9. Пакет SPSS.
Форма ввода данных для процедуры«Independent"Samples T"Test». Меню блока «Compare Means»Рис. 5.8. Пакет SPSS. Результаты расчетов процедуры«One"Sample T"Test» для случая Test Value равно 13.4Âûáîð ïðîöåäóðû. Выбрать процедуру Independent'Samples T'Test вблоке Compare Means, как это показано на рис. 5.9.Минимальный уровень значимости t"статистики в этом случае равен0.025. Таким образом, гипотеза о равенстве среднего значения выборки13.4 отвергается при 95% уровне доверия, хотя при 99% уровне доверияу нас нет оснований отвергнуть гипотезу.Çàïîëíåíèå ïîëåé ââîäà äàííûõ. Окно ввода данных и пара"метров этой процедуры показано на рис.
5.10. В нем перенесите пе"ременную height в поле Test Variable, а переменную sex — в поле GroupingVariable. Кнопкой «Define Groups» вызовите окно, в котором определите185186значение 0 для первой группы Group 1 и значение 1 — для второй группыGroup 2. Кнопка «Option» позволяет скорректировать уровень доверия длядоверительного интервала.Рис. 5.10. Пакет SPSS. Окно ввода данных ипараметров процедуры «Independent"Samples T"Test»Ðåçóëüòàòû. Выдача результатов включает две таблицы, предста"вленные на рис. 5.11.Расчеты процедуры включают t"статистику Стьюдента t, число сте"пеней свободы df, минимальный уровень значимости статистики противдвусторонних альтернатив Sig. (2'tailed), разность средних значений выбо"рок Mean Difference, стандартную ошибку разности Std. Error Difference и 95%доверительный интервал для разности.Обратим внимание, что оба 95% доверительных интервала дляразности в таблице Independent Samples Test не включают значение 0, тоесть гипотеза о равенстве средних значений при этом уровне значимостиможет быть отвергнута.
О том же свидетельствуют уровни значимостиt"критерия Стьюдента для каждого из способов расчетов.Минимальный уровень значимости критерия Левена показывает,что у нас нет оснований отвергнуть гипотезу о равенстве дисперсийвыборок.Êîììåíòàðèè. Существуют различные критерии для проверки гипотезыо равенстве дисперсий нормальных выборок.
Описанный в п. 5.4.2 критерийФишера весьма чувствителен к нарушениям нормального закона распределениявыборок, и в частности, к наличию в выборке нехарактерных или аномальныхзначений. Критерий Левена более устойчив к нарушениям начальных пред"положений о выборках. В его основе лежит вычисление модулей отклоненийзначений выборки от выборочных средних и дальнейший дисперсионный анализэтих данных.Рис.
5.11. Пакет SPSS. Результаты расчетов процедуры «Independent"Samples T"Test»Таблица Group Statistics (статистики для групп) полность аналогичнатаблице One'Sample Statistics, разобранной в примере 5.1к, но только вклю"чает показатели для двух выборок.Таблица Independent Samples Test содержит результаты для двух разныхспособов расчета. Первый — предполагает равенство дисперсий выбо"рок Equal variances assumed, а второй — отсутствие этого условия Equal vari'ances not assumed.
Для подсказки, какими результатами воспользоваться,в таблице приводится значение F"статистики и ее минимальный уро"вень значимости для проверки гипотезы о равенстве дисперсий выборок(Levene's Test for Equality of Variances).1871886Наиболее распространенным и удобным способом представленияподобных данных является таблица (см. табл.
6.1). В зависимости отколичества влияющих факторов (в данном случае фактор один), говорят,что данные сведены в таблицу, с одним, двумя и т.д. входами.…<… …ƒТаблица 6.1Обработки (соответствуютуровням фактора)Результаты измерений6.1. … ƒЗадача однофакторного анализа. При исследовании зависимо"стей одной из наиболее простых является ситуация, когда можно ука"зать только один фактор, влияющий на конечный результат, и этотфактор может принимать лишь конечное число значений (уровней).Такие задачи (называемые задачами однофакторного анализа) весьмачасто встречаются на практике. Типичный пример — сравнение подостигаемым результатам нескольких различных способов действия, на"правленных на достижение одной цели, скажем, нескольких школьныхучебников или нескольких лекарств.Терминология.