Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 96
Текст из файла (страница 96)
Встатистике такая работа чаще всего заканчивается обращением к та"блицам. Их удобно иметь под рукой.При обработке данных с помощью пакетов статистических программвсе необходимые числа, как правило, предоставляет компьютер. Дляклассических методов статистики и распределений, связанных с нор"мальным (Стьюдента, хи"квадрат и т.д.), с этим проблем обычно невозникает. Для непараметрических статистик пакеты чаще всего указы"вают критические значения, основанные на апроксимациях для большихвыборок. Для малых выборок эти приближенные значения могут ока"заться неудовлетворительными. В этих случаях необходимы таблицы.Чтобы уложиться в разумный объем, мы даем таблицы в упрощенномвиде и не для всех объемов выборок.
Это только таблицы процентныхточек и критических значений. В описании таблиц мы не касаемсявопросов интерполяции и экстраполяции, которые часто возникают припользовании таблицами. Частично эти вопросы рассматриваются восновном тексте книги.Возможно, что для некоторых статистических исследований этитаблицы окажутся недостаточными. Тогда следует обратиться к болееобширным таблицам математической статистики, например, [19], [32],[65], либо к пакетам статистических программ.В настоящем приложении представлены десять наиболее употреби"тельных таблиц математической статистики. Часть из них (нормальное,биномиальное распределения, распределения Стьюдента, хи"квадрат иF"распределение) более доступна для широкого читателя, т.к. эти табли"цы часто публикуются в приложениях к учебным пособиям, в общеста"тистической литературе и в справочниках.
Другая часть — это таблицынепараметрической статистики. В приложении представлены таблицыпроцентных точек для статистик Уилкоксона, Краскела"Уоллиса, Фрид"мана и двух коэффициентов ранговой корреляции — Кендэла и Спирме"на. Непараметрические методы статистики позже вошли в программыучебных курсов, они хуже отражены в научной и учебной литературе.490Между тем, непараметрические методы очень нужны для экономиче"ских, социальных, медицинских, биологических, экологических и др.исследований.
Сейчас эти методы очень признаны и популярны. Ксожалению, таблицы по непараметрической статистике публиковалисьна русском языке малыми тиражами, в основном — в специальнойлитературе и давно стали библиографическими редкостями. Впрочем,сетования на недоступность таблиц относятся ко всей математическойстатистике, в последний раз сборник таких таблиц был издан в СССРв 1985 году [65].Основой для настоящего приложения послужили таблицы из ГОСТ23554.2"81 [32] и New Cambridge Elementary Statistical Tables [133], атакже из книги М.Холлендера и Д.Вулфа [115]. Часть таблиц приведенав переработанном виде. Каждая таблица снабжена кратким описанием;к каждой дан пример на считывание табличных значений. Примерына считывание таблиц соотнесены с теми статистическими критериями(с указаниями нулевых гипотез и альтернатив), для которых нужнасоответствующая таблица.
Подробное описание этих критериев данов основной части книги.В названных таблицах мы употребляем два выражения: процентныеточки и критические значения. Мы говорим о процентных точках рас"пределений вероятностей и о критических значениях выборочных ста"тистик. Для нормального, биномиального, Стьюдентовского, хи"квадрати F"распределений приводятся процентные точки, а для статистик Уил"коксона, Краскела"Уоллиса, Фридмана и коэффициентов ранговой кор"реляции — критические значения.Определение 2.
Если S — статистика критерия, ее верхнимкритическим значением x уровня альфа называют решение уравнения:P (S x) = α,где α — заданное число, 0 < α < 1.При этом приходится дополнительно говорить о предположениях иусловиях, в которых мы рассматриваем статистику S. Скажем, дляупомянутой выше статистики сумм Уилкоксона приходится уточнять,что мы рассматриваем ее для независимых, непрерывных и однородныхвыборок. Название верхние критические значения прямо сообщает егостатистический смысл: надо отвергать гипотезу (на указанном уровнезначимости), если выборочное значение статистики превосходит этокритическое значение или равно ему.Многие распределения и статистики зависят от одного или несколь"ких целочисленных параметров.
Обычно эти параметры — число степе"ней свободы или объемы выборок. Чтобы указать, какие значения этихпараметров отражены в таблицах, мы употребляем обозначения типаn = 4(1)10(2)20 и т.д. Читать эту запись надо так: n изменяется отn = 4 с шагом единица (т.е. увеличиваяся последовательно на единицу)до n = 10; далее n изменяется от n = 10 с шагом 2 до n = 20 и т.д.Благодарим Н.П.Нискину и Д.С.Шмерлинга за большую помощь вподготовке таблиц.Определение 1. Рассмотрим случайную величину ξ с заданнымраспределением вероятностей. Верхней альфапроцентной точкойx данного распределения называется решение уравнения:P (ξ x) = α,где α — заданное число, 0 < α < 1.Если, например α = 0.10, то соответствующее x — это верхняядесяти"процентная точка.
Название «процентной» точки больше подхо"дит, когда вероятности выражаются в процентах. Мы употребляем егои тогда, когда вероятности выражаются в долях единицы.О критических значениях статистик мы говорим тогда, когда их рас"пределения (обычно — при нулевых гипотезах) еще не обрели в языкесамостоятельного существования. Вот разница: говорят, например, ораспределении статистики ранговых сумм Улкоксона, но о распределе"нии Стьюдента, уже не связывая его с соответствующей статистикой(стьюдентовой дробью, или стьюдентовым отношением).4914923.1. "… …… …… …… …Описание таблицы. В таблице для различных значений уровнязначимости α приведены процентные точки zα стандартного нормально"го распределения N (0, 1) (см.
п. 2.4).По определению, zα есть решение уравнения:Φ(zα ) = 1 − α,где Φ(·) — функция стандартного нормального распределения (функцияЛапласа). Если через z обозначить случайную величину, распределен"ную по стандартному нормальному закону, то zα можно определить ис помощью уравнения:P (z zα ) = α.В таблице даны значения zα для некоторых значений α 0.500. Дляα < 0.5 следует использовать соотношение zα = −z1−α .Таблица взята в переработанном виде из [133].
Другие таблицысмотри в [19], [77], [115] и др.Пример на считывание таблицы. Случайная величина z, имею"щая стандартное нормальное распределение, с вероятностью α = 0.050превышает значение zα = 1.6449. Другими словами, мы должны отверг"нуть гипотезу, приводящую к стандартному нормальному распределе"нию статистики z против односторонних альтернатив на уровне значи"мости α = 0.050, если значение z статистики превысило zα = 1.6449. Вслучае двусторонних альтернатив для отвержения гипотезы на уровнезначимости α следует выбирать α/2 процентную точку zα/2 . Так приα = 0.050zα/2 = 1.9600.Таблица 1Верхние процентные точки стандартного нормального распределенияαzα0.5000.00000.4500.12570.4000.25330.3500.38530.3000.52440.2500.7645αzα0.2000.84160.1501.03640.1001.28160.0501.64490.0251.96000.0102.3263αzα0.0052.57580.00252.80700.0013.09020.00053.29050.00013.71904933.2.
"… …… … '…Описание таблицы.В таблице для числа степеней свободы n =1(1)30(2)50(5)70(10)100 и некоторых других приведены процентные точкиt(n, α) распределения Стьюдента для различных значений α (см. п. 2.6.2).Если через tn обозначить случайную величину, распределенную по Стью"денту с n степенями свободы, то t(n, α) можно определить как решение урав"нения:P (tn t(n, α)) = α.В таблице даны значения t(n, α) для некоторых значений α 0.500. Дляα < 0.500 следует использовать соотношение t(n, α) = −t(n, 1 − α).
В строке,начинающейся символом ∞ (в столбце значений n), приведены процентныеточки стандартного нормального распределения — это предельные значенияt(n, α) при n → ∞.Таблица взята из [133]. Другие таблицы смотри в [65], [74], [93].Пример на считывание таблицы. Случайная величина tn , имеющаяраспределение Стьюдента с числом степеней свободы n = 13, с вероятностьюα = 0.05 превышает значение t(n, α) = 1.7709. Другими словами, мы должныотвергнуть гипотезу, приводящую к распределению Стьюдента с n степеня"ми свободы для статистики tn , против односторонних альтернатив на уровнезначимости α = 0.05, если значение tn превысило t(n, α) = 1.7709. В слу"чае двусторонних альтернатив для отвержения гипотезы на уровне значимо"сти α следует выбирать процентную точку t(n, α/2).