Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 34
Текст из файла (страница 34)
2.Приведем из них те, которые нам понадобятся в этой главе.1. Если η ∼ N (0, 1), а ξ = a + ση, то ξ ∼ N (a, σ 2 ). (Другими сло"вами, линейное преобразование ξ = a + ση случайной величиныη, имеющей стандартное нормальное распределение, приводитк случайной величине ξ, имеющей нормальное распределение спараметрами a и σ 2 .2. Если ξ1 и ξ2 — независимые нормально распределенные слу"чайные величины с параметрами a1 , σ12 и a2 , σ22 соответственно,то их сумма ξ1 + ξ2 тоже распределена по нормальному закону,притом с параметрами a1 + a2 и σ12 + σ22 .5.2. ƒ… ……Для того, чтобы убедиться, что выборка действительно имеет нор"мальный характер распределения (т.е.
о ней можно говорить как овыборке из гауссовского распределения с некоторыми значениями a иσ 2 ), можно использовать простой графический прием представленияданных. В его основе лежат следующиерассуждения.. Значения функции ЛапласаРассмотрим зависимость y = Φ x−aσΦ(u) и обратной к ней Φ−1 нетрудно найти по таблицам (см. гл. 2).Применим к рассматриваемой зависимости функцию Φ−1 и введем пе"ременную z = Φ−1 (y). Тогда зависимость превращается в линейную:x−az=.σДля проверки гипотезы о нормальном характере закона распреде"ления выборки x1 , .
. . , xn воспользуемся тем, что выборочная функцияраспределения Fn (x) при больших объемах выборки n равномерно близ"ка к теоретической функции распределения. Для удобства дальнейшихрассуждений перейдем от выборки к вариационному ряду x(1) , . . . , x(n) .Как мы отмечали в гл. 1, Fn (x) — кусочно"постоянная функция, котораяв каждой из точек xi совершает скачок, равный 1/n, причем при x < x(1)Fn (x) = 0, а при x > x(n) Fn (x) = 1. Для проверки нормальности выбор"ки мы можем применить функцию Φ−1 к серединам этих скачков (зна"чения функции надо взять из таблицы квантилей функции Лапласа). Врезультате мы получим точки (x(i) , Φ−1 ( 2i−12n )) в плоскости (x, z). В166зависимости от того, насколько хорошо эти точки «ложатся» на прямуюлинию, мы можем судить о нормальности распределения выборки.Даже небольшой опыт работы с реальными выборками позволя"ет человеку достаточно уверенно выделять среди них отклоняющиесяот нормальных.
В сомнительных случаях проверку на нормальностьможно продолжить, прибегнув и к другим статистическим критериям(см. также гл. 10). В заключение заметим, что в основе обсуждаемогографического метода лежит удивительное свойство человеческого глазаобнаруживать сходство геометрического образа с прямой линией.Замечание. Применение функции Φ−1 к серединам скачков функции Fn вопределенной степени вызвано тем, что мы не могли применить Φ−1 ни к самойфункции Fn (x), ни к верхним или нижним «концам» ее скачков. Дело в том,что Φ−1 (0) = −∞), а Φ−1 (1) = ∞).Пример.
Проверим с помощью изложенного метода гипотезу о том, чтовремя реакции на свет распределено по нормальному закону. Данные этойзадачи приведены в таблице 3.1 (см. п. 3.3). Имеем выборку (x1 = 181,x2 = 194, x3 = 173, x4 = 153, x5 = 168, x6 = 176, x7 = 163, x8 = 152,x9 = 155, x10 = 156, x11 = 178, x12 = 160, x13 = 164, x14 = 169,x15 = 155, x16 = 122, x17 = 144). Перейдем к вариационному ряду x(i) инанесем наблюдения на ось x. Далее с помощью таблицы квантилей функ"ции Лапласа вычислим Φ−1 (1/34), Φ−1 (3/34) , . . . Φ−1 (33/34). Заметим, чтоΦ−1 ((2k − 1)/2n) = − Φ−1 ((2n − 2k + 1)/2n) . Отсюда имеем:Φ−1 (17/34) = Φ−1 (1/2) = 0,Φ−1 (19/34) = − Φ−1 (15/34) = 0.1479, Φ−1 (21/34) = − Φ−1 (13/34) = 0.2993,Φ−1 (23/34) = − Φ−1 (11/34) = 0.4578, Φ−1 (25/34) = − Φ−1 (9/34) = 0.6289,Φ−1 (27/34) = − Φ−1 (7/34) = 0.8208, Φ−1 (29/34) = − Φ−1 (5/34) = 1.0494,Φ−1 (31/34) = − Φ−1 (3/34) = 1.3517, Φ−1 (33/34) = − Φ−1 (1/34) = 1.8895.На рис.
5.1 приведены значения Fn (x) в плоскости (x, z). Глазомерныйметод позволяет нам судить, насколько правдоподобна гипотеза о нормальностираспределения выборки. Однако четкого критерия отклонения гипотезы онне дает.В целом отметим, что детальная проверка гипотезы о нормальностивыборки требует довольно значительных объемов выборки (как мини"мум, порядка сотни наблюдений), и исследователю при обработке дан"ных прежде всего необходимо руководствоваться априорными сообра"жениями о законе распределения.5.3. … ……… В практических задачах часто возникает необходимость проверкигипотез, связанных со значениями параметров одной или несколькихнормальных выборок.
Решение этих задач основано на свойствах оце"нок параметров нормального распределения a и σ 2 . Поэтому преждечем формулировать постановки задач, связанных с проверкой гипотез,изучим свойства оценок параметров нормального распределения.Пусть x1 , . . . , xn — выборка из нормального распределения с па"раметрами a и σ 2 . Как отмечалось выше, если случайная величинаξ ∼ N (a, σ 2 ), то M ξ = a и Dξ = σ 2 . Поэтому в качестве оценокпараметров a и σ 2 , т.е. их приближенных значений, вычисленных повыборочным данным, можно использовать, например, выборочное сред"нее и дисперсию. Иногда в качестве оценок указанных параметроврассматривают и некоторые другие функции от выборки x1 , .
. . , xn . На"пример, в качестве оценки параметра a часто используют медиану вы"борки x1 , . . . , xn или среднее значениевыборки без максимального иn−11минимального элементов, т.е. n−2качестве оценки σ 2i=2 x(i) . Вn12вместо обычно используемой оценки s = n−1 i=1 (xi − x)2 можно# $2рассматривать величину n1 ni=1 |xi − x | и т.д.О том, чем можно руководствоваться при выборе той или инойоценки неизвестного параметра и какие оценки лучше, упоминалось вгл.
4. Сейчас мы изучим свойства оценок x и s2 , начав с x.Свойства выборочного среднего. Мы уже знаем, что по законубольших чисел (см. гл. 4) выборочное среднее x стремится к a сувеличением объема выборки n, т.е. x приблизительно равно a прибольших объемах выборки. Нас будет интересовать, насколько точнымявляется это приближенное равенство. Близость x к a подразумеваетсуществование некоторого малого числа ε, такого, что|x − a| < ε.(5.1)Так как x является случайной величиной, |x − a| хоть и с малойвероятностью, но все же может оказаться больше ε (мы уже обсуждалиРис. 5.1.
Значения скачков эмпирической функции распределения Fn (x)на плоскости (x, z) (вдоль оси ординат приведены значения Φ(z) в процентах)167168это в гл. 4). Поэтому соотношение (5.1) может быть лишь практическидостоверным, т.е. выполняется с вероятностью, близкой к единице —для достаточно больших n. Для выяснения вероятность выполнениянеравенства (5.1) надо найти распределение оценки x.Из свойств нормального распределения, приведенных в п. 5.1, легкоследует, что x также имеет нормальное распределение. При этом% n&n1nσ 2σ21 .M x = a,Dx = Dxi = 2 Dxi = 2 =n i=1nnni=1Чтобы найти вероятностьвыполнения неравенства (5.1), рассмо"√трим величину η = n (x − a)/σ.
По отмеченным свойствам нормально"го закона, эта случайная величина имеет распределение N (0, 1). Пред"положим сначала, что нам известна величина σ. (На практике этодовольно редкий случай. Мы начнем с него, чтобы яснее изложитьстатистическую идею.)Для любого малого α, α > 0 можно указать с помощью таблиц нор"мального распределения такое число z, что P (|η| < z) = 1 − 2α. Чтобысвязь z и α была более явной, обозначим это число как z1−α .
Нетрудновидеть, что z1−α — это квантиль уровня 1 − α стандартного нормаль"ного распределения. На рис. 5.2 изображена функция распределенияy = Φ(x) стандартного нормального распределения N (0, 1) и отмеченаточка z1−α . При этом в силу симметрии распределения zα = −z1−α .Каждый отмеченный отрезок на оси ординат имеет длину, равную α.σP | x − a | < √ z1−α = 1 − 2α.nЭто означает, что с вероятностью1 − 2α точность приближения x к a√не ниже, чем σ z1−α / n. При этом значение вероятности 1 − 2α можетбыть выбрано сколь угодно близким к единице.Заметим, что по отношению к неизвестному a решение неравенстваσ| x − a | < √ z1−αn'(представляет собой интервал x − √σn z1−α , x + √σn z1−α с центром x иили2σдлиной √z. Этот интервал называют доверительным интерваломn 1−αдля неизвестного a с коэффициентом доверия 1 − 2α.Точность оценивания. Выясним, как влияет на точность оцениванияпараметра a объем выборки n, разброс σ, а также коэффициент доверия 1 − 2α.а)при увеличении n (числа повторных измерений, объема выборки)точность тоже увеличивается.
К сожалению, увеличение точности(т.е.√ уменьшение длины доверительного интервала) пропорционально1/ n, а не 1/n, т.е. происходит гораздо медленнее, чем рост числанаблюдений. Например, если мы хотим увеличить точность выводов в10 раз чисто статистическими средствами, мы должны увеличить объемвыборки в 100 раз;б) чем больше σ, тем ниже точность.
Зависимость точности от этогопараметра носит линейный характер;в) чем выше коэффициент доверия 1 − 2α, тем больше квантиль z1−α ,т.е. тем ниже точность. При этом между 1 − α и z1−α существуетнелинейная связь (см. рис. 5.2). С уменьшением α значение z1−αрезко увеличивается (z1−α → ∞ при α → 0). Поэтому с большойуверенностью (с высокой доверительной вероятностью) мы можем га"рантировать лишь относительно невысокую точность. (Доверительныйинтервал окажется широким.) И наоборот: когда мы указываем длянеизвестного a относительно узкие пределы, мы рискуем совершитьошибку — с относительно большой вероятностью.Для доверительной вероятности (для коэффициента доверия) нет какого"либо наилучшего значения, которого мы могли бы придерживаться.