Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 9
Текст из файла (страница 9)
Затратив большую сумму нарассылку и обработку открыток, журнал объявил, что на предстоящих выборахпрезидентом США с большим перевесом будет избран Ландон. Результатвыборов оказался противоположным этому прогнозу.Здесь были совершены сразу две ошибки — во"первых, телефонные книгисами по себе дают не репрезентативную выборку из населения страны, хотябы потому, что абоненты — в основном зажиточные главы семейств. Во"вторых, прислали ответы не все, а люди, не только достаточно уверенные всвоем мнении, но и привыкшие отвечать на письма, т.е. в значительной части38представители делового мира, которые и поддерживали Ландона. Если быредакция критически подошла к своей работе, она поняла бы, что методикаопроса страдает изъянами.Явление, подобное только что описанному, когда выборка представляет невсю генеральную совокупность, а лишь какой"то ее слой, какую"то ее часть,называется смещением выборки.
Смещение — один из основных источниковошибок при использовании выборочного метода.Однако для тех же самых президентских выборов социологи Дж.Гэллап иЭ.Роупер правильно предсказали победу Рузвельта, основываясь только на 4тысячах анкет. Причиной этого успеха, прославившего его авторов, было нетолько правильное составление выборки. Они учли, что общество распадает"ся на социальные группы, которые более однородны, в том числе по своимполитическим взглядам. Поэтому выборка из слоя может быть относительномалочисленной с тем же результатом точности. Имея результаты обследованияпо слоям, можно характеризовать общество в целом. Сейчас такая методикаявляется общепринятой.Мы не станем обсуждать, как следует организовывать случайныйвыбор на практике, если генеральная совокупность — это реальныеобъекты.
Но отметим, что при этом возникают свои проблемы и,соответственно, средства их разрешения. Подробно с этим кругомвопросов можно познакомиться в [54].1.8. " …1.8.1. В предыдущем параграфе мы использовали слово «выборка» для опи"сания результата случайного выбора нескольких объектов из некоторойзаданной генеральной совокупности. В этом смысле слово «выборка»используется, когда мы говорим «социологический опрос произведен навыборке из 2000 человек (респондентов)». Но в математической лите"ратуре слово «выборка» гораздо чаще используется в другом смысле.Дадим его определение.Определение.
Выборкой называют последовательность независимых одинаково распределенных случайных величин.Именно в этом значении слово «выборка» употребляется в статисти"ческих задачах естествознания и в этом значении оно будет встречатьсядалее в этой книге.Замечание. Происхождение данного значения слова «выборка» связано сдавними ассоциациями всякого случайного испытания со случайным выборомиз некоей совокупности.
Если эта совокупность является конечной (как это ибывает на практике), то последовательные результаты случайных выборов из39нее не являются независимыми, поскольку каждое изъятие элемента из сово"купности изменяет эту совокупность. Конечно, для обширных совокупностейизвлечение одного или нескольких элементов мало изменяет вероятности вы"бора, но все же они не остаются постоянными в процессе выбора. В связи сэтим иногда говорят о бесконечных генеральных совокупностях (популяциях)и о случайном выборе из них.
Это образное выражение может сделать болеенаглядным представление о независимых случайных величинах.1.8.2. "… Перечисленные в параграфе 1.4 характеристики случайной величи"ны существенно опираются на знание закона ее распределения F (x).Для практических задач такое знание — редкость. Здесь закон рас"пределения обычно неизвестен, в лучшем случае он известен с точно"стью до некоторых неизвестных параметров. Как же тогда получитьсведения о распределении случайной величины и его характеристиках?Это становится возможным, когда имеются независимые многократныеповторения опыта, в котором мы измеряем значения интересующей насслучайной величины.Предположим, что наблюдения над случайной величиной ξ можноповторять независимо и в неизменных условиях, получая ее независи"мые реализации x1 , x2 , .
. . , xn . Тогда x1 , x2 , . . . , xn будут независимымиодинаково распределенными случайными величинами, то есть выборкой. Зная величины x1 , x2 , . . . , xn , мы можем построить приблизитель"ные значения для функции распределения и других характеристик слу"чайной величины ξ. Это и позволяет нам изучать свойства случайныхвеличин, не зная их законов распределения.Замечание. Мы уже встречались с идеей независимых повторений случай"ного опыта в неизменных условиях, когда обсуждали измерения вероятностейсобытий.
Возвращение к этой идее не удивительно, поскольку для описанияраспределения случайной величины ξ мы как раз и должны уметь указыватьвероятности всех событий, выражаемых через ξ.Расскажем о том, как по имеющейся выборке можно получитьприближенные значения для характеристик случайных величин. Начнемс функции распределения случайной величины.Эмпирическая функция распределения.Определение. Выборочной (эмпирической) функцией распределения случайной величины ξ, построенной по выборке x1 , x2 , . . . , xn ,называется функция Fn (x), равная доле таких значений xi , чтоxi x, i = 1, .
. . , n.40Иначе говоря, Fn (x) есть частота события xi x в рядуx1 , x2 , . . . , xn .Для построения выборочной функции распределения удобно от вы"борки x1 , . . . , xn перейти к вариационному ряду x(1) , . . . , x(n) .Определение. Вариационным рядом называют выборку, перенумерованную в порядке возрастания.Так, x(1) обозначает наименьшее из чисел x1 , . .
. , xn , x(2) — наи"меньшее из оставшихся после удаления x(1) и т.д. В частности, x(n)обозначает наибольшее из x1 , . . . , xn . При x < x(1) , по определению,Fn (x) = 0, в точке x(1) функция Fn (x) совершает скачок, равный 1/n, иостается постоянной до значения x(2) , и т.д. Таким образом, выбороч"ная функция распределения является ступенчатой с точками скачковx(1) , . . . , x(n) , причем величина каждого скачка равна 1/n (рис.
1.7).функцию распределения F (x) случайной величины ξ, т.е. величинаsupx |Fn (x) − F (x)| стремится к нулю при n → ∞ с вероятностью 1.Выборочные характеристики. На указанном выше свойстве вы"борочной функции распределения основаны многие методы математиче"ской статистики.
Замена функции распределения F (x) на ее выбороч"ный аналог Fn (x) в определении математического ожидания, дисперсии,медианы и т.п. приводят к выборочному среднему, выборочной дисперсии, выборочной медиане и т.д. Покажем, как действует это правилои чему равны соответствующие выборочные характеристики.В случае математического ожидания, используя в качестве функциираспределения случайной величины ξ выборочную функцию Fn (x) мыподразумеваем, что некая случайная величина может принять значенияx(1) , . . . , x(n) , каждое с вероятностью 1/n. Воспользовавшись формулойдля определения математического ожидания для дискретной случайнойвеличины приходим к следующему определению.Средним значением выборки (выборочным средним), или выборочным аналогом математического ожидания, называется величинаn1x=xi .n i=1Аналогично,Рис.
1.7. Общий вид эмпирической функции распределенияВидно, что график эмпирической функции распределения напоми"нает график дискретного распределения вероятностей. Это не слу"чайно: эмпирическую функцию выборки x1 , . . . , xn можно рассматри"вать как функцию распределения вероятностей, где каждому значениюxi , i = 1, . .
. , n, приписана вероятность 1/n. Иногда поэтому вместоэмпирической (или выборочной) функции распределения употребляютназвание «функция распределения выборки».Связь между эмпирической функцией распределения и функциейраспределения (иногда, чтобы подчеркнуть разницу, говорят о теорети"ческой функции распределения, что не вполне правильно, ибо никакойтеории здесь нет) основана на уже упомянутой теореме Бернулли. Онатакая же, как связь между частотой события и его вероятностью. Длялюбого числа x значение Fn (x) представляет собой частоту события(ξ x) в ряду из n независимых повторений.
Поэтому Fn (x) → F (x)при n → ∞.Установлено, что выборочная функция распределения с ростомобъема выборки n равномерно по x аппроксимирует теоретическую41Дисперсией выборки (выборочной дисперсией), или выборочным аналогом дисперсии, называется величина1(xi − x)2 .n i=1nОднако в статистике чаще в качестве выборочной дисперсии ис"пользуютn1 2s =(xi − x)2 .n − 1 i=1поскольку математическое ожидание величины s2 равно дисперсии ξ,т.е. M s2 = Dξ.Выборочной квантилью называется решение уравненияFn (x) = p.В частности, выборочная медиана есть решение уравненияFn (x) = 0.5.42Замечание.
Решение уравнения Fn (x) = 0.5 при четном n = 2kопределено не однозначно. Действительно, для каждого x из промежуткаx(k) x < x(k+1) F (x) = 0.5. В этом случае условились определить выбороч"x+xную медиану как (k) 2 (k+1) . При нечетном n = 2k + 1 решение уравненияфункция распределенияпри"Fn (x) = 0.5 не существует, так как выборочнаянимает только значения из множестваi,2k+1i = 0, 1, .
. . , 2k + 1 . В связис этим выборочную медиану определяют как x(k+1) , ибо в этой точке Fn (x)переходит через 1/2. Выборочная медиана разбивает выборку пополам: слева исправа от нее оказывается одинаковоевыборки. Заметим, чточисло элементов1→.при больших значениях n: Fn x(k+1) = (k+1)2k+12Важным свойством выборочных характеристик является то, что всеони сходятся к соответствующим теоретическим характеристикам прирастущих объемах выборки n.
Характер этой сходимости будет рассмо"трен в главах 4 и 5, когда речь пойдет о законе больших чисел и о по"строении статистических оценок различных параметров распределения.Выборочные ковариация и корреляция. Если в каждом наблюде"нии мы регистрируем значения не одной, а двух (или нескольких) слу"чайных величин одновременно, мы получаем в результате двумерную(или многомерную) выборку. Для таких выборок тоже можно говоритьо числовых характеристиках, например, о ковариации или корреляциикомпонент этой выборки.Коэффициентом корреляции двумерной выборки (x1 , y1 ), . . .