В.Д. Мятлев, Л.А. Панченко, А.Т. Терехин - Основы математической статистики (1118816), страница 2
Текст из файла (страница 2)
вглаве 2 обоснование деления на n-1вместо деления на n)8ВыборочныйасимметриикоэффициентВыборочный коэффициент эксцессаЗная эмпирическую функцию распределения, можно найтиэмпирические квантили, квартили и итерквартильную широту точно так же,как в случае обычной (теоретической) функции распределения. А именно,порядка р получается как абсцисса точкивыборочная квантильпересечения горизонтальной прямой, пересекающей ось ординат в точке р,(если пересечение не точка,с эмпирической функцией распределенияа отрезок, то в качестве квантили можно взять абсциссу середины этогоотрезка).Выборочныеквантиливыборочную нижнюю квартильдаютсоответственно, выборочную медиануи выборочнуюверхнююквартиль,аразностьвыборочнуюинтерквартильную широту.
Еще одна характеристика разброса значенийслучайной величины - размах R определяется как разность междумаксимальным и минимальным значением в выборке.Если наблюдается не одномерная, а двумерная случайная величина, т. е. выборка состоит из п пар значений {x1,y1},{x2,y2},…,{xn,yn}, томожно вычислить выборочный коэффициент ковариации для игдеВыборочный коэффициент корреляции определяется формулойгде9Выборочную моду xmod целесообразно оценивать для дискретного инепрерывного генерального распределения различными способами.
Вдискретном случае оценкой моды будет значение, встретившееся в выборкенаибольшее число раз.Ниже даны значения характеристик, вычисленные для приведенноговыше примера данных о длинах лепестков ириса.Название характеристикиЗначениехарактеристикиВыборочное среднееВыборочная дисперсияВыборочныйасимметриикоэффициентВыборочный коэффициент эксцессаМинимумxmin=3.0Максимумxmax=5.1РазмахR=2.1Нижняя квартиль=4.00Верхняя квартиль=4.60Интерквартильный размах=0.60Медиана=4.35Модаxmod=4.50В непрерывном случае повторяющиеся значения редки или вообщеотсутствуют, поэтому следует разбить диапазон изменения наблюденныхзначений точками a0, a1,..., ak на k равных промежутков [a0, a1], (a1, a2], ...,(ak-1, ak] длиной h=(ak-a0)/k и в качестве выборочной моды взять серединуинтервала, в который попало наибольшее число значений.10Рис.3.
Пример гистограммы.Результаты разбиения диапазона изменения значений выборки наинтервалы и последующего подсчета числа значений ni, попавших винтервалы i=1, 2, …, k, можно представить графически. Построив надкаждым интервалом i столбик высотой ni, мы получим так называемуюгистограмму. Если при построении гистограммы оперировать не числомзначений, попавших в интервалы, а их относительной частотой в выборкеи откладывать столбики высотой , то полученная гистограммабудет выборочным аналогом плотности непрерывного распределения. Вчастности, сумма площадей всех столбиков гистограммы будет равнаединице, как и для плотности распределения.
Очевидно, что посколькучастотыпропорциональны численностям ni, гистограммы длячисленностей и частот различаются только масштабом шкалы по осиординат. На рис. 3 приведен пример гистограммы для рассмотренной вышевыборки, содержащей 50 длин лепестков ириса (заметим, что рис. 3 можнорассматривать как результат преобразования рис. 1 путем группировкизначений по оси ординат).При построении гистограммы возникает трудно формализуемаяпроблема выбора оптимальных длин интервалов разбиения h. Обычночисло интервалов разбиения выбирают из расчета, чтобы в каждыйинтервал попало в среднем не менее десяти наблюдений (при очень малыхобъемах выборки это число уменьшают).
Таким образом, при увеличенииобъема выборки п можно уменьшать длины интервалов разбиения и болеедетально характеризовать выборку, а следовательно, и порождающее еегенеральное распределение. По сравнению с эмпирической функциейраспределения гистограмма более наглядна, однако при ее построениипривносится элемент субъективизма.112. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ2.1.
Логика статистического оцениванияДопустим, что у нас имеется случайная выборка х1,х2,...,xn значенийнекоторой случайной величины . Распределение этой случайной величиныможет быть либо полностью неизвестным, либо частично известным,например, может быть известна функциональная форма его распределения(вид функции распределения или плотности в непрерывном случае иформулы, определяющей вероятности отдельных значений, - вдискретном). Если распределение неизвестно, то нас могут интересоватьразличные его характеристики - математическое ожидание, мода, медиана,дисперсия, интерквартильная широта, моменты, асимметрия, эксцесс и т.д.Если вид распределения известен, а неизвестны лишь значенияопределяющих его параметров, нас могут интересовать также (или дажевпрежде всего) значения этих параметров, например, параметров ислучае нормального распределения, параметра - в случае пуассоновского,параметра p - в случае биномиального.
Задача оценивания неизвестногопараметра или характеристикираспределения случайной величинысостоит в вычислении на основе значений выборки х1,х2,...,xn величины, в каком-то смысле близкой к оцениваемому параметру илихарактеристике и называемой точечной оценкой .Фактически мы решали задачу оценивания в предыдущем разделе,поскольку рассматривали выборочные математическое ожидание,дисперсию и т.д. как оценки неизвестных генеральных характеристик.Однако этот подход к оцениванию был скорее интуитивным, и сейчас мыпопробуем его формализовать.
Эта формализация касается уточнениясмысла близости выборочной оценкик оцениваемомупараметру . Заметим, прежде всего, что является случайной величиной,значения которой меняются от выборки к выборке. Для некоторых выборокзначение может оказаться очень близким к оцениваемому параметру ,для других - довольно далеким. Можно, однако, потребовать, что хотя бы всреднем оценки для разных выборок группировались вокруг оцениваемогопараметра, т.е. чтобы выполнялось условие. Оценки,удовлетворяющие этому условию называются несмещенными.
Отметим,что в зависимости от контекста мы рассматриваемлибо какслучайную величину (и только в этом случае мы имеем право говорить оматематическом ожидании - как это было в приведенном определениинесмещенности), либо как алгебраическую формулу для вычислениязначения оценки по выборке, либо просто как конкретное значение,полученное для конкретной выборки.12Можно доказать, пользуясь свойствами математического ожидания иопределением выборки, что выборочное математическое ожидание (чащеявляется несмещеннойиспользуется термин выборочное среднее)оценкой генерального среднего .
Действительно, имеем(мы воспользовались также тем очевидным фактом, чтораспределение любой компоненты выборки xi, совпадает с распределениеманализируемой случайной величины).Однако, вопреки нашей интуиции, математическое ожидание второгоцентрального моментане равно генеральной дисперсии. Для получения несмещеннойоценки дисперсии надо разделить сумму квадратов на n-1, а не на n.Действительно, пользуясь свойствами математического ожидания, вчастности тем, что математическое ожидание произведения независимыхслучайных величин равно произведению их математических ожиданий,получаемТаким образом, несмещенной оценкой дляквадратов отклонений от среднего, деленная на n-1будет- суммаСледует, однако, отметить, что хотя выборочный центральныймомент второго порядка не является несмещенной оценкой для дисперсии, его смещение (отклонение математического ожидания от оцениваемогопараметра), равное, стремится к нулю при.
Оценки,удовлетворяющие этому свойству, называются асимптотическинесмещенными, и часто, когда не удается найти несмещенной оценки для13оцениваемого параметра, довольствуются асимптотически несмещеннымиоценками. Конечно, нас не очень интересует, что происходит со смещением, когда мы имеем дело с конкретной выборкой фиксированногоприобъема n.
Скорее, мы предпочитаем асимптотически несмещенные оценкииз-за того, что, как правило, их смещение относительно невелико при неочень малых объемах выборки. Например, смещение2% .при n=50 равноКонечно, коль скороесть несмещенная оценка для, то ей иследует пользоваться. Однако нас чаще интересует не столько оценкаслучайнойвеличиныx,сколькооценкаеедисперсиисреднеквадратичного отклонения.
Естественно взять в качествеоценки среднеквадратичного отклонения квадратный корень несмещеннойоценки, т.е. s, однако следует помнить, что s не будет несмещенной, а будет лишь асимптотически несмещенной.оценкой дляИтак, на примере с получением несмещенной оценки дисперсии мыубедились, что "естественный" способ получения оценок, состоящий виспользовании характеристик выборочного распределения в качествеоценок характеристик генерального распределения не всегда приводит кнаилучшим результатам. Существуют ряд регулярных приемов полученияоценок (метод моментов, метод максимального правдоподобия, методминимума хи-квадрата), но они не всегда приводят к наилучшим оценкам(например, с точки зрения несмещенности).
Поэтому общий подход кзадаче оценивания состоит в том, что в качестве претендента на оценкухарактеристики или параметра (для краткости мы иногда будемиспользовать только термин "параметр") генерального распределения послучайной выборке х1,х2,...,xn в принципе может претендовать любаяот компонент выборки (часто вместо словосочетанияфункция"функция от выборки" используют более краткий термин "статистика"),среди которых должна быть выбрана наилучшая.У нас уже есть один критерий для сравнения оценок - это наличиеили отсутствие несмещенности (хотя бы асимптотической).
Однако этогонедостаточно. Действительно, было показано, что выборочное среднее несмещенная оценка для математического ожидания. Но можнопредложить другие несмещенные оценки для математического ожидания.Например, полусумма первого и последнего значений выборки (х1+xn)/2 каклегко показать, будет также несмещенной оценкой для. Конечно,интуитивно мы чувствуем, что- более предпочтительная оценка,поскольку она более полно учитывает информацию, содержащуюся ввыборке.