Статистическая оценка и статистический анализ
4. Статистическая оценка и статистический анализ
Статистическая оценка, некоторая функция от результатов наблюдений, предназначенная для статистического оценивания неизвестных характеристик и параметров распределения вероятностей. Выделяется случай, когда распределение вероятностей принадлежит какому-либо известному семейству, зависящему от конечного числа параметров. В математической статистике используются непараметрические методы непосредственной статистической оценки функциональных характеристик распределения вероятностей, например, неизвестной функции распределения или его плотности. Так, если результаты наблюдений — независимые случайные величины, имеющие одно и то же нормальное распределение с неизвестным математическим ожиданием а, то выборочная средняя - средняя арифметическая результатов наблюдений - и выборочная медиана
где - элементы вариационного ряда, соответствующего результатам наблюдений , являются статистической оценкой неизвестного параметра а. Такие статистические оценки, приводящие в конкретном случае к числовому значению параметра, называются точечными.
В дальнейшем рассматриваются лишь точечные статистические оценки.
В качестве статистической оценки какого-либо параметра распределения вероятностей естественно выбирать такую функцию от результатов наблюдений , которая в некотором определённом смысле близка к истинному значению параметра. Принимая какую-либо меру «близости» статистической оценки к значению оцениваемого параметра, можно сравнивать различные оценки. Обычно мерой близости статистической оценки к истинному значению параметра служит величина среднего значения квадрата ошибки
(выражающаяся через математическое ожидание оценки и её дисперсию , вычисленные по распределению, зависящему от неизвестного значения ).
В классе всех несмещённых оценок (для которых при всех ) наилучшими с этой точки зрения будут статистические оценки, имеющие при заданном минимальную возможную дисперсию при всех (такие статистические оценки называются также эффективными). Указанная выше статистическая оценка для параметра нормального распределения является наилучшей несмещённой оценкой, поскольку дисперсия любой другой несмещённой статистической оценкой параметра удовлетворяет неравенству
Рекомендуемые материалы
,
где - дисперсия исходного нормального распределения. В конкретных случаях отыскание наилучших статистических оценок облегчается с помощью достаточных статистик, так как наилучшую несмещённую оценку нужно искать в классе статистических оценок, зависящих только от достаточной статистики.
Имея в виду построение статистических оценок для больших значений , изучают также асимптотические свойства статистических оценок. Естественно, например, предполагать, что вероятность отклонений от истинного значения параметра , превосходящих какое-либо заданное число, будет стремиться к нулю при . Статистические оценки с таким свойством называются состоятельными оценками.
Состоятельная оценка это статистическая оценка параметра распределения вероятностей, обладающая тем свойством, что при увеличении числа наблюдений вероятность отклонений оценки от оцениваемого параметра на величину, превосходящую некоторое заданное число, стремится к нулю. Точнее, если - независимые результаты наблюдений, распределение которых зависит от неизвестного параметра , и при каждом функция является оценкой , построенной по первым наблюдениям, то оценка называется состоятельной, если при для каждого произвольного числа и любого допустимого значения
(т. е. сходится к - по вероятности). Например, любая несмещённая оценка параметра (или оценка с ), дисперсия которой стремится к нулю с ростом , является состоятельной оценкой параметра . Так, выборочная средняя и выборочная дисперсия суть состоятельная оценка соответственно математического ожидания и дисперсии нормального распределения.
Состоятельность, являющаяся желательной характеристикой всякой статистической оценки, имеет отношение лишь к асимптотическим свойствам оценки и слабо характеризует качество оценки при конечном объёме выборки в практических задачах. Существуют критерии, позволяющие выбрать из числа всевозможных состоятельных оценок некоторого параметра ту, которая обладает нужными качествами.
Понятие «состоятельная оценка» впервые было предложено английским учёным Р. Фишером (1922).
Несмещенная оценка это статистическая оценка параметра распределения вероятностей по результатам наблюдений, лишённая систематической ошибки. Более точно: если оцениваемое распределение зависит от параметра , то функция от результатов наблюдений называется несмещённой оценкой для параметра , если при любых допустимых значениях параметра математическое ожидание
.
Например, если результаты наблюдений суть взаимно независимые случайные величины, имеющие одинаковое нормальное распределение, заданное плотностью
с неизвестными параметрами и , то среднее арифметическое
(4.1.)
будет несмещенная оценка для . Часто используемая для оценки выборочная дисперсия
не является несмещенной оценкой. Несмещенная оценка для служит
, (4.2.)
величина несмещенной оценки квадратичного отклонения имеет более сложное выражение
. (4.3.)
Оценка (1) для математического ожидания и оценка (4.2) для дисперсии являются несмещенной оценкой и при распределениях, отличных от нормального; оценка (4.3) для квадратичного отклонения, вообще говоря (при распределениях, отличных от нормального), может быть смещённой. Оценка s2 дисперсии принадлежит классу т. н. асимптотически несмещённых оценок, который определяется соотношением при .
Использование несмещенных оценок необходимо при оценке неизвестного параметра по большому числу серий наблюдений, каждая из которых состоит из небольшого числа наблюдений. Пусть, например, имеется серий
,
по наблюдений в каждой и пусть — несмещённая оценка s2 для , составленная по серии наблюдений. Тогда при большом в силу закона больших чисел
,
даже когда невелико.
Наилучшие оценки параметров распределения, как правило, разыскиваются среди несмещенных оценок.
Несмещённые статистические оценки, дисперсия которых стремится к нулю при , являются состоятельными. Асимптотическое сравнение статистических оценок производят по отношению их асимптотических дисперсий. Так, средняя арифметическая в приведённом выше примере наилучшая и, следовательно, асимптотически наилучшая статистическая оценка для параметра , тогда как выборочная медиана являющаяся также несмещённой оценкой, не является асимптотически наилучшей, т. к.
(тем не менее использование , имеет свои положительные стороны; например, если истинное распределение не является в точности_нормальным, а несколько отличается от него, то дисперсия может резко возрасти, а дисперсия остаётся почти той же, т. е. обладает свойством, называемым прочностью или робастностью).
Одним из распространённых общих методов получения статистических оценок параметров распределения является метод моментов, заключающийся в приравнивании определённого числа выборочных моментов соответствующим моментам исходного распределения, которые суть функции от неизвестных параметров, и решении полученных уравнений относительно этих параметров. Хотя метод моментов часто удобен в практическом отношении, однако статистические оценки, найденные при его использовании, вообще говоря, не являются асимптотически наилучшими. Более важным с теоретической точки зрения представляется метод максимального правдоподобия, который приводит к оценкам, являющимся при некоторых общих условиях асимптотически наилучшими; близок к последнему методу и метод наименьших квадратов.
Теория точечных статистических оценок не даёт возможности сделать заключение о «точности» таких оценок. В этом отношении статистические оценки неизвестных параметров существенно дополняются результатами интервального оценивания с помощью доверительных интервалов.
Статистическая оценка является вариантом более общего понятия статистического решения.
Статистический анализ случайных процессов, раздел математической статистики, посвященный методам обработки и использования статистических данных, относящихся к случайным процессам. Значение случайного процесса , получаемое в ходе одного испытания, называется реализацией (иначе – выборочной функцией, или траекторией) процесса . Данные о , используемые при статистическом анализе этого процесса, обычно представляют собой сведения о значениях одной или нескольких реализаций в течение определённого промежутка времен и пли же о значениях каких-либо величин, связанных с процессом (например, о значениях реализации процесса , являющегося суммой и некоторого так называемого шума , созданного внешними помехами и ошибками намерения значений .
Весьма важный с точки зрения приложения класс задач статистического анализа случайных процессов представляют задачи обнаружения сигнала на фоне шума, играющие большую роль при радиолокации. Эти задачи сводятся к проверке статистических гипотез с математической точки зрения. Здесь по наблюдённым значениям некоторой функции требуется заключить, справедлива ли гипотеза о том, что эта функция является реализацией суммы шума и интересующего наблюдателя сигнала , или же справедлива гипотеза о том, что она является реализацией одного лишь шума .
В тех случаях, когда форма сигнала не является полностью известной, задачи обнаружения часто включают в себя и задачи статистической оценки неизвестных параметров сигнала. Так, например, в задачах радиолокации очень важна задача об оценке времени появления сигнала, определяющего расстояние до объекта, породившего этот сигнал.
Задачи статистической оценки параметров возникают и тогда, когда по данным наблюдений за значениями процесса в течение определенного промежутка времени требуется оценить значения каких-либо параметров распределения вероятностей случайных величин или же, например, оценить значение в фиксированный момент времени самого процесса (в предположении, что лежит за пределами интервала наблюдений за этим процессом) или значение какого-либо вспомогательного процесса , статистически связанного с .
Наконец, ряд задач статистического анализа относится к числу задач на непараметрические методы статистики. Так обстоит дело, в частности, когда по наблюдениям за течением процесса требуется оценить некоторые функции, характеризующие распределения вероятностей значений этого процесса (например, плотность вероятности величины или корреляционную функцию процесса , или, в случае стационарного случайного процесса , его спектральную плотность .
При решении задач статистического анализа случайных процессов всегда необходимо принять те или иные специальные предположения о статистической структуре процесса , т. е. ограничить класс рассматриваемых случайных процессов. Очень ценно с точки зрения статистического анализа допущение о том, что рассматриваемый процесс является стационарным случайным процессом. При этом допущении, зная значения единственной реализации в течение конечного промежутка времени , можно уже получить целый ряд статистических выводов о вероятностных характеристиках процесса . В частности, среднее арифметическое значение
Бесплатная лекция: "3.4 Музыка и театр первой половины XIX века" также доступна.
в случае стационарного случайного процесса при весьма широких условиях является состоятельной оценкой математического ожидания (т. е. сходится при к истинному значению оцениваемой величины ). Аналогично этому выборочная корреляционная функция
,
где , при широких условиях является состоятельной оценкой корреляционной функции
.
Однако преобразование Фурье функции - так называемая периодограмма процесса уже не представляет собой состоятельной оценки спектральной плотности , являющейся преобразованием Фурье функции . При больших значениях периодограмма ведет себя крайне нерегулярно и при - она не стремится ни к какому пределу. Поэтому случайный анализ случайных процессов включает в себя ряд специальных приёмов построения состоятельных оценок спектральной плотности по наблюдённым значениям одной реализации стационарного процесса , большинство из которых основано на использовании сглаживания периодограммы процесса по сравнительно узкой полосе частот.
При исследовании свойств оценок вероятностных характеристик стационарных случайных процессов очень полезными оказываются дополнительные допущения о природе (например, допущение о том, что все конечномерные распределения значений процесса являются нормальными распределениями). Большое развитие получили также исследования по статистическому анализу случайных процессов, в которых предполагается, что изучаемый процесс является марковским процессом того или иного типа или компонентой многомерного марковского процесса, или компонентой многомерного процесса, удовлетворяющего определенной системе стохастических дифференциальных уравнений.