Глоссарий статистических терминов для химфака МГУ (1115366), страница 2
Текст из файла (страница 2)
Среднее значение статистики при выполненинии гипотезы о равенстве дисперсийравно 1. Отклонения от 1 говорят о различии дисперсий.Критерий χ2 (Хи-квадрат пирсона) – критерий хи-квадрат (также известный, каккритерий согласия Пирсона) используется для того, чтобы определить, подчиняется ли эмпирическое распределение выборки предполагаемой модели. В частности,возможно использование критерия для проверки гипотезы нормальности.Мода – значение во множестве наблюдений, которое встречается наиболее часто.Так, если в классе на контрольной учениками получены оценки 5, 5, 5, 4, 4, 3, 3 томодой является оценка 5. Возможна ситуация, когда в выборке несколько мод (так,если из предыдущего примера исключить пятерки, то в оставшейся выборке как 4так и 3 будет модой).Медиана – значение во множестве наблюдений, которое делит упорядоченную выборку на две равные части: половина данных будут иметь значение не больше, чеммедиана, а другая половина — значения не меньше, чем медиана.Так, если в классена контрольной учениками получены оценки 5, 5, 5, 4, 4, 3, 3 то медианой являетсяоценка 4.
Возможна ситуация, когда в выборке много медиан (так, если из предыдущего примера исключить одну тройку, то в оставшейся выборке любое число между4 и 5 будет медианой).Непараметрическое оценивание – метод статистического оценивания, когда мы непредполагаем ничего про исследуемое распределение, таким образом всю информацию о распределении мы получаем из наблюдений. Данный метод обладает большейгибкостью, чем параметрическое оценивание, но требует бо’льших объемов выборки для получения результатов аналогичной точности (при тех же самых объемахвыборки метод менее точен).Нормальная вероятностная бумага(номральный вероятностны масштаб) – выборканарисованная как набор точек (Xi , Φ−1 (Fn (Xi )), где Φ – функция распределения станартного нормального распределения (N (0, 1)), Fn – выборочная функция распределения.
Представленная в таком виде выборка обладает ценным свойством – в случаеесли выборка обладает нормальным распределением (Xi ∼ N (a, σ 2 )), график долженбыть близок к прямой. Это связано с тем фактом, что набор точек (Xi , Φ−1 (F (Xi ))(для истиной функции распределения вместо выборочной) представляет из себя прямую. Числовым аналогом проверки нормальности при помощи нормальной вероятностной бумаги является критерий Колмогорова-Смирнова.4Однофакторный дисперсионный анализ – статистический метод, направленный напоиск различий в средних значениях нескольких выборок. В случае однофакторногодисперсионного анализа, мы изучаем несколько выборок полученных из одной общей совокупности изменением какого-либо фактора, и пытаемся определить имеетли фактор влияние на среднее значение в этих выборках, при этом гипотеза H0 : средние во всех выборках равны, против альтернативы: в какой-то паре выборок средние различны. Важно отметить, что однофакторный дисперсионный анализ работаеттолько в предположении равенства дисперсий в выборках.
Либо такое предположение должно быть сделано исходя из постановки эксперимента, либо соответствующаягипотеза может быть проверена с помощью критериев Бартлетта и Кокрена.Оценка (точечная) – число, вычисляемое на основе наблюдений, предположительноблизкое к оцениваемому параметру.Ошибка первого рода – ошибка в проверке гипотезы, при которой отвергается верная гипотеза. Вероятность ошибки первого рода вычисляется по формулеP (f (X1 , .
. . , Xn ) > T |H0 ) = α, где f (X1 , . . . , Xn ) > T – критерий отброса гипотезыH0 . В примере с 10 лабораторными мышами ошибка первого рода, это вероятностьтого, что при безопасном воздействии А (вероятностьP10 смерти одной мыши 0.1), совершенно случайно погибнет больше 5 мышей (P ( i=1 Xi > 5|H0 )). Ошибку первогорода часто называют ложной тревогой, ложным срабатыванием или ложноположительным срабатыванием — например, анализ крови показал наличие заболевания,хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня.Параметрическое оценивание – метод статистического оценивания, когда мы предполагаем, что наблюдаем выборку из распределения, зависящую от параметра (возможно многомерного) theta.
Пример: мы облучаем мышей, далее смотрим погибламышь или нет, мы считаем, что мыши гибнут независимо с неизвестной вероятностью погибнуть θ ∈ (0, 1). Наше параметрическое распределение – несимметриченаямонетка (Бернуллиевская случайная величина), нам остается только определить вероятность гибели мыши. Другой пример: мы мерим не гибель мыши, а время еёжизни до гибели. Мы предполагаем, что время смерти мыши у всех мышей имеетопределенный пик, поэтому принимаем модель X ∼ N (θ, 1) нормального распределения для времени смерти мыши. Наша задача вновь оценить параметр θ. Замечание1: Параметрическое оценивание это очень мощный метод, так как мы можем использовать многомерные параметры, а значит "вшивать"в модель много неизвестной информации, которую мы хотим определить.
Замечание 2: кроме параметрическогооценивания бывает еще непараметрическое – когда мы не предполагаем ничего промодель, параметрическое оценивание более эффективно, чем непараметрическое вслучае если правильно выбрана параметрическая модель.Парный критерий Стьюдента – критерий применяемый к парным выборкам. Пример: выборка 1 представляет из себя время, которое требуется студентам химфакачтобы применить критерий колмогорова-смирнова до занятия статпрактикума, выборка 2 представляет из себя время, которое требуется тем же самым студентамхимфака, чтобы применить критерий колмогорова-смирнова после занятия.
Парный5критерий стьюдента в таком случае покажет, имеются ли статистически значимыеизменения (матожидание случайных величин Zi = Xi − Yi отличается от нуля).Проверка гипотез – Проверка статистической гипотезы производится следующимобразом: есть гипотеза H0 , которая проверятся на предмет отбросить её и принятьальтернативу H1 , для принятия решения об отбросе гипотезы и принятии альтернативы существует статистический критерий вида f (X1 , . . .
, Xn ) > T (где f (X1 , . . . , Xn )– некоторая статистика. Пример: имеется выборка из 10 мышей, на каждую мышьпроизводится воздействие A. H0 – воздействие безопасно (p смерти Pмыши равно 0.01),альтернатива H1 – pP> 0.01, статистика критерия f (X1 , . . . , Xn ) = ni=1 Xi , критерийпроверки гипотезы ni=1 Xi > 6 (если сдохло более 6 мышей отбрасываем гипотезуо безопасности воздействия). Замечание: важнейшим свойством критерия являетсяего ошибка первого рода, на практике величину T в критерии часто выбирают такимобразом, чтобы ошибка первого рода не превосходила заданное значение α, в этомслучае вместо T пишут Tα .Ранг – номер элемента выборки по порядку, или другими словами – номер элементав вариационном ряду.
Пример: рангами для выборки (5, 6, 8, 7) являются числа (1,2, 4, 3)Ранг и персентиль (Excel) – Модуль, позволяющий построить вариационный ряди расставить ранги для элементов выборки. Имеет ряд особенностей: рассчитываетранги в обратном порядке (самый большой элемент имеет ранг 1), кроме того считает процентное отношение номера элемента к общему количеству элементов, этиданные удобно использовать для построения выборочной функции распределения инормальной вероятностной бумаги.Регрессия – зависимость вида Y = f (X) + ε, где ε – случайная ошибка.
По сутирегрессия это случайная функция. В большинстве случаев, а также в случае малого количества наблюдений рассматривается линейная регрессия Y = aX + b + εкак самый простой из возможных вид зависимости. Имеет место также многомернаярегрессия (аналог функции множества переменных), самая простая – многомернаялинейная регрессия Y = a1 X1 + · · · + ak Xk + b. Для многомерной регрессии важна значимость коэффициентов a1 , ·, aN . Замечание: в Excel оценка свободного членарегрессии называется Y-пересечение.Среднее отклонение (Excel, Анализ данных) – выборочный параметр, оценивающийсреднее отклонение случайной величины (M |ξ − M ξ|).
Важно не путать этот терминсо среднеквадратическим отклонением.Среднеквадратическое отклонение (СКО, стандартное отклонение) – Теоретическийпараметр, равный корню из дисперсии. Называется так из-за своей формулы: σ =(M (ξ − M ξ)2 )1/2 . Наряду с ним можно, например, расмотреть среднекубическоеотклонение (M |ξ − M ξ|3 )1/3 , или среднее отклонение M |ξ − M ξ|. Так как наиболеечасто используемым и удобным является среднеквадратичное отклонение, оно такженазывается стандартным отклонением.PСтатистика – Функция от выборки f (X1 , . .
. , Xn ), пример: f1 (X1 , . . . , Xn ) =Xi ,f2 (X1 , . . . , Xn ) = max(xi ). Важнейшим свойством статистики является то, что она6зависит только от выборки, таким образом когда у вас уже есть результаты наблюдений (то есть колонка цифр) вы всегда можете вычислить статистику, для этого нетребуется знать параметры модели или свойства распределений.Эксцесс (коэффициент эксцесса) – Теоретический показатель. Отношение модуля41 −EX1 )четвертого центрального момента к квадрату дисперсии.
Формула γ2 = E(X(DX.2)10Применяемая в экселе формула немного отличается от этой, а именно γ2 =E(X1 −EX1 )4− 3. Эксцесс показывает насколько случайная величина отличается от(DX1 )2нормальной. Для нормальной случайной величины γ2 = 3 (gamma02 = 0). Используяоценку эксцесса можно прикинуть является ли данная выборка нормальной или нет.Эксцесс (Excel, Анализ данных) – выборочная характеристика, оценивающая коэффициент эксцесса. Особенностью вывода Анализа Данных в Excel является то,что выдаваемое значение эксцесса меньше настоящего значения эксцесса на 3.
Этосделано для удобства сравнения выборки с нормальным распределением – истиноезначение экцесса для нормальной выборки равно 3, таким образом чем ближе значение выдаваемого Excel к нулю, тем ближе выборка к нормальному распределению.p-значение – Вероятность ошибиться, отбрасывая гипотезу. Более подробно, pзначение это величина ошибки первого рода, которая получается если в критерииотброса гипотезы выбрать Tα равной текущему значению статистики f (x1 , .