1626435584-7c6402f545ecf856225d6cf8d21519c9 (844233), страница 106
Текст из файла (страница 106)
д. Таблица 24 Судейские сцеики в баллах В таблице 24 приведен протокол соревнований по выездке на Олимпийских играх !972 г. Видно, что разброс судейских оценок велик, причем ни одну оценку нельзя признать грубо ошибочной и откинуть. На первый взгляд кажется, что достоверность определения победителя невелика. Рассчитаем, насколько правильно определен победитель, т. е. какова вероятность события Мь .э О. Поскольку оценки обеим всадникам выставлялись одними и теми же судьями, можно воспользоваться способом согласованных измерений. По таблице 24 вычисляем 2 = + 8,8 и з„, = 5,9; подставляя в формулу (24) эти значения и а = О, получим 1(рх, п) = 1,5. Выбирая в таблице 23 СТАТИСТИЧЕСКАЯ ОБРАБОТКА ЭКСПЕРИМЕНТА 493 Гл. хч) строку п=5, находим, что этому значению г соответствует р, = = 2р,— 1= — 0,8.
Отсюда ро=0,9, т. е. с вероятностью 90% золотая медаль присуждена правильно. Сравнение по способу независимых измерений даст несколько худшую оценку, поскольку оно не использует информацию о том, что оценки выставляли одни и те же судьи. С р а в н е н и е д и с и е р с и й. Пусть требуется сравнить две методики эксперимента. Очевидно, точнее та методика, у которой дисперсия о' единичного измерения меньше (разумеется, если при этом не увеличивается систематическая ошибка). Значит, надо установить, выполняется ли неравенство о ~ о„. О дисперсиях единичных измерений судят по стандартам выборок хз —.— —, С (х; — х)", х"; =, ~за (у, — Р)', (29) вычисленным соответственно по гг и т измерениям. Эти стандарты сами являются случайными величинами.
Однако сравнивать их на основании критерия Стьюдента нельзя, поскольку распределение Б не гауссово. Нетрудно видеть, что оно является асимметричным: значения х(0 невозможны, а сколь угодно большие Б >О возможны. Дисперсии сравнивают по критерию Фишера. Если —;,.эг(п, т; р„), (80) 5 то с вероятностью р„первая дисперсия больше второй. Коэффициенты Фишера* ) для случаев п=т, п=сО, т=оэ приведены в таблице 25. При малых п, т эти коэффициенты довольно велики; поэтому различие дисперсий можно установить только в том случае, если это различие велико или велико число экспериментов.
Замечание. Критерий Фишера позволяет также найти отношение дисперсий. Если выполнено неравенство — '„)аг (и, т; р,), (з)) то с вероятностью р, первая дисперсия в а раз больше второй. Методы, изложенные в пп. 2 и 3, применимы не тольно к измерениям непрерывных величин, но и для суждения об очень большой партии объектов (генеральной созокунносгли) по небольшой случайной выборке из п объектов. Эти формулы и критерии применяются в статистике, социологии, выборочной оценке больших партий товара н т.
д. В статистике н социологии законы распределения величин нередко сильно отличаются от нормального, и выяснение закона распределения играет там большую роль. ') Их называют также квонглилями Фишера. СТАТИСТИЧЕСКАЯ ОБРАБОТКА ЭКСПЕРИМЕНТА [гл. ху Таблица 25 Коуффициеиты Фишера Р (л, ст; ра) Р ~ О,В О,йй 0,975 О,ййй О,йуб 0,999 «- !=т — ! Случай л = лс Случай л = со сл — с Случай т = со л — ч 4. Нахождение стохастической зависимости.
Пусть требуется исследовать зависимость г(х), причем обе величины г и х измеряются в одних н тех же экспериментах. Для этого проводят серию экспериментов при разных значениях х, стараясь сохранить прочие условия эксперимента неизменными. Измерение каждой величины содержит случайные ошибки (систематические ошибки здесь рассматривать не будем); следовательно, эти величины являются случайными.
Закономерная 1 2 3 5 б 12 24 2 3 4 5 6 12 24 1 2 3 4 5 6 12 24 9,5 16! 648 4,0 19 39 29 93 15 2,5 6,4 9,6 2,2 5,0 7,2 2,! 4,3 5,8 1 7 2 7 3 3 1,4 2,0 2,3 1,0 1,0 1,0 16 254 !018 4,5 19 40 3,0 8,5 14 2,4 5,6 8,3 2,1 4,4 6,0 2,0 37 4,9 1,5 2,3 2,7 1,3 1,7 1,9 1,0 1,0 1,0 1,6 3,8 5,0 1,6 З,О 3,7 1,6 2,6 8,1 1,5 2,4 2,8 1 5 2 2 2 6 1,4 2,1 2,4 1,3 1,8 1,9 1,2 1,5 1,6 1,0 1,0 1,0 4052 16 211 99 199 29 47 1б 23 !! 15 85 11 4,2 4,9 2,7 3,0 1,0 1,0 6366 25465 100 200 26 42 13 19 9,0 12 69 89 3,4 3,9 2,2 2,4 1,0 1,0 6,6 7,9 4,6 5,3 3,8 4,3 3,3 3,7 З,О 3,4 2 8 3 ! 2,2 2,4 1,8 1,9 1,0 1,0 4,1Х10а 999 141 53 30 20 7,0 3,7 1,0 6,4Х10а 1000 124 44 24 16 5,4 3,0 1,0 1! 6,9 5,4 4,6 4,! 3,7 2,7 2,1 1,0 гл. ху! СТАТИСТИЧЕСКАЯ ОНРАБОТКЛ ЭКСПЕРИМЕНТА 495 связь случайных величин называется стохастической ").
Будем рассматривать две задачи: а) установить, существует ли (с определенной вероятностью) зависимость г от х или величина г от х не зависит; б) если зависимость существует, описать ее количественно. Первую задачу называют дисперсионмы,и анализом, а если рассматривается функция многих переменных г (х, у, ...) — то А1ного4акторнося днсперснонным анализом. Вторую задачу называют анализом регрессии. Если случайные сшибки велики, то они могут маскировать искомую зависимость и выявить ее бывает нелегко.
Без ограничения общности можно считать, что величина х измеряется точно. В самом деле, если г от х не зависит, то ошибка бх ни на что не влияет. Если же зависимость существует, то ошибка бх эквивалентна дополнительной ошибке зависимой переменной бг = (с(г/с1х) бх. Таким образом, достаточно рассмотреть случайную величину ь(х), зависящую от х как от параметра. Математическое ожидание этой величины йяь(х) =г(х) зависит от х; эта зависимость является искомой и называется законом регрессии, Дисперсионны й анализ.
Проведем при каждом значении х; небольшую серию измерений и определим гв (! !'=-п,), Рассмотрим два способа обработки этих данных, позволяющих исследовать, имеется ли значимая (т. е. с принятой доверительной вероятностью) зависимость г от х. При первом способе вычисляют стандарты выборки единичного измерения по каждой серии отдельно и по всей совокупности измерений: л~ $) = —,~ (ги — Й~), 3 = ~,1, (гр й)з, (32) 1=! Аг где Ф = '5; л; — полное число измерений, а ! %т 1 ъз (33) являются средними значениями соответственно по каждой серии и по всей совокупности измерений.
Сравним дисперсию совокупности измерений с' зз с дисперсиями отдельных серий с) =з'. Если окажется, что при выбра1»- ном уровне достоверности р, можно считать о) о, для всех (, то зависимость г от х имеется. Если достоверного превышения ") С такой сиязыо мы уже ястречались я ссохастических задачах нахождения корня уравнения (сл. Ч,$2, п.4) и минимумз функции (гл. ЧП, 41, п. 4). 49б СТАТИСТИЧЕСКАЯ ОБРАБОТКА ЭКСПЕРИМЕНТА !ГЛ. ХР нет, то зависимость не поддается обнаружению (при данной точности эксперимента и принятом способе обработки).
Дисперсии сравнивают по критерию Фишера (30). Поскольку стандарт з определен по полному числу измерений А!, которое обычно достаточно велико, то почти всегда можно пользоваться коэффициентами Фишера г" (со, т; р,), приведенными в таблице 25. Второй способ анализа заключается в сравнении средних г! при разных значениях х; между собой. Величины г! являются случайными и независимыми, причем их собственные стандарты выборки равны ББ! =з!6 а!. Поэтому их сравнивают по схеме независимых измерений, описанной в п. 3. Если различия г! значимы, т.
е. превышают доверительный интервал, то факт зависимости г от х установлен; если различия всех г! незначимы, то зависимость не поддается обнаружению. Многофакторный анализ имеет некоторые особенности. Величину г (х, у) целесообразно измерять в узлах прямоугольной сетки (хь у,) „чтобы удобнее было исследовать зависимость от одного аргумента, фиксируя другой аргумент. Проводить серию измерений в каждом узле многомерной сетки слишком трудоемко.
Достаточно провести серии измерений в нескольких узлах сетки, чтобы оценить дисперсию единичного измерения; в остальных узлах можно ограничиться однократными измерениями. Дисперсионный анализ при этом проводят по первому способу. 3 а м еч а н и е 1. Если измерений много, то в обоих способах отдельные измерения или серии могут с заметной вероятностью довольно сильно отклониться от своего математического ожидания. Это надо учитывать, выбирая доверительную вероятность ро достаточно близкой к 1 (как это делалось в п.2 при установлении пределов, отделяющих допустимые случайные ошибки от грубых). А н а л и з р е г р е с с и и. Пусть дисперсионный анализ указал, что зависимость г от х есть. Как ее количественно описать? Для этого аппраксимируем искомую зависимость некоторой функцией г(х) 1(х, а), а=[а„аэ ..., а ',.
Оптимальные значения параметров аА найдем методом наименьших квадратов, решая задачу ~ч, '!Е(х!) [г! — 1(х!, а)1'=ппп, (34) где и!(х,) — веса измерений, выбираемые обратно пропорционально квадрату погрешности измерения в данной точке (т, е. и!! (Ог!)-!). Эта задача была разобрана в главе 11, 9 2. Остановимся здесь лишь на тех особенностях, которые вызваны присутствием больших случайных ошибок. гл, хч) СТАТИСТИЧЕСКАЯ ОБРАБОТКА ЭКСПЕРИМЕНТА 497 Вид 1(х, а) подбирают либо из теоретических соображений о природе зависимости г(х), либо формально, сравнивая график г(х) с графиками известных функций, Если формула подобрана из теоретических соображений и правильно (с точки зрения теории) передает асимптотику г (х), то обычно она позволяет не только неплохо аппроксимировать совокупность экспериментальных данных, но и экстраполировать найденную зависимость на другие диапазоны значений х.