Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 50
Текст из файла (страница 50)
решение уравнения Φ(u1−α/2 ) = 1 − α/2, где Φ —u2функция Лапласа Φ(u) = √12π −∞ e−t /2 dt.Рис. 8.1. Доверительный интервал для коэффициента корреляции τ (β) при n = 5График функции ρ(β) сложнее, так как величины его скачков непостоянны. В дальнейшем для построения доверительного интервала249Поправки при совпадениях. Укажем поправки, которые надо сде"лать при построении доверительного интервала для коэффициента b втом случае, когда среди xi имеются совпадения. Наличие совпаденийсреди xi соответствует повторным наблюдениям в этих точках.
Обозна"чим через g — число групп совпадающих значений xi (т.е. число связоксреди иксов) , а через tl — число совпадающих элементов в группе с250номером l : l = 1, . . . , g. Тогда значение Kα , получаемое при исполь"зовании нормальной аппроксимации для распределения коэффициентаранговой корреляции τ при гипотезе независимости, имеет вид:gn(n − 1)(2n + 5) − l=1 tl (tl − 1)(2tl + 5)Kα ∼(8.30)u1−α/2 .18Этот результат был получен П.Сеном [138]. Соответствующие значенияM1 и M2 равныN − KαN + KαM1 =,M2 =+ 1.(8.31)22Ниже будет проиллюстрировано применение изложенных методовв практической задаче.8.6.
В качестве примера рассмотрим использование линейного регресси"онного анализа в задаче восстановления зависимости между входом ивыходом измерительно"регистрирующей системы. Подобные задачи ши"роко распространены в экспериментальных исследованиях, во многихпредметных областях они называются по"своему: градуировка, кали"бровка, тарировка и т.д. Необходимость применения статистическихметодов для решения подобных задач в последнее время возросла как всвязи с усложнением средств измерений, так и в связи с повышениемтребований к их точности и надежности.
А использование ЭВМ зна"чительно упростило и расширило возможности обработки результатовподобных экспериментов.Рассмотрим измерительно"регистрирующий тракт тензовесов, ис"пользуемых для измерения сил и моментов сил, действующих на телопри продувке его в аэродинамической трубе. Для этих измерений втензовесах используются тензодатчики, определенным образом распо"ложенные на конструкции весов.
В основу работы тензодатчика поло"жен эффект изменения сопротивления чувствительного элемента приего сжатии или расширении. Через все тензодатчики пропускают элек"трический ток, а сигналы тензодатчиков (показывающие напряжения натензоэлементах) через усилитель и аналого"цифровой преобразовательрегистрируют с помощью компьютера.Хотя характеристики каждого звена тензовесов можно измерить,рассчитать на основе этих измерений свойства связи между входом ивыходом измерительной системы (т.е.
между силами и моментами сил,действующих на продуваемое тело, и напряжениями на тензодатчиках)весьма трудно, а оценить точность этих расчетов еще труднее. Гораздо251проще эта задача решается с помощью градуировочного эксперимента:на тензовесы оказывается воздействие эталонной силой (моментом сил)и фиксируется значение отклика на выходе системы. Варьируя зна"чения эталонной силы в пределах рабочего диапазона тензовесов, мыполучаем данные, по которым следует восстановить вид зависимостимежду входом и выходом измерительной системы.Таблица 8.1Данные калибровочного эксперимента одной компоненты тензовесовЭталонная сила xii = 1, .
. . ..6j=1Значениеj=2откликаj=3yijj=4j=5j=6Средние значения yi .Значения s2i0.031.029.829.129.029.1528.229.380.8940.2110.0111.0109.6111.0109.6110.35110.260.4080.4186.5191.0187.1190.3186.7190.95188.764.8580.6266.7269.7270.1270.2266.55270.25268.923.1910.8345.5349.3349.7349.9347.05349.8348.543.3641.0425.6425.9426.5426.5427.0427.0426.420.326В таблице 8.1 приведены данные градуировочного экспериментаодной компоненты тензовесов, предназначенной для измерения силылобового сопротивления. В ходе эксперимента значения эталоннойсилы x изменялись от 0 до 1 кг с шагом 0.2 кг, и для каждого значениясилы регистрировалось значение отклика y в десятках мВ.
Измеренияповторялись 6 раз. В таблице приведены также средние отклики yi·и стандартные отклонения s2i . Графическое изображение этих данныхдано на рис. 8.2.Рис. 8.2. Графическая зависимость yi· от xi·Поскольку при правильном расположении чувствительных элемен"тов на балках усилия на тензодатчики должны линейно зависеть от252действующих на тело сил и моментов сил, а тензодатчики осуществля"ют линейное преобразование силы в напряжения электрического тока,естественно искать связь между силой x и результирующим напряже"нием y в виде(8.32)y = A + bx + ε ,то есть решать задачу простой линейной регрессии. Учитывая структу"ру экспериментальных данных, перепишем (8.32) следующим образом:yij = A + bxi + εij , i = 1, .
. . , 6, j = 1, . . . , 6, и приведем его к виду,аналогичному (8.5):yij = a + b(xi − x) + εiji = 1, . . . , 6,где yi· определено в (8.14).Полученная система уравнений отличается от системы, рассмотрен"ной в п. 8.3, заменой yi на yi· . Таким образом задача простой линейнойрегрессии с m наблюдениями в каждой точке xi сводится к задачес одним наблюдением в точке xi, если в качестве этого наблюденияm1рассматривать величину yi· = mj=1 yij .
Оценки параметров a и b,являющиеся решением системы (8.35), согласно (8.7), (8.8) сутьгде y =nj = 1, . . . , 6 .Отметим, что требование независимости величин εij должно обес"печиваться методикой проведения калибровочного эксперимента, когдасъём каждого из значений yij осуществляется независимо от остальных.Величины εij отражают как суммарное влияние внешних факторов, таки погрешности, возникающие в измерительно"регистрирующем тракте.Учитывая характер формирования случайных отклонений, величины εijв рабочем диапазоне имеют обычно один и тот же закон распределения,который принято считать нормальным.
Следовательно, у нас есть всеоснования для применения классического метода линейной регрессии.Запишем выражение (8.6) для случая, когда в каждой точке xi(i = 1, . . . , n) сделано одинаковое число измерений yij (j = 1, . . . , m).Имеем:mn [yij − a − b(xi − x)].(8.33)i=1 j=1Приравнивая к нулю производные по переменным a и b в выражении(8.33) получаем:mn (yij − a − b(xi − x)) = 0 ,i=1 j=1mn (xi − x)(yij − a − b(xi − x)) = 0 .(8.34)b̂ =i=1n(xi − x)(yi· − a − b(xi − x)) = 0,(8.35)(y − y)(xi −i=1n i·2i=1 (xi − x)x).(8.36)(8.37)1 (yi· − â − b̂(xi − x))2 .n − 2 i=1ns2 =Производя необходимые вычисления, получаем s = 0.64526.Таким образом, используя выражение (8.12) и положения п.
5.3,получаем границы доверительных интервалов для a и b, а именно:ssâ − √ t1−α/2 < a < â + √ t1−α/2 ,nnssb̂ − nt1−α/2 < b < b + nt1−α/2 .22(x−x)(xi=1 ii=1 i − x)где t1−α/2 есть квантиль распределения Стьюдента с 4 степенями свобо"ды при коэффициенте доверия 1 − α. Выбирая, например, α = 0.05, потаблице (см. [19]) находим t1−α/2 2.79. Отсюда 95% доверительныеинтервалы для a и b равны:227.8 < a < 229.6,i=1253mnПодставляя в (8.36) и (8.37) соответствующие значения из таблицы8.1, получаем â = 228.711, b̂ = 397.174.Статистические свойства оценок â и b̂ указаны в п. 8.3, а именно:σ12σ12â ∼ N a,, b̂ ∼ N b, n,2ni=1 (xi − x)m1σ222где σ12 — дисперсия mj=1 εij .
То есть σ1 = m , где σ — диспе"рсия εij .Для построения доверительных интервалов для истинных значенийкоэффициентов a и b, и проверки качества выбранной модели мы должныпостроить оценки дисперсии σ 2 или σ12 . Согласно (8.11), несмещеннойоценкой σ12 является:i=1 j=1Проводя суммирование в уравнениях (8.34) по индексу j, и делениекаждого из уравнений на компоненту m, имеем:n(yi· − a − b(xi − x)) = 0,11 yi· =yij ,n i=1nm i=1 j=1nâ = y,254394.5 < b < 399.9.(8.38)Как указывалось в п. 8.4, для оценки адекватности выбранной моде"ли необходимо получить еще одну независимую от s2 оценку дисперсииσ 2 .
Это можно сделать, подставляя в выражение (8.15) значения s2iиз таблицы (8.1). То есть:n(m − 1)s2i σ 2 χ2 (n(m − 1)) .i=1Для проверки качества подобранной линейной модели составим F "отношение согласно выражению (8.17):nm2ms2i=1 [yi· − â − b̂(xi − x)]n mF = n−21=.n122i=1j=1 (yij − yi· )i=1 sin(m−1)nПодставляя имеющиеся значения, получаемF =Здесь β (k) обозначает k"ый член упорядоченного в порядке возрастания массиваβij . Расчет показывает, что β̃ = 397.5. Сравнивая полученное значение β̃ сполученным ранее β̂ = 397.174 и доверительным интервалом для b, полученнымв гауссовской модели, видим довольно хорошее согласие результатов.
Инте"ресно сравнить доверительный интервал для b в непараметрическом случае сполученным ранее в (8.38).Для построения нового доверительного интервала воспользуемся выраже"ниями (8.30), (8.31). В нашем случае g = 6, tl = 6, при l = 1, . . . , g. Выбираязначение α = 0.05 по таблице [19] получаем u1−α/2 = 1.96. Следовательно,согласно (8.30):n(n − 1)(2n + 5) − gl=1 tl (tl − 1)(2tl + 5)Kα ∼u1−α/2 ∼ 141 .18Отсюда доверительный интервал для b, согласно (8.31) имеет вид: β (198) <b < β (341) , или395.8 < b < 399.4 .60.64256= 1.781256 .(1/6)13.041Учитывая, что величина F имеет F "распределение с (4, 3) степе"нями свободы, сравним полученное значение с процентными точкамиуказанного распределения. По таблице [19] находим, что 2.5% точкаF распределения равна 3.2499, 5% точка равна 2.6896 и 10% точкаравна 2.1422. Мы видим, что полученное нами значение F = 1.781256меньше приведенных процентных точек, что свидетельствует о хорошемкачестве приближения данных линейной зависимостью.Заметим, что в рассмотренной задаче основной интерес представля"ет коэффициент наклона (усиления) b, так как значение a зависит отрегулировки аппаратуры и его можно менять по соображениям удоб"ства экспериментатора.Обсуждение.