Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 48
Текст из файла (страница 48)
Чтобы упростить даль"нейшие формулы, перепишем соотношение (8.4) в видеnyi = a + b(xi − x) + εii = 1, . . . , n .(8.5)где x = n1 i=1 xi , a = A + bx. Этот переход означает перенос началаотсчета на оси абсцисс в точку x, которая служит центром совокупности(выборки) x1 , . . . , xn .Для нахождения оценок по методу наименьших квадратов нам надовыяснить, при каких (a, b) достигается минимум выраженияn[yi − a − b(xi − x)]2 .i=1240(8.6)Приравнивая нулю частные производные по a и b выражения (8.6),получим систему уравнений относительно неизвестных a и b : n[yi − a − b(xi − x)] = 0i=1ni=1 (xi − x)[yi − a − b(xi − x)] = 0Ее решение (â, b̂) легко найти:1yi ) ,n i=1nâ = yb̂ =(где y =n(y − y) (xi − x)i=1n i.2i=1 (xi − x)(8.7)(8.8)Величины â, b̂ и будут полученными по методу наименьших квадра"тов оценками неизвестных нам величин a и b.Свойства оценок. Естественно, возникает вопрос: как соотносятсяполученные значения â и b̂ с истинными значениями a и b или, другимисловами, каково качество оценок метода наименьших квадратов â и b̂.Для ответа на этот вопрос укажем некоторые свойства этих оценок.1)2)34)M â = a и M b̂ = b;Dâ = σ 2 /n, и Db̂ = σ 2 / ni=1 (xi − x)2 ;cov(â, b̂) = 0;случайные величины â и b̂ обе распределены по нормальномузакону;5) â и b̂ независимы как случайные величины.Доказательства утверждений 1–3 могут быть получены прямым вычислени"ем, используя выражения (8.7) и (8.8).
Покажем, например, что M b̂ = b.nn(yi − y)(xi − x)(xi − x) M (yi − y)i=1nM b̂ = M i=1=,n22(x−x)ii=1i=1 (xi − x)поскольку величины x1 , . . . , xn и x не случайны и содержащие только ихвыражения можно вынести из"под знака математического ожидания. Далее,поскольку M εi = 0 и M ε = 0, тоM (yi − y) = M yi − M y = a + b(xi − x) − a = b(xi − x).Подставляя это выражение в предыдущую формулу, находим, что M b̂ = b.Заметим, что свойства 1–3 не используют предположения о нормальномхарактере ошибок в модели (8.4) или (8.5). Зато свойство 4 верно только вгауссовском случае.
Доказательство свойства 4 следует из вида формул (8.7),(8.8), которые по отношению к y1 , . . . , yn имеют вид линейных функций, алинейные комбинации независимых нормальных случайных величин, как мыотмечали ранее, сами распределены нормально.Свойство 5 есть следствие нормальности ошибок и свойства 3. Независи"мость оценок â, b̂ заметно упрощает дальнейший анализ. В первую очередь радиэтого модель (8.4) была заменена на (8.5).241В совокупности свойства 1–4 дают важные результаты, характери"зующие качество оценок â и b̂:σ2σ2â ∼ N a,,b̂ ∼ N b,.(8.9)n2ni=1 (xi − x)Оценка дисперсии.
В модели (8.5), кроме a и b есть еще одиннеизвестный параметр — дисперсия σ 2 ошибок наблюдения. Этотпараметр явно входит в соотношения (8.9) и тем самым влияет наточность оценок. Поэтому σ 2 , в свою очередь, требует оценивания.Ключ к этому дает остаточная сумма квадратовn[yi − â − b̂(xi − x)]2 .(8.10)i=1Можно доказать, что в гауссовской модели выражение (8.10) явля"ется независимой от â и b̂ случайной величиной, имеющей распреде"ление σ 2 χ2 (n − 2), где χ2 (n − 2) — распределение хи"квадрат с n − 2степенями свободы. Благодаря этому свойству мы можем построить дляσ 2 несмещенную оценку s2 :n1 s2 =[yi − â − b̂(xi − x)]2 .(8.11)n − 2 i=1Поскольку s2 не зависит от â и b̂, отношения! n√ â − ab̂ − b !" (xi − x)2nиssi=1(8.12)имеют распределение Стьюдента с (n − 2) степенями свободы.
Это по"зволяет легко построить для параметров a и b доверительные интервалыи указать тем самым, каковы статистические свойства погрешности приих оценивании посредством (8.7), (8.8).Проверка гипотез о коэффициенте наклона. Наиболее часто взадаче простой линейной регрессии возникает вопрос о равенстве нулюкоэффициента наклона. Со статистической точки зрения это означаетпроверку гипотезы H : b = 0.
Важность этой гипотезы объясняетсятем, что в этом случае переменная y изменяется чисто случайно, независя от значения x.Против двусторонних альтернатив b = 0 гипотезу H следует отверг"нуть на уровне значимости α, если число 0 не входит в доверительныйинтервал для b, который мы стандартным образом строим с помощьюуказанного выше Стьюдентова отношения (8.12). Другая редакция этойидеи, с использованием F "отношения, дана, например, в [41].242Замечание. Стоит обратить внимание на сходство результата (8.11) стем, что мы уже встречали, имея дело с нормальной выборкой.
Пусть сейчас22y1 , . . . , yn — выборкаn из N (a, 2σ ). Оценками a,2 σ служат, соответственно,1(y−y).Приэтомaиsнезависимыкак случайныеâ = y и s2 = n−1i=1 i22 2величины, и n(y−y)распределенакакσχ(n−1).Длябольшегосходстваi=1 in21(y−â).Отмеченнаяс (8.11) s2 можно записать в виде s2 = n−1i=1 iпараллель с нормальной выборкой простирается и на более сложные линейныегауссовские модели.8.4.
ƒ …… …ƒУверенность в том, что соотношение (8.4) или (8.5) и другие предпо"сылки правильно отражают условия опыта, никогда не бывает полной.Поэтому нужны средства для проверки хотя бы некоторых из основныхпостулатов. Всех их из"за ограниченности информации, доставляемойединичным экспериментом, который мы обсуждаем, проверить нельзя.Эти постулаты сложились на основе коллективного предыдущего опыта.Независимость наблюдений. Наиболее фундаментальным явля"ется предположение о том, что результаты отдельных измерений пред"ставляют собой независимые случайные величины.
Проверить эту пред"посылку статистическими средствами достаточно трудно, а при неиз"вестном виде зависимости между наблюдениями — практически невоз"можно. Ее выполнение должно быть обеспечено всей методикой опыта.Одинаковая распределенность ошибок. Второе по важностизначение имеет предположение о том, что ошибки эксперимента какслучайные величины распределены одинаково. Иначе говоря, это озна"чает, что измерения отклика имеют равную точность при всех значе"ниях фактора — если случайную составляющую отклика мыслить какошибку при его измерении. Если же эти случайные составляющие мытрактуем как выражение изменчивости, внутренне присущей перемен"ной y, то обсуждаемое предположение означает, что эта изменчивостьне испытывает влияния со стороны факторов.
Это требование тожетрудно поддается статистическому контролю и должно поддерживатьсяметодикой эксперимента. В тех случаях, когда невыполнимость этогоусловия ясна, классическая регрессионная схема использована быть неможет. Исключение составляет скорее теоретически мыслимый, чемпрактически возможный случай, когда известна зависимость от x рас"пределения ε. В других случаях статистическая неоднородность можетпомешать применению регрессионного анализа.243Вид функциональной зависимости. Следующим по важностиявляется предположение о виде функциональной зависимости (8.3).Решающее значение имеет правильный выбор выражения для f (·, ·),особенно когда речь идет о прогнозе отклика вне области, в которойпроводились измерения. Важно выбрать функцию f (x, θ) так, чтобы онане просто хорошо описывала закономерную часть отклика, но и имела«физический» смысл, т.е.
открывала какую"то объективную закономер"ность. Впрочем, полезны бывают и чисто эмпирические, «подгоночные»формулы, поскольку они позволяют в сжатой форме приближенно вы"разить зависимость y от x. Поэтому выбор типа регрессионной зависи"мости (8.3) является самой острой проблемой в любом исследовании. Отом, как можно проверить его корректность, мы будем говорить ниже,на примере простой линейной регрессии (8.4).Нормальность распределений ошибок.
Остается сказать о по"следней предпосылке, которая и выделяет гауссовский регрессионныйанализ. Речь идет о том предположении, что случайные величиныε1 , . . . , εn распределены по нормальному закону. На буквальном вы"полнении этого условия настаивать нет необходимости. Но без егохотя бы приближенного осуществления нельзя использовать те стати"стические выводы, которые мы сумели сделать в п. 8.3. В случае одно"мерной регрессии для проверки этого условия можно воспользоватьсятем, что при справедливости предположений модели остатки yi − ŷi ,где ŷi = â − b̂(xi − x), должны вести себя практически так же, какнезависимые одинаково распределенные случайные величины.Проверка адекватности линейной регрессии.
Обратимся к проверкеадекватности модели регрессии на примере простой линейной регрессии (8.4).Основой для этого служат видимые отклонения от установленной закономерно"сти, т.е. величины yi − ŷi , i = 1, . . . , n, гдеŷi = â + b̂(xi − x) .(8.13)Поскольку фактор x — одномерная переменная, точки (xi , yi − ŷi ) можноизобразить на чертеже. Такое наглядное представление наблюдений позволяетиногда обнаружить в поведении остатков какую"либо зависимость от x. Однакоглазомерный анализ остатков возможен не всегда и не является правилом сконтролируемыми свойствами.
Нужны более точные методы. Мы расскажемоб одном из таких методов, который можно применять, если при составленииплана эксперимента предусматриваются многократные измерения отклика принекоторых значениях факторов.Проверка адекватности регрессионной модели при наличии повтор?ных наблюдений. При наличии повторных наблюдений при некоторых (а ещелучше при всех) значениях факторов у нас появляется возможность получитьеще одну оценку величины изменчивости случайной составляющей ε и сравнитьее с полученной ранее оценкой дисперсии σ 2 .244Предположим, что в модели (8.5) при каждом значении x = xi , i = 1, .
. . , nпроводится m независимых измерений отклика. Их результаты при данном iудобно обозначить через yi1 , . . . , yim . При этом yij как случайные величинынезависимы при всех j = 1, . . . , m, i = 1, . . . , n. (Можно изучить и такойслучай, когда число измерений при данном xi находится в зависимости отi. Это несколько усложнило бы следующие ниже формулы, не меняя ихпринципиально.) От выборки yi1 , . . . , yim перейдем кyi· =m1 yij ,m j=1s2i =m1 (yij − yi· )2 .m − 1 j=1(8.14)Мы уже вспоминали, что величины (m − 1)s2i , i = 1, .
. . , n распределеныкак σ 2 χ2 (m−1) и стохастически независимы от yi· . Объединяя, мы получим, что(m − 1)ns2i = σ 2 χ2 [n(m − 1)] .(8.15)i=1Как мы видели в п. 8.3, другую оценку дисперсии ошибок дает остаточнаясумма квадратовnσ2 2[yi· − â − b̂(xi − x)]2 =χ (n − 2) .mi=1(8.16)Мы использовали формулу (8.10). Роль yi в ней играет теперь yi· , причемDyi· = σ 2 /m. Подчеркнем, что соотношение (8.16) действует, только еслирегрессионная модель (8.4) или (8.5) выбрана правильно. В противном случае востаточную сумму квадратов, кроме случайных ошибок, входят и систематиче"ские, а потому она получает тенденцию к возрастанию.Выражения (8.15) и (8.16) позволяют составить F "отношение (как мыпоступали неоднократно, обсуждая дисперсионный анализ):n2mi=1 [yi· − â − b̂(xi − x)]n m(8.17)F = n−212i=1j=1 (yij − yi· )n(m−1)с числом степеней свободы (n − 2, n(m − 1)).Гипотеза о линейности должна быть отвергнута, если наблюденное в опытезначение F (8.17) оказывается неправдоподобно большим с точки зрения F "распределения с n − 2, n(m − 1) степенями свободы.Более подробную информацию о критериях проверки адекватностимодели, основанных на анализе остатков yi − ŷi , можно найти в [41].8.5.