Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 49
Текст из файла (страница 49)
!…… Мы уже говорили выше, что когда есть сомнения в приложимостигауссовской модели, вместо метода наименьших квадратов следует ис"пользовать другие. Здесь будет рассказано об одном из таких методов,основанном на рангах наблюдений.245Модель. Рассмотрим схему простой линейной регрессииyi = A + bxi + εi ,i = 1, . . . , n ,(8.18)где ε1 , . . . , εn — независимые одинаково распределенные (далее —н.о.р.) случайные величины.
Будем считать, что они распределенынепрерывно (не уточняя далее, по какому именно закону). Выводы озависимости между y и x будем основывать на рангах y. Ясно, что втаком случае ничего определенного о величине A сказать не удается, таккак изменение всех yi на одну и ту же постоянную величину не изменяетрангов y1 , . . . , yn . Предметом интереса остается только коэффициентнаклона b. Постараемся найти его оценку в схеме (8.18).Оценка коэффициента наклона. Для дальнейшего удобно такзанумеровать наблюдения, чтобыx1 < x2 < · · · < xn .При такой нумерации легче следить за поведением остатков.Если из наблюденных величин yi вычесть истинные значения bxi ,то остатки yi − bxi = A + εi , i = 1, .
. . , n образуют последовательностьн.о.р. случайных величин. Не зная b, мы будем вычитать из yi пере"менную величину βxi , где β изменяется по нашему произволу. Остаткиyi − βxi , i = 1, . . . , n будут похожи на совокупность н.о.р. случайныхвеличин, когда β близко к b — и тем более похожи, чем ближе β кb. Если нет, то остатки будут проявлять тенденцию к возрастанию илиубыванию вместе с номером i (это зависит от знака разности b − β). Вэтом легко убедиться, переписав yi − βxi в следующем виде:yi − βxi = yi − bxi + xi (b − β) = A + εi + xi (b − β) .Так, при положительном значении разности (b − β) остатки yi − βxiбудут тем больше, чем больше номер i, учитывая, что xi упорядоченыв порядке возрастания.Тенденцию изменения значений yi − βxi с изменением номера iили отсутствие таковой можно обнаружить с помощью коэффициентовкорреляции. Если закон распределения не известен, надо использо"вать коэффициенты ранговой корреляции, и ниже эта возможность бу"дет использована.
(Подробнее о коэффициентах ранговой корреляциисмотри параграф 9.3.) Но прежде посмотрим, к чему приводит этотподход при использовании обычного коэффициента корреляции Пирсо"на (см. п. 1.8.1). Выборочный коэффициент корреляции Пирсона посовокупности (x, yi − βxi ) имеет видn(xi − x)[(yi − y) − β(xi − x)]nr = n i=1.22i=1 (xi − x)i=1 [(yi − y) − β(xi − x)]246Наименьшей зависимости остатков yi − βxi от xi (i = 1, . . . , n) соответ"ствует значение r = 0.
По отношению к β это дает уравнениеnn(xi − x)(yi − y) = β(xi − x)2i=1i=1Его решение — уже известное нам выражение (8.8). Итак, исполь"зование коэффициента корреляции К.Пирсона приводит для b к оценкенаименьших квадратов. Поэтому можно предположить, что использова"ние коэффициента ранговой корреляции тоже будет успешным.Итак, для двух рядов чиселy1 − βx1 , y2 − βx2 , . . . , yn − βxnx1 , x2 , .
. . , xn(8.19)составим коэффициенты ранговой корреляции: ρ Спирмена и τ Кендэла.Коэффициент ранговой корреляции ρ Спирмена получается заменойвеличин yi − βxi и xi в коэффициенте выборочной корреляции Пирсонана их ранги. В данном случае, учитывая, что xi упорядочены в порядкевозрастания, ранг xi равен i (при условии отсутствия совпадений междуxi ) Таким образом,n n+1Ri − n+1i=1 i − 22ρ = (8.20) n ,n n+1 2n+1 2i=1 i − 2i=1 Ri − 2где Ri — ранг величины yi −βxi . Поскольку Ri принимает значения от 12 n 22n до n, найдем: i=1 Ri − n+1= i=1 i − n+1= n(n12−1) . Преобра"22зовав числитель выражения (8.20), окончательно запишем ρ в виде:n6ρ=1−(i − Ri )2 .(8.21)n(n2 − 1) i=1Коэффициент корреляции τ Кендэла определяется как2(P − Q)2Kτ==,(8.22)n(n − 1)n(n − 1)где P и Q — соответственно число согласованных и несогласованныхпар (yi − βxi , xi ) и (yj − βxj , xj ) для всех i, j таких, что i < j. Здесьпары (yi − βxi , xi ) и (yj − βxj , xj ) называются согласованными, еслиxi > xj и yi − βxi > yj − βxj , либо xi < xj и yi − βxi < yj − βxj .
Впротивном случае пары называются несогласованными.Величина K = P − Q называется статистикой Кендэла. Ее можнозаписать в следующем виде, учитывая что x1 < · · · < xn :K=sign(yj − βxj − yi + βxi ) =sign(Rj − Ri ).1i<jnЧтобы подчеркнуть зависимость коэффициентов τ и ρ от β, будемдалее писать τ (β) и ρ(β). Измеренная с помощью этих коэффициентовранговой корреляции зависимость между рядами (8.19) будет наимень"шей, если выбрать β так, чтобы1i<jn247τ (β) = 0 ,(8.23)ρ(β) = 0 .(8.24)илиЧтобы решить уравнение (8.23) или (8.24), надо представить себе зави"симость τ (β), ρ(β) от β. Выясним как выглядят эти функции.При β отрицательных и очень больших по абсолютной величине,порядок следования разностей yi − βxi , i = 1, . . . , n определяется ис"ключительно числами x1 , . .
. , xn и совпадает с порядком их следова"ния. Следовательно, при таких β (β → −∞) оба коэффициента ранговойкорреляции τ (β) и ρ(β) равны единице.Пусть теперь β начинает возрастать (уходит из области очень боль"ших отрицательных чисел, приближаясь к положительной полуоси).Первое изменение порядка следования остатков y1 − βx1 , . .
. , yn − βxnпроизойдет при первом совпадении двух из них:yi − βxi = yj − βxj(8.25)для каких"то i, j. Оба коэффициента ранговой корреляции при этомуменьшатся.При дальнейшем увеличении β такие изменения τ (β), ρ(β) будутпроисходить всякий раз, как будет достигаться равенство (8.25). Сле"довательно, значения β, при которых (скачком) изменяются τ (β) иρ(β), сутьyj − yiгде 1 i < j n,(8.26)βij =xj − xiесли все числа x1 , . .
. , xn различны между собой. (Если среди нихесть совпадающие, в выражении (8.26) участвуют лишь такие i, j длякоторых xi − xj = 0. Точек изменения функций τ (β), ρ(β) оказываетсяв этом случае меньше, чем число сочетаний Cn2 , но величины скачковмогут быть больше).Функции τ (β), ρ(β) таковы, что их симметрично расположенныескачки равны по величине.
Поэтому их графики проходят через нольпри таком β̂, что левее β̂ и правее него остаются по одинаковомуколичеству точек разрыва (8.22). Иначе говоря:yj − yi, все 1 i < j n | xi = xj .(8.27)β̂ = medxj − xi248Выражение (8.27) дает оценку коэффициента наклона (новую по срав"нению с (8.8)). Можно показать, что в условиях гауссовской моделиона менее точна, чем (8.8), но зато (8.27) применима в гораздо болеешироких условиях.Доверительные интервалы для b. Основываясь на функциях τ (β),ρ(β), можно построить доверительные интервалы для неизвестного b.Выберем коэффициент доверия 1 − 2α. Пусть для данного n (объемнаблюдений) τα (соответственно, ρα ) обозначает верхнее критическоезначение для коэффициента ранговой корреляции τ (соответственно,ρ).
Тем самым,P {| τ | τα } = 1 − 2α и P {| ρ | ρα } = 1 − 2α .(8.28)(Дискретный характер распределения вероятностей между возможнымизначениями τ, ρ приводит к тому, что соотношения (8.28) выполняютсяне для всех α. Надо либо выбрать такое α, чтобы (8.28) имело место,либо же в качестве τα (или ρα ) взять минимальное значение, прикотором P {| τ | τα } 1 − 2α (для ρα — аналогично).Доверительные интервалы для b с коэффициентом доверия не мень"ше 1 − 2α имеют вид:{β :| τ (β) | τα } или {β :| ρ(β) | ρα } ,(8.29)в зависимости от выбора коэффициента ранговой корреляции.На рис.
8.1 изображен график τ (β) при n = 5. Точки скачковфункции τ (β) выделяют доверительный интервал.будем использовать коэффициент ранговой корреляции τ , так как поуказанной причине с ним действовать проще. Обсуждение доверитель"ного интервала для ρ приведено, например, в [113].Учитывая, что таблицы распределения чаще составлены не длявеличины τ , а для статистики Кендэла K, введем функциюn(n − 1)τ (β) ,2для которой справедливо все сказанное ранее о τ (β). То есть довери"тельный интервал для b с коэффициентом доверия 1 − 2α имеет вид:K(β) ={β :| K(β) | Kα } ,где Kα есть решение уравнения P {| K | Kα } = 1 − 2α. При этомвероятность P рассматривается в случае справедливости выдвинутойгипотезы о независимости двух рядов чисел (8.19).
В [115] приведенатаблица вероятностей хвостов распределения статистики K для n =4 (1) 40. Чтобы воспользоваться этими таблицами, заметим, что Kα + 2удовлетворяет соотношению P (K Kα + 2) = α/2.y −yЗатем совокупность чисел xjj −xii , 1 i < j n, надо расположитьв порядке возрастания. Мы предположим сейчас, что среди чиселx1 , . . . , xn нет совпадающих. Обозначим элементы этой упорядоченнойсовокупности через S (1) S (2) · · · S (N) , N = n(n−1).
Положим2M1 = (N − Kα )/2, M2 = (N + Kα )/2. В этих обозначениях доверитель"ный интервал для b (8.29) имеет явный вид{S (M1 ) < β < S (M2 +1) }.При этом P {S (M1 ) < β < S (M2 +1) } = 1 − α. В случае больших nдля K приходится использовать приближенное выражение, основанноена нормальной аппроксимации распределения коэффициента ранговойкорреляции τ при гипотезе независимости. Получаем, что,n(n − 1)(2n + 5)Kα ∼u1−α/2 .18где u1−α/2 — квантиль уровня 1 − α/2 стандартного нормального рас"пределения, т.е.