Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 47
Текст из файла (страница 47)
Эта за"дача носит название простой регрессии. Исходными данными этойзадачи являются два набора наблюдений x1 , x2 , . . . , xn — значения x иy1 , y2 , . . . , yn — соответствующие значения y. Мы сначала расскажем опоследовательности действий при решении задач простой регрессии.Подбор модели. Первым шагом решения задачи является предпо"ложение о возможном виде функциональной связи между x и y. При"мерами таких предположений могут являться зависимости: y = a + bx,y = a + bx + cx2 , y = ea+bx , y = 1/(a + bx) и т.д., где a, b, c и т.д.
—неизвестные параметры, которые надо определить по исходным данным.Компьютерные программы регрессионного анализа, как правило, содер"жат достаточно обширные списки подобных функций или позволяютзадавать вид зависимости формулой.Для подбора вида зависимости между x и y полезно построитьи изучить график, на котором изображены точки с координатами236(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ).
Иногда примерный вид зависимости бы"вает известен из теоретических соображений или предыдущих иссле"дований аналогичных данных.Оценка параметров модели. После выбора конкретного ви"да функциональной зависимости f (x, θ) можно по исходным даннымx1 , x2 , . . . , xn и y1 , y2 , . . . , yn провести расчет (оценку) θ, то есть вхо"дящих в f неизвестных коэффициентов (параметров). Тем самым мыполностью определили подобранную регрессионную функцию:y = f (x, θ̂),где θ̂ — оценка θ.Анализ адекватности модели. После подбора регрессионной мо"дели желательно выяслить, насколько хорошо выбранная модель опи"сывает имеющиеся данные. К сожалению, единого общего правила дляэтого нет.
На практике первое впечатление о правильности подобранноймодели могут дать изучение некоторых численных характеристик (коэф"фициента детерминации, F "отношения, доверительных интервалов дляоценок). Однако эти показатели скорее позволяют отвергнуть совсемнеудачную модель, чем подтвердить правильность выбора функциональ"ной зависимости. Более обоснованное решение можно принять, срав"нив имеющиеся значения yi со значениями ŷi , полученными с помощьюподобранной регрессионной функции: ŷi = f (xi , θ̂).
Разности междунаблюдаемыми и предсказанными значениями y:ri = yi − ŷi = yi − f (xi , θ̂),i = 1, . . . , nназывают остатками. Например, для линейной зависимости y = a + bxзначения остатков вычисляются в виде: ri = yi − ŷi = yi − (â + b̂xi ), гдеâ и b̂ — оценки коэффициентов a и b.Анализ остатков. Анализ остатков позволяет получить представле"ние, насколько хорошо подобрана сама модель и насколько правильновыбран метод оценки коэффициентов.
Согласно общим предположениямрегрессионного анализа, остатки должны вести себя как независимые(в действительности, почти независимые) одинаково распределенныеслучайные величины. В классических методах регрессионного анализапредполагается также нормальный закон распределения остатков.Исследование остатков полезно начинать с изучения их графика. Онможет показать наличие какой"то зависимости, не учтенной в модели.Скажем, при подборе простой линейной зависимости между x и y графикостатков может показать необходимость перехода к нелинейной модели(квадратичной, полиномиальной, экспоненциальной) или включения вмодель периодических компонент.237Для проверки нормальности распределения остатков чаще всегоиспользуется график на нормальной вероятностной бумаге (пп.
5.2,5.5), а также критерии типа Колмогорова"Смирнова, хи"квадрат и др.,подробно разобранные в гл. 10.Для проверки независимости остатков обычно используются крите"рий серий и критерий Дарбина"Уотсона. Их описание можно найти в[41]. В случае выявления сильной корреляции остатков следует перейтиот регрессионной модели к моделям типа авторегрессии"скользящегосреднего и возможно использовать разностные и сезонные операторыудаления тренда. Эти методики подробно описаны в гл.
12 и 14.Выбросы. График остатков хорошо показывает и резко отклоня"ющиеся от модели наблюдения — выбросы. Подобным наблюдениямнадо уделять особо пристальное внимание, так как их присутствие мо"жет грубо искажать значения оценок (особенно если для их полученияиспользуется метод наименьших квадратов). Устранение эффектов вы"бросов может проводиться либо с помощью удаления этих точек изанализируемых данных (эта процедура называется цензурированием),либо с помощью применения методов оценивания параметров, устойчи"вых к подобным грубым отклонениям. Иллюстрацией эффекта выбросаявляется пример 8.2к, разобранный в пункте 8.7.Множественная регрессия.
В более общем случае задача регрес"сионного анализа предполагает установление линейной зависимостимежду группой независимых переменных x1 , x2 , . . . , xk (здесь индекс kозначает номер переменной, а не номер наблюдения этой переменной)и одномерным откликом y. Эта обширная тема, носящая названиемножественной регрессии, не нашла отражения в данной книге.
Сней можно познакомиться в [36], [41]. Заметим, что для решения этойзадачи существуют мощные компьютерные процедуры, они имеются ив разбираемых нами пакетах.Стратегия анализа адекватности подобранной модели в задаче мно"жественной регрессии в целом аналогична задаче простой регрессии исводится к детальному анализу остатков.Замечания.
1. Имеются процедуры решения задач множественной регрес"сии, реализующие автоматический выбор тех переменных, которые оказываютсущественное влияние на отклик, и отсеивание несущественных переменных.Эти методы носят название шаговой регрессии, они весьма эффективны напрактике.2. Наибольшие трудности в задачах поиска зависимости от несколькихпеременных возникают, когда сами эти переменные сильно взаимозависимы.Это весьма характерная ситуация для многих экономических задач. Показателемподобной зависимости служит матрица корреляций переменных x1 , x2 , .
. . , xk .Самой простой рекомендацией при сильно зависимых переменных является238удаление части из них и проведение повторных расчетов. Затем проводитсясравнение полученных результатов. Другой особенностью подобных задачможет являться эффект, когда каждая из переменных x1 , x2 , . . . , xk действует наотклик не только независимо от других, но и порождает совместное воздействие.Для учета этого в модель, кроме переменных x1 , x2 , . . . , xk можно включатьих совместные произведения, например, переменные x1 · x2 , x1 · x3 , x2 · x3 ит.д. Однако в задачах множественной регрессии лучше стремиться сократитьобщее число переменных, от которых будет искаться зависимость, так как этосущественно упрощает последующий анализ модели.Нелинейная регрессия.
Скажем еще несколько слов о задаченелинейной регрессии. В этом случае параметры модели θ входятв подбираемую регрессионную функцию f (x, θ) нелинейным образом.Поэтому нахождение оценок параметров модели θ̂ в аналитическом видеобычно невозможно, так что эти оценки вычисляются на компьютереметодом итеративного приближения. Используемые здесь вычислитель"ные алгоритмы доволько сложны и не всегда работают успешно. Кро"ме того, огромный произвол в выборе вида самой нелинейной зависи"мости весьма затрудняет осмысленный подбор этой зависимости. Нанаш взгляд, использование методов нелинейной регрессии оправдано,в основном, когда вид регрессионной зависимости заранее известен изтеоретических соображений.8.3. …… Метод наименьших квадратов.
При выборе методов определенияпараметров регрессионной модели можно руководствоваться различны"ми подходами. Один из наиболее естественных и распространенныхсостоит в том, что при «хорошем» выборе оценки θ̂ параметра моде"ли θ величины yi − f (xi , θ) (в случае простой линейной регрессии —величины yi − A − bxi ) должны в совокупности быть близки к нулю.Меру близости совокупности этих величин (они обычно называютсяостатками) к нулю можно выбирать по"разному (например, максимуммодулей, сумму модулей и т.д.), но наиболее простые формулы расчетаполучаются, если в качестве этой меры выбрать сумму квадратов:n[yi − A − bxi ]2 → mini=1Определение. Методом наименьших квадратов называетсяспособ подбора параметров регрессионной модели исходя из минимизации суммы квадратов остатков.Сам по себе метод наименьших квадратов не связан с какими"либопредположениями о распределении случайных ошибок ε1 , .
. . , εn , онможет применяться и тогда, когда мы не считаем эти ошибки случай"ными (например, в задачах сглаживания экспериментальных данных).Однако мы будем рассматривать метод наименьших квадратов в связи сгауссовской моделью. Причины этого следующие:•Проиллюстрируем основные идеи обработки регрессионного экспе"римента (8.3) на примере простой линейной регрессии. Так называютзадачу регрессии, в которой x и y — одномерные величины (поэтомумы будем обозначать их x и y), а функция f (x, θ) имеет вид A + bx, гдеθ = (A, b). В этом случае соотношение (8.3) принимает вид:yi = A + bxi + εii = 1, . . . , n .•(8.4)Здесь x1 , .
. . , xn — заданные числа (значения фактора);y1 , . . . , yn — наблюденные значения отклика; ε1 , . . . , εn — независи"мые (ненаблюдаемые) одинаково распределенные случайные величины.Гауссовская модель. При решении задачи (8.4) (как и во многихдругих случаях) используются два основных подхода: непараметриче"ский и гауссовский, они различаются характером предположений от"носительно закона распределения случайных величин ε. Сначала мырассмотрим гауссовскую модель простой линейной регрессии. В нейдополнительно к вышесказанному предполагается, что величины εi рас"пределены по нормальному закону N (0, σ 2 ) с некоторой неизвестнойдисперсией σ 2 .239A, bименно в гауссовской модели метод наименьших квадратов обла"дает определенными свойствами оптимальности (мы их обсу"ждать не будем);в гауссовской модели получаемые с помощью этого метода оцен"ки неизвестных параметров обладают ясными статистическимисвойствами (которые мы обсудим).Оценки метода наименьших квадратов.