Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 52
Текст из файла (страница 52)
Для этих функций программа cначалаосуществляет необходимые преобразования векторов независимой и зависимойпеременных x и y, а затем применяет к преобразованной модели стандартныйметод наименьших квадратов для нахождения оценок параметров. Но в связи сэтим следует помнить, что требования аддитивности, одинаковой распределен"ности и нормальности случайной ошибки εi относятся к преобразованной моде"ли, а не к первоначальной. Более того, за исключением нескольких частных слу"чаев, сформулировать статистические требования к характеру случайной ошиб"ки в исходной модели крайне трудно. Поэтому последующий анализ остатковдля первоначальной модели не имеет смысла и необходимо исследовать остаткипреобразованной модели. Мы специально обращаем на это внимание, так какпроцедура однопараметрической регрессии выводит график и предусматриваетвозможность сохранения остатков только для первоначальной модели.Для зависимостей с номерами 7, C, I, L, M, не допускающих сведения клинейным относительно параметров функциям, программа использует нелиней"ный метод наименьших квадратов.
Для этих зависимостей дальнейший анализостатков можно проводить стандартными способами.3. Чтобы пользователю было легче выбрать наиболее подходящую зависи"мость, во встроенном справочнике пакета STADIA дается краткая классифи"кация различных функциональных зависимостей, представленных в процедурепростой регрессии, с точки зрения скорости изменения (поведения производ"ных), максимумов, асимптот, периодичности и т.п.4. Пакет STADIA позволяет использовать и другие модели однопараме"трической регрессии.
Выбрав пункт O=Общая/нелиннейная модель в меню выборастатистических методов, Вы можете задать вид зависимости формулой.Следующий пример демонстрирует недостатки использования мето"да наименьших квадратов для получения регрессионных оценок в слу"чае, когда происходит нарушение исходных предпосылок модели.
Дан"ные для него были предложены П.Хьюбером [116], являющимся однимиз основателей теории робастного (устойчивого) оценивания.Пример 8.2к. Методом наименьших квадратов вычислим оценкипараметров параболической модели регрессии y = A + Bx + Cx2 , когдавектор независимых переменных x есть (−4, −3, −2, −1, 0, 10), а в век"тор зависимых переменных y — (2.48, 0.73, −0.04, −1.44, −2.32, 0). Оце"ним адекватность подобранной модели. Проведем повторные расчеты,исключив из данных резко выделяющееся наблюдение.Ïîäãîòîâêà äàííûõ. На рис. 8.12 приведен экран редактора базыданных пакета с введенными данными примера.Âûáîð ïðîöåäóðû.
В меню Статистические методы (рис. 1.17) в разделеРегрессионный анализ выберите пункт L = Простая регрессия/тренд. Так же, как в261Рис. 8.12. Данные для примера 8.2кпримере 8.1к, укажем в ответ на запрос программы номера независимойи зависимой переменных. Из меню моделей регрессии (рис.
8.5) выберемнажатием кнопки «2» параболическую модель.Ðåçóëüòàòû. На рис. 8.13 приведены результаты расчетов про"цедуры.ÏÐÎÑÒÀß ÐÅÃÐÅÑÑÈß. Ôàéë:huber.stdÏåðåìåííûå: x1, x2Êîýôô.Çíà÷åíèåÑò.îøèá.Çíà÷èì.Ìîäåëü: ïàðàáîëà Y = a0+a1*x+a2*x^2a0a1a2-2.2665 -0.77426 0.100070.15447 0.044868 0.0589250.00060.00040.0004Èñòî÷íèê Ñóì.êâàäð. Ñòåï.ñâ Ñðåäí.êâàäð.Ðåãðåññ.13.94726.9734Îñòàòî÷í0.136130.045366Âñÿ14.0835Ìíîæåñòâ RR^2R^2ïðèâ Ñò.îøèá.FÇíà÷èì0.99516 0.990340.98389 0.21299 153.720.0009Ãèïîòåçà 1: <Ðåãðåññèîííàÿ ìîäåëü àäåêâàòíà ýêñïåðèìåíòàëüíûì äàííûì>Рис. 8.13.
Результаты вычислений процедуры параболической регрессииÄàëüíåéøèé ïîðÿäîê ðàáîòû может быть таким же, как в пре"дыдущем примере.Îáñóæäåíèå. Обратим внимание на то, что значения t"статистикСтьюдента для каждого из коэффициентов не позволяют отвергнутьгипотезу о равенстве их нулю. Значение коэффициента корреляциипоказывает, что параболическая модель довольно хорошо объясняетвариацию данных. Другими словами, у нас нет оснований считатьподобранную модель неудовлетворительной.Обратимся к происхождению этих данных.
Данные примера являют"ся искусственными. Они были получены следующим образом: к шеститочкам, лежащим на прямой y = −2 − x были добавлены случайныеошибки: с первой по пятую — нормальные ошибки (с нулевым сред"ним и стандартным отклонением 0.6), а к шестой точке — большаяошибка — число 12.262Попытка подобрать к этим данным простую линейную модельметодом наименьших квадратов даст следующую зависимость: y =−0.098−0.081x.
При этом значения t"статистик Стьюдента при проверкегипотезы о значимом отличии коэффициентов модели от нуля, покажут,что оба эти коэффициента не значимы, а коэффициент детерминиции R2не превысит 0.06. Последнее означает, что линейная модель объясняетменее 6% вариации данных. Считать такую модель удовлетворительнойявно не следует. Заметим, что первые пять точек в этом примере до"вольно хорошо ложатся на прямую линию на плоскости, а вот шестаялежит далеко в стороне. Именно эта точка столь сильно исказила оцен"ки параметров исходной прямой y = −2 − x.
Если удалить эту точкуиз расчетов, и вновь провести оценку параметров линейной модели, торезультаты заметно изменятся и станут, с учетом малого объема наблю"дений, довольно близкими к модельным параметрам. Модель простойлинейной регрессии в этом случае примет вид: y = −2.472−1.177x, а ко"эффициент детерминиции R2 превысит 0.98, но будет меньшим, чем приподборе параболической модели ко всем наблюдениям (см.
рис. 9.13).Как пишет П.Хьюбер [116]: «Совершенно очевидно, что для того, чтобыделать умозаключения о достоинствах или недостатках этих подгонок,приведенных данных недостаточно». Если судить по остаточной ошибке,то следует склониться к параболической модели, которой соответствуетсамое низкое значение остаточной ошибки.
Однако учитывая происхо"ждение данных, подходящей будет подгонка простой линейной модельюс исключением из обработки шестой точки.8.7.2. SPSSВ пакете представлен широкий спектр процедур регрессионного ана"лиза. Часть из них сосредоточена в базовом модуле пакета SPSS Base,а часть — в дополнительном модуле SPSS Trends. Кратко перечи"слим процедуры регрессионного анализа в базовом модуле пакета.
Восновном они сосредоточены в блоке Regression меню Analyze редактораданных пакета. Здесь представлены процедуры Linear, Curve Estimation, BinaryLogistic, Multinomial Logistic, Ordinal, Probit, Nonlinear, Weight Estimation, 2'stage LeastSquares. Еще ряд процедур, использующих регрессионный анализ в болееобщих ситуациях, когда, скажем, часть предикторов является количе"ственными, а часть — качественными, или когда остатки регрессионноймодели коррелированы, представлены в блоках General Linear Model (общаялинейная модель), Loglinear (логлинейный анализ) и Time Series (анализвременных рядов) меню Analyze редактора пакета.263Укажем назначение и основные особенности наиболее употреби"тельных из этих процедур.Linear. Эта процедура решает задачи множественной линейной регрес"сии.
Она позволяет задавать различные стратегии подбора предикторовв множественной регрессии (шаговая регрессия). Процедура снабженаобширным инструментарием для выяснения устойчивости подобранноймодели и диагностики мультиколлинеарности предикторов. Вопросы,связанные с этой процедурой, описаны в [41], [68], [1], [42], [40].Curve Estimation. Эта процедура позволяет установить различные ти"пы функциональной связи между откликом (зависимой переменной) иодним предиктором (независимой переменной). Как частный случай,она включает простую линейную регрессию.
Работа этой процедурыразобрана в п. 13.2.2. Процедура включает как линейные по параметраммодели, так и не линейные.Процедуры Binary Logistic, Multinomial Logistic, Ordinal, Probit предназначе"ны для работы с данными, измеренными в номинальных и порядковыхшкалах (см. п. 9.1). Чаще всего эти процедуры используются в социо"логических, маркетинговых и медицинских исследованиях.
Примеромтипичной задачи, для решения которой привлекаются эти процедуры,является установление связи между предпочтениями потребителей тогоили иного товара, и, скажем, их полом, социальным статусом, образо"ванием, уровнем доходов и т.п.Nonlinear (нелинейная регрессия). Эта процедура вычисляет оценкинаименьших квадратов для параметров в заданной пользователем нели"нейной регрессионной модели (см.