Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 51
Текст из файла (страница 51)
Представляет интерес сравнение полученной оценки ко"эффициента b и оценки, полученной с помощью непараметрического метода,изложенного в п. 8.4. Непараметрический метод оценки коэффициента b пред"полагает представление массива xi в виде x1 , x1 , x1 , x1 , x1 , x1 , x2 ,. . . , x2 ,x3 , . . . , x3 , . . . , x6 ,. . . , x6 , где каждое значение xi повторяется 6 раз. Такимобразом, объем массива x равен N = 36. Рассмотрим массив:yj − yi, все 1 i < j N, для которых xi = xj .βij =xj − xiОбъем массива βij в нашем случае, с учетом повторений значений в массиве2− 6 C62 = 540.
Согласно (8.27), новой оценкой коэффициента bx, равен: C36будет являться величина β̃, равная:yj − yiβ (270) + β (271).=β̃ = medi, j=1,... , nxj − xi2xi =xj255(8.39)Сравнение выражений (8.38) и (8.39) показывает, что доверительный ин"тервал, построенный непараметрическим методом, оказывается более узким.Причиной этого может быть либо действие случая, либо неполное согласие об"рабатываемых данных с гауссовской моделью линейной регрессии. Чтобы в этомразобраться, следовало бы подвергнуть анализу совокупность видимых откло"нений от линии регрессии (см. п. 8.4). Но мы не станем этого делать, а простопрервем исследование, удовлетворившись уже полученными результатами.8.7.
#…… …ƒ STADIA SPSSВыше на примере задачи простой линейной регрессии были разо"браны основные понятия и методы решения регрессионных задач. Какотмечалось, эти задачи весьма разнородны по своим постановкам и повозможным алгоритмам построения оценок и проверки адекватностимоделей. Краткий обзор основных подходов к исследованию регресси"онных задач можно найти в [41]. Там же приведена краткая справка орегрессионных программах в таких широко распространенных пакетах,как BMDP"79, SPSS, SAS, Minitab.
В последние годы появилась лите"ратура, описывающая работу некоторых отечественных пакетов, содер"жащих в основном методы регрессионного анализа [36], [84], [121]. Вцелом отметим, что комплектация статистических пакетов регрессион"ными программами сильно варьируется.
В пакете STADIA представлендовольно традиционный набор регрессионных методов, позволяющийрешать весьма широкий круг задач, однако считать его полным не вкоем случае не следует. Регрессионные процедуры SPSS гораздо болеемногообразны и снабжены эффективными дополнительными инструмен"256тами исследования.
Однако, от этого их использование усложняется итребует высокой статистической квалификации.В обоих пакетах полностью отсутствуют непараметрические методырегрессионного анализа.8.7.1. STADIAВ пакете широко представлены различные методы регрессионногоанализа, включая простую, множественную, пошаговую, нелинейнуюрегрессию и др. (см. меню Статистические методы на рис.
1.17). Следуетсразу обратить внимание на не совсем традиционную классификациюрегрессионных моделей в пакете.Для общего обозначения моделей данных, обрабатываемых метода"ми регрессионного анализа, в справочнике пакета используется терминЭкспериментальные зависимости. Последние делятся в пакете на однопараме"трические и многопараметрические, линейные и нелинейные по пара"метрам. При этом под однопараметрической зависимостью понимаетсяпроизвольная функция y = f (x), где x — простая действительная пе"ременная. Это определение может привести к путанице, так как числопараметров в подобной зависимости может быть любое.
В частности,все полиномиальные модели при этом попадают в процедуру «Простойрегрессии». Скорее, эти зависимости следовало бы назвать одномерны"ми или однофакторными. Более подробно анализ списка данных моделей(рис. 8.5) дан в комментариях к примеру 8.1к.Çàïîëíåíèå ïîëåé ââîäà äàííûõ.
В появившемся на экранезапросе Переменные регрессии (рис. 8.4) укажите в качестве Y'переменнойпеременную otkl, а в качестве X'переменной — переменную nagr. Дляэтого следует выделить с помощью мыши нужную переменную в полеПеременные и нажать соответствующую кнопку со стрелкой вправо. Посленажатия кнопки запроса Óòâåðäèòü программа выдаст меню моделейрегрессии (рис. 8.5), отнесенных в пакете к однопараметрическим.Выберите в нем пункт 1=линейная или просто нажмите клавишу «1».Пример 8.1к.
Методом наименьших квадратов вычислим оценкипараметров в модели простой линейной регрессии для данных кали"бровочного эксперимента (табл. 8.1). Построим 95% доверительнуютрубку для среднего значения отклика.Ïîäãîòîâêà äàííûõ. Введем в электронную таблицу пакетаданные таблицы 8.1 в переменные nagr и otkl (см. рис.
8.3).Рис. 8.3. Данные для примера 8.1кÂûáîð ïðîöåäóðû. В меню Статистические методы (рис. 1.17) в разделеРегрессионный анализ выберите пункт L = Простая регрессия/тренд.257Рис. 8.4. Запрос выборапеременных регрессииРис. 8.5. Меню моделейоднопараметрической регрессииÐåçóëüòàòû. Экран вывода результатов процедуры (рис. 8.6) со"держит три блока информации. В первом из них представлены оценкикоэффициентов модели, их стандартные ошибки и уровни значимости t"отношений для проверки гипотез об отличии соответствующих коэффи"циентов от нуля. Второй блок информации содержит базовую таблицудисперсионного анализа (см.
пример 6.2к), показывающую, как общаявариация отклика распределяется между вариацией, обусловленной вве"денной моделью, и вариацией остатков. Третий блок информации содер"жит абсолютную величину коэффициента множественной корреляцииR, коэффициент детерминации R^2, несмещенную оценку коэффициентадетерминации R^2прив, а также F"отношение и его уровень значимостидля проверки гипотезы о соответствии выбранной модели наблюденным258Коэфф.ЗначениеСт.ошиб.Значим.Модель: линейная Y = a0+a1*xa0a130.124397.170.58137 0.960110.00010.0001Источник Сум.квадр. Степ.свРегресс.
1.1042E51Остаточн2.5814Вся 1.1043E55Средн.квадр.1.1042E50.64526Множеств RR^2R^2прив Ст.ошиб.FЗначим0.99999 0.999980.99997 0.80328 1.17113E50Гипотеза 1: <Регрессионная модель адекватна экспериментальным данным>nagr=0.75Y=328Рис. 8.6. Результаты расчетов процедуры простой линейной регрессииРис. 8.9. Пакет STADIA. График экспериментальныхточек и регрессионной кривой. Справа — график прогнозаданным.
Сравнивая полученный уровень значимости с пятипроцентным,процедура делает заключение об адекватности модели.Процедура также предлагает пользователю рассчитать с помощьюподобранной модели значение зависимой переменной для указанно"го значения независимой переменной. Для этого в окне Интерполяция(рис. 8.7) следует указать требуемое значение переменной nagr, напри"мер 0.75 и нажать кнопку Óòâåðäèòü. Рассчитанное значение откликапомещается в окно результатов (рис. 8.6).Xэксп00.20.40.60.81Yэксп29.375110.26188.76268.92348.54426.42Yрегр30.124109.56188.99268.43347.86427.3остаток;0.748950.69916;0.235720.488390.6785;0.88138Ст.остат;1.04240.97312;0.328090.679760.94436;1.2267Ст.ошиб0.991590.91420.872940.872940.91420.99159Довер.инт2.75442.53942.42482.42482.53942.7544Рис.
8.10. Результаты анализа остатковрия). Процедура также позволяет вывести график остатков и сохранитьостатки в отдельной переменной базы данных пакета.Процедура 2 = Прогнозирование позволяет получить прогноз вперед сзаданным числом точек прогноза и шагом прогноза (см. рис. 8.11).Рис. 8.7.
Запрос вычислениязначения зависимой переменнойXпрогн1.11.21.31.41.51.61.71.81.92Рис. 8.8. Меню дополнительныхвозможностей процедуры регрессииYпрогн467.02506.73546.45586.17625.89665.6705.32745.04784.76824.47Ст.ошиб1.04151.09751.15881.22451.29411.36681.44231.52011.59991.6813Довер.инт2.89293.04853.21873.40143.59453.79664.00634.22244.44394.6702Рис. 8.11.
Результаты вычисления прогнозаДалее процедура предлагает построить график экспериментальныхточек и регрессионной кривой (рис. 8.9, левая часть). Построенныйграфик при этом может быть сохранен в отдельном графическом окне.Содержание окна сохраняется в течение всего сеанса работы с програм"мой и может быть просмотрено по требованию пользователя.На рис. 8.11 приведены результаты расчетов этой процедуры при чи"сле точек прогноза 10 и шаге прогноза 0.1. Первое значение Xпрогн равносумме максимального значения наблюденной независимой переменнойи величины шага прогноза.
В столбце Довер.инт фигурирует величина до"пустимого отклонения от прогноза при 95% уровне доверия. Процедуратакже строит график прогноза, он приведен на рис. 8.9 справа.Äîïîëíèòåëüíûå âîçìîæíîñòè. Затем пользователю предлага"ется меню дополнительных возможностей процедуры (рис. 8.8).Результаты расчетов процедуры 1 = Анализ остатков представлены нарис.
8.10. Кроме значений экспериментальных данных, они содержатподобранные значения модели, остатки и их стандартизированные зна"чения, а также стандартные ошибки остатков и доверительные интер"валы для них (в виде допустимого отклонения для 95% уровня дове"Êîììåíòàðèè. 1. Число наблюдений в зависимой и независимой пере"менных должно быть одинаковым.2. Большинство функций, обрабатываемых процедурой однопараметриче"ской регрессии (см. рис. 8.5), являются нелинейными относительно входящих вних параметров.
В таких случаях для решения задачи регрессии возможны дваподхода. Наиболее общий из них сводится к применению нелинейного методанаименьших квадратов для нахождения оценок неизвестных параметров в мо"дели (8.5) с аддитивной ошибкой. Другой, частный метод, основан на преобра"259260зовании векторов зависимой и независимой переменных таким образом, чтобыпреобразованная функциональная зависимость была√ линейной относительно па"раметров. Например, для функции y = 1/(a + b x) преобразование вектора yвида ui = 1/yi переводит ее в линейную относительно параметров функцию.Аналогичные преобразования допустимы для большинства функций, указанныхв списке (кроме функций 7, C, I, L, M) .