XVII Математическая статистика (1081432), страница 35
Текст из файла (страница 35)
ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА 70 60 50 8 10 12 И 16 Х Рис. 7.1 вполне определенную тенденцию, характеризующую увеличение „в среднем" массы тела У при увеличении возраста в рассматриваемый период интенсивного роста (от 12 до 16 лет). Целью проведенного исследования является прогноз роста конкретного школьника по заданному значению его возраста и определение среднего роста у(х) школьников, достигших возраста х.
Для достижения этой цели необходимо математически описать закономерность изменения условных средних значений у(х) = М(У(Х = х) в зависимости от значения х случайного переменного Х, а также изучить характер случайного разброса массы тела У отдельных школьников возраста х относительно своего среднего значения у(х). Таким образом, возникла необходимость рассмотрения математической модели (7.1), где 6(х) — случайное отклонение массы тела У школьников возраста х от среднего значения у(х) = М(У(Х=х). Если М(с(Х=х) = 0 при любых х, то у(х) = Дх), и построение искомой зависимости сводится к отысканию функции /(х), описывающей изменение условного среднего значения выходного переменного У при различных значениях Х = х входного переменного Х.
Остается определить, в каком классе У' функций мы будем искать аппроксимацию для 1(х). Для нашего примера по 7.!. Оскодние предположения расположению точек (х;, у;), ! = 1, о, можно заключить, что Дх) =,6~+ !91х, где,0е и Д вЂ” неизвестные параметры модели, т.е. Ур = = ®х;фе,!у!) ) есть класс полиномов первого порядка, к которому принадлежит функция регрессии Дх). Значения оценок Ре, Д параметров,бе, Д можно найти с помощью метода наименьших квадратов (см.
7.2) Матричная форма записи линейной регрессионной модели. Результаты эксперимента для исследования связи между Откликом У и вектОрОм факторОИ Х = (Х1, ..., ХГ) удобно представлять в виде матрицы Р исходных данных: х1 хз .. х' ... х" Г; =11', Г! Гз .. Г! ... Ги У1 Уз " ° Ь " ° У где х' = (х1, ..., х'), ! = 1, и, — различные значения вектора факторов Х, для которых проводился эксперимент; Г; — число независимых повторных (параллельных) опытов для х*; 11'— общее число наблюдений за откликом У; у; = (у;11 ..., у;,,), ! = 1, и, — значения отклика У, полученные в эксперименте для значения х' вектора факторов.
Заметим, что матрицу Х' Хз ... Х! ... Хз образованную двумя первыми строками матрицы Р, называют часто алеком эмс22еримемозо, совокупность возможных значений вектора факторов Х называют 4ояп2ормььи простпромстпеом и обозначззот Х". Если Г; = 1, ! = 1, п, то результаты эксперимента представляют собой и точек (х', у;), ! = 1, и, в пространстве КГ+1. 290 Г.
ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Рис. 7.2 У; = 7(х') + с;. При этом в случае модели, линейной по параметрам, согласно (7.2), имеем тл-1 У; =~~ Яф~(х')+е;, 1= 1, и. (7.4) Если на осноне системы равенств (7.4), которая содержит в себе всю информацию, полученную в эксперименте, мы сумеем оценить неизвестные параметры Д, (некоторым наилучшим образом), т.е. сумеем найти значения бь и Д, то тем самым будет найдена наилучшая (для выбранных базисных функций) модель следующего вида: т-1 1а(х) =,~ О~Ай(х).
(7.5) я=о Геометрическая интерпретация матрицы В представлена на рис. 7.2 для р= 2, и = 4, г; = 3, 1= 1,4 (крестиками отмечены соответствующие значения отклика У). Для удобства дальнейших рассуждений в соответствии с равенством (7.1) будем считать, что значению х' = (х', ..., х'„) вектора факторов Х' = (Х', ..., Х') соответствует отклик У; и случайная ошибка с; = я(х'), т.е.
291 7.Ь. Исходные воеяполокения Эта модель будет наилучшей в классе Ур для выбранного набора базисных функций Ф;(х), ь = 1, тп — 1. При зтом общую погрешность ь'.ь можно уменьшить лишь за счет уменьшения погрешностя аппроксимации Ь, связанной с выбором класса аппроксимирующих функций УВ (если удачно подобрать как сами функции тая(я), так и их количество тп).
Таким образом, модель (7.5) требует в общем случае проверки на адекватность (на соответствие результатам зксперимента) и при необходимости уточнения (это рассмотрено ниже, (см. 7.3). Введем в рассмотрение следующяе матрицы: т — матприцу отпклика У = (Уь, ..., У„) типа и х 1, если повторных опытов не было (т.е. гь = 1, ь = 1, и), или матприцу выбороинььи средних значений отпклика У типа п х 1 в противном случае, ь-й злемент которой есть ь=1,щ — матприцу Е базиснььк функций (матприцу наблюдекий) типа и х тп ф~(йь) фь(йь) ...
тЬь ь(йь) Фе(у ) Фь(й ) -" Ф,-ь(й ) Фо(у") Фь(й") ... Ф ь (у") т — матприцу (векьпор-стполбец) ошибок е = (еь, ..., е„) т типа и х 1 и вектор-столбец б = (Ое, ...,,9 ь) параметров модели. Тогда систему равенств (7.3) можно представить в матричном аиде: У = Гь9+с. (7.6) 292 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Уравнение (7.6) называют линейной реерессионной моделью. Подчеркнем, что линейность в этой модели понимается как линейность по параметрам,бе,,бы ...,,0 1, называемым также коэффициентами реерессии. По переменным Хм ..., Хр модель (7.6) может быть (и, как правило, так и бывает) нелинейной. Возможные ситуации рассмотрены в примере 7.2. Замечание 7.1.
При наличии повторных опытов в равенстве (7.6) вместо матрицы У будет стоять матрица У. Рассмотрим возможные конкретные случаи реализации соотношения (7.2), которые приводят к общей модели (7.6). Пример 7.2. а. Пусть имеется лишь один фактор Х (т.е. р = 1), а множество точек (х;, у;), 1= 1, и, расположено на плоскости хОу вдоль некоторой прямой (рис. 7.3, а).
В этом случае в качестне функции Ях), аппроксимирующей функцию регрессии у(х) = М (У ~ х), естественно взять линейную функцию Рис. 7.3 7Л. Исходные нреднолаженнл аргумента х: Ях) = фе+,Влх, т.е. в качестве базисных функций здесь выбраны е7~е(х) = 1 и Ф~(х) = х. Такую регрессию называют лросютлой линейной репрессией. Если множество точек (х;, у;), е = 1, п, расположено вдоль некоторой кривой (рис. 7.3, 6), то в качестве 7 (х) естественно попробовать выбрать семейство парабол: у (х) =Д>+Дх+,бзхэ, т.е.
в качестве базисных функций здесь выступают функции 4е(х) = 1 и 42(х) = х, фэ(х) = хэ. Наконец, в случае расположения точек (х;, у;), 1 = 1, и, показанного на рис. 7.3, в, можно попробовать подобрать функцию Ях) из семейства экспонент: В последнем случае функция Ях) является нелинейной по параметрам,бе и ~32 и не приводит к линейной регрессионной модели (7.5). Однако после некоторого функционального преобразования нелинейную по параметрам функцию Ях) часто можно привести к функции ~,(х), линейной по параметрам. В данном случае после логарифмирования получаем 1и 7" (х) = 1п~9е —,б~х, т.е.
функция Ях) =!пЯх) уже линейна по параметрам де = =1пД~ и 02 =-Д. б. Пусть имеется два фактора Хл и Хэ (т.е. р = 2), а множество точек (х*, у;), л = 1, п, где х' = (хл, х2), расположены вдоль некоторой плоскости в пространстве трех переменных у, х2 и х2. Тогда набор наилучшей аппроксимации Д,(х) можно начинать с линейной по переменным Х2 и хэ функции Хв(х) = РО+ Ах1+ Рэх2~ 294 Х ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА т.е. выбрать в качестве базисных функций еро(х) = 1, ер» (х) = х» и фз(х) =~э.
Если точки (х;, у;), в = 1, а, расположены в пространстве переменных у, хь хз так, что есть основание предполагать наличие у функции Дх) точки экстремума, то естественно искать |,(х) среди полиномов второго порядка, т.е. принять ув(Х) = ~30+,6»Х» + /3фхя+ 13ЗХ»ХЗ +»3ВХ» + )3ВХЗ. В этом случае базисными функциями будут ц»о(х):— 1, ф»(х) = = Х», фэ(Х) = ХЗ, фэ(Х) = Х»ХЗ, ФРв(х) = х», фв(х) = хз. в. В качестве базисных функций могут быть выбраны не только степени переменных х», ..., хр, но, нообще говоря, любые линейно независимые функции, не содержащие неизвестных параметров. Например, при фо(х) = 1, »»»»(х) = е»+к», 1(»з(х) = в»пх» полУчаем линейнУю по паРаметРам моДель Регрессии Ях) = »3о+»3»е*»+*' +»3зя»п х».
7.2. Метод наименьших квадратов Матрицы Г н У в линейной рсерессионной модели (7.6) содержат всю информацию, получаемую в результате эксперимента. По этим данным нам нужно оценить вектор неизнестт ных параметров»3 = (Д», Д, ...,,В») . Для получения оценок, как отмечалось выше, будем использовать нен»од наил»ень»них квадрао»ов. Предварительно сформулируем предположения, лежащие в его основе. 1. Мв; = О, 1= 1, о, т,е. систематическая ногреи»носп»ь модели отсутствует. 2. М(впту) = О, 1ф у, т.е.
случайные ои»ибки некоррелированы (это ограничение можно снять, если матрица ковариаций П(в) вектор-столбца ои»обок известна'). 'Смо Ивченко Г.И., Меоведев Ю.И. 7.2. Метод неииеиьших квадратов Р 27 где 7„— единичная матрица порядка и. Четвертое предположение означает, что, согласно соотношениям (7.3), верны равенства МУ=~~~ Д4ь(х'), ВУ;=Юе;=о~, 1=1,н, лью которые в матричной записи имеют вид МУ =ГО, РУ =о~Х„. Подчеркнем, что никаких предположений о законе распре- Ъ деления случайных величин У;, 1= 1, н, мы пока не делаем. Теорема 7.1. Пусть М = à à — невырожденнзл матрица.
Несмещенной эЯЯектпиеной оценкой в классе всех линейных т оценок для параметра,О = (Ро Д ...,О ~) в линейной регрессионной модели (7.6) является опенка метпода наименьших квадратное (МНК-оценка), определяемая матричным равенством О(У)=(Г Г) 'Г У 41 (7.7) Поясним идею метода наименьших квадратов и происхождение формулы (7.7). Докажем несмещенность и эффективность оценки,О(У„) в классе линейных оценок.
3. Юе; = Ме7 = оз, 1 = 1, н, т.е. в любых точках фактпорного нростпрансгпеа Х" случайные ошибки имеют одинаковую дисперсию. 4. Значения х; переменных Х;, 1= 1, р, в процессе эксперимента измеряются без ошибок. Отметим, что предположения 2 и 3 можно объединить и представить в следующем виде: 296 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Пусть отклик У зависит ляшь от одного фактора Х (р = 1), а искомая функция регрессии М(У~х) = Дх) имеет график, изображенный пунктирной линией на рис.