Секей Г. Парадоксы в теории вероятностей и математической статистике (1990) (1151962), страница 22
Текст из файла (страница 22)
Кейнс, Я. Тинберген и другие, например, Р. Клейн, которому в 1980 г. присуждена Нобелевская премия по экономике). Журнал «Технометрика» ("Тисйирте1псз*') публииуется с 1959 г. и в основном посвящен техническим прило- жениям. Регрессионный анализ величины Х, определяемой по другой величине У, когда Х измерить трудно, а У достаточно легко, весьма важен.
В настоящее время регрессионный анализ используется практически во всех областях науки, что само по себе неплохо, но, к сожалению, регрессионный анализ иногда является одним из главных средств для достижения «громких научных успехов», для проведения небрежных исследований и замазывания (научных) проблем. Регрессия никогда не подменяет научных концепций и теоретических обоснований, хотя и облегчает нх поиск.
б) Парадоксы Предположим, что зависимость двух величин выражается функцией следующего вида у=((х; а!, аь ..., а ), (например, у = а!к+а»), где неизвестны только параметры а!, а», ... ..., а„(а тип функции известен, например, линейный, квадратичный и т. д.). Если мы можем измерить значения у только со случайными ошибками наблюдений, т. е. вместо йч = 1(х!; аь аь ..., а ) мы наблюдаем значения У!, подверженные ошибкам, то согласно методу наименьших квадратов оценки неизвестных параметров а! минимизируют сумму квадратов Я (у, — ~ (х,; а„аз, ..., а„))з. ! ! (1) Если 1(х)= е", то оценка параметра а соответственно минимизирует сумму л ~, (у, — е"') .
В этом случае задача вычисления регрессионной кривой обычно упрощается, если вычислить логарифм от обоих членов разности, стоящих в скобках, и минимизировать величину и Е ((п у, — ах!)з, ! ! что нетрудно сделать, находя минимум квадратичного много- члена. Однако эти два подхода к минимизации дают разные оценки. Какой выход из этой парадоксальной ситуацииг (В) Предположим, что тип функции ( можно выбрать различными способами, напРимеР, /! — это многочлен, а 1« — экспоненциальная функция.
Кажется естественным предпочесть тот тип, для которого укаэанная выше сумма квадратов меньше (при оптимальном выборе параметров). Хотя этому принципу часто следуют на практике, обычно он не оправдан (иног- да следует установить хотя бы теоретическую возможность такого выбора). (1й) Пусть у = ах есть теоретическая линия регрессии и У; = ах;+ аь где е; (1= 1, 2, ..., л) являются независимыми нормально распределенными ошибками с математическим ожидаиием 0 и дисперсией В»(з;) = су (с — известная постоянная).
Теперь предположим, что наблюдения идеально согласуются с линией регрессии, т. е. У; = а»х; для иекоторого ае и и Е (У, —;,)»=О. С-1 Тогда оценкой параметра а по методу наименьших квадратов будет аъ, ио, как ии парадоксально, оиа ие является «лучшей» оцеикой (в смысле максимального правдоподобия, определение см, в парадоксе 8).
в) Объяснение парадоксов (1) Методу наименьших квадратов, несомненно, отвечает первая сумма, однако полезно разобраться ие только в букве, ио и в духе метода наименьших квадратов, сутью которого является минимизация суммарного влияния ошибок.
Эта цель может быть достигнута путем минимизации суммы квадратов ~' (И(У,) — И (1 (хб аь а„..., а„)))», ! ! где Ь(х) — монотонно возрастающаяфуикция (иапример,И(х) = =!пх). Хороший выбор Ь «лииеаризует» задачу, т. е. делает выражение для Ь(1(хй аь аь ..., а„)) линейной функцией от кеизвестиых параметров а; (в этом случае легко находятся оптимальные значения для а;). Если мы хотим определить неизвестные параметры, следуя духу метода наименьших квадратов, то, очевидно, лучше выбрать второй способ. Однако иногда нужно минимизировать все же исходную сумму, например, когда известно, что результатом ошибок являются фииаисовые потери, пропорциональные этой сумме, хотя такая возможиость совершенно иетипичиа.
(й) Первая часть вопроса очень проста: сумма квадратов может оказатьсЯ меньше длЯ 1ь чем длЯ (ь ио если взЯть чУть больше элементов выборки, то сумма квадратов становится меньше при выборе 1» Математическая статистика старается избегать подобных неустойчивых ситуаций. Существует иесколько методов принятия решений, которые применимы в ряде случаев и указывают выбор с заданной надежностью, например, 99% (т. е. если функция 11 отвергнута, то вероятность того, что правильным являлся выбор (ь равна 1 Я. В книге Плакетта обсуждается, например, метод, позволяющий определить правильную степень регрессионного многочлена (в случае независимых нормально распределенных ошибок наблюдений). К сожалению, многие из типичных задач по выбору вида регрессии невозможно решить должным образом.
Например, правило Вебера — Фехнера утверждает, что между раздражителем и ощущением существует логарифмическая зависимость, в частности, между объемом и интенсивностью звука или между частотой и высотой звука. В настоящее время это правило теоретически и практически рассматривается лишь как первое приближение, потому что кажется, что ближе к истине является степенная зависимость.
(В действительности, проблема сложнее, поскольку ощущение громкости зависит не только от интенсивности, но и от частоты и спектра звука, а также от продолжительности эксперимента.) (ш) Оценка д = ае не подходит, тан как тогда оценка для 0~(а;) равяялась бы нулю, что противоречит условию Пз(е~) = = су. Более оправданной будет оценка (максимального правдоподобия) [( 1/Г+ 4с~ — 1)/(йе')1 ав.
г) Замечания (1) Очень типичной, в частности, в фармакологии и при изучении рынка сбыта, является логит-пробит альтернатива. В соответствии с методом наименьших квадратов в логит-анализе с данными согласуется функция 1' — ее1+в,с!(! + ев1+еа) минимизирующая сумму ",) (1п-;-+- — а,— а,х,) . [Здесь преобразование, которое линеаризует задачу, дается функцией а(х) = !п(х/(1 — х)).] В пробит-анализе с данными согласуется функция нормального распределения (при соответствующем выборе параметров). Формы кривых этих двух типов могут быть очень похожи, поэтому не всегда легко решить, какую из них следует выбрать; в этом случае большую помощь может оказать теоретическое обоснование модели. (В) С увеличением числа параметров регрессии мы, очевидно, получим лучшее согласие наблюденных значений с моделью, однако прн этом возрастут дисперсии оценок параметров, так что оценки станут менее устойчивыми и менее надежными.
(ш) «Парадокс двух регрессий» см. в статье Калмана (1982). В этой статье (вышедшей вслед за пионерскими работами Гиня (1921) и Фриша (1934)) предполагается, что у обеих величин есть случайные (адаптивные) ошибки: Х = х+2 и У = =у+В(2, Е являются ошибками или «шумом»). Предполагая, что у= ах, можно дать «беспристрастную» оценку параметра а лишь в виде отрезка а,(а(аз. Здесь одним из концов отрезка является классический коэффициент регрессии (когда ищут регрессию у по х), а другим концом — обратный коэффициент регрессии (когда ищут регрессию х по у). Выбор любого из концов отрезка аг или ав в качестве оценки означает, что предполагается отсутствие шума у регрессионной переменной.
(Таким путем разрешается «парадокс двух регрессий».) д) Литература Вегйзоп Я. "М!п!пшш сЬЬвйиаге, по1 шах!шшп Ийепьооа!" Алла!з о1 81анз(., 8, 457 — 487, (1980). Вох О. Е. Р. "11»е апй зЬиве о( гекгевв!оп", Тесйлотз!г!сз, 8, (1966). Вох О. Е. Р., Сох О. В. "Ап апа!ув!в о1 1гапв(оппаиопв", У.
й. 8(анз!. 8ос. 8ег. В, 26, 211 — 243, (1964). Сох О. й. Тйс Ала!уз!з о( В!лагу Оа(и, Мепшеп, Ьопйоп, 1970. Оап!е! С., %пой Р. 8. Раппу Еуиаиол 1о Оа!а, ЦГИеу, Метч Уогй, 1971. Огарег М. П., 8шйЬ Н. Арриег( йзугззв!ол Ала!узах ЦГИеу, Мел Чогь, 1966. (Имеетса перевод: Дрейпер Н., Смит Г. Прикладной регрессионный анализ.
— Мс Статистика, 1973.1 ОигЬгп Д "Еггогв !п чаг!выев", лес, (лвй !лй 8!анас, 22, 23 — 32, (1954). РпвсЬ й. "81аивИса! соппиепсе апа!ув!з Ьу шеапв Ы сошр!е1е гейтевв!оп вув!ешв", Рийй Уо. 5; Ул!о. Оз!о Есолот!с 1лз!., 192 радев, (1934). О!и! С. "8ии' !п1егро!ах!опе йе ипа гепа чиапйо ! ча!оп йейа чаг!аЬИе !пшрепйеп!е воп апеп! йа еггоп' ассЫеп(аи", Ме1гол, 1, 63 — 82, (1921). Ка!шап й. Е. "1йепш!гапон !гош геа! 6а!а", 1п: Сиггзлс Оспе!ортслсв !л !Ле !л!згуассг Есолот!сз, Есолотетг!сз, Ма!Лзтапсз, Век(е1, (Е<$в. М.
Назем!пйе1 апй А. Н. О. Рдппооу Кап), 161 — 196, 1982. Р!асйеп й. 1.. Ееугеззгол Ало!узы, Ох1огй оп!чегвку Ргевв, Ьопаоп, 1960. Пао С. П. "8оше Шоикшв оп гекгезз!оп апй ргей!сиоп", Ргос. о( (Лз Еуглроз!игл !о Нолоиг!згау Неутал, а)агвам, 1974, 8с!оче 8. 1.. "(У чв. Х) ог (1ой У чв. Х)7", ТесЛиотзсг!св, 14, (1972). Я18!ег 8. М, "Оегкоппе'в 1815 рарег оп Ше йев!Ип апй апа1ув!з о! ро!упош!а! гекгезз!оп ехрег!шеп(з", НМ(ог!а Ма(Л., 1, 431 — 477, (1974). 7.
Парадоксы достаточности а) История парадокса Достаточность является одним из важнейших понятий в математической статистике. Ввел ее Р. Фишер в 20-е годы нашего века. Фишер выдвинул идею о том, что длй статистического анализа, касающегося неизвестных параметров, не всегда нужно знать все элементы выборки в отдельности.
Достаточно знать некоторые функции от выборки, называемые достаточными ста- тистиками. Например, в случае одномерного нормального распределения вся информация о его математическом ожидании содержится в арифметическом среднем Х элементов выборки Хь Хь ..., Х . Это следует из того факта, что распределения случайного вектора (Х~ — Х, Хэ — Х, ..., Х„ — Х) не зависит от неизвестного математического ожидания; и поэтому из знания случайных величин Х~ — Х, Хх — Х, ..., Х„ — Х мы не получим о математическом ожидании никакой дополнительной информации.
Математическое определение достаточности состоит в следующем. Функции Т~ = Т~(Хь Хм ..., Х„), Тэ — — Тг(Хь Хг, ... ., Х,), ..., Ть= Т,(Хь Хь, Х,) называются достаточной статистикой для параметра О распределения, общего для всех случайных величин Х„если совместное распределение величин Хь Хь ..., Х„при фиксированных Ть Ть ..., Тх не зависит от О. Возвращаясь к предыдущему примеру, получаем, что совместная условная плотность независимых случайных величин Хь Хь, Х„при Х = х равна и — 2 (х,-х)ч (1/Ы аа)"-'1/л (где оэ обозначает стандартное отклонение величины Х;), и эта плотность не зависит от О.