183859 (Многомерный статистический анализ)
Описание файла
Документ из архива "Многомерный статистический анализ", который расположен в категории "". Всё это находится в предмете "экономико-математическое моделирование" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "экономико-математическое моделирование" в общих файлах.
Онлайн просмотр документа "183859"
Текст из документа "183859"
РЕФЕРАТ
По эконометрике
Многомерный статистический анализ
В многомерном статистическом анализе выборка состоит из элементов многомерного пространства. Отсюда и название этого раздела эконометрических методов. Из многих задач многомерного статистического анализа рассмотрим две - восстановления зависимости и классификации.
Оценивание линейной прогностической функции
Начнем с задачи точечного и доверительного оценивания линейной прогностической функции одной переменной.
Исходные данные – набор n пар чисел (tk , xk), k = 1,2,…,n, где tk – независимая переменная (например, время), а xk – зависимая (например, индекс инфляции, курс доллара США, объем месячного производства или размер дневной выручки торговой точки). Предполагается, что переменные связаны зависимостью
xk = a (tk - tср)+ b + ek , k = 1,2,…,n,
где a и b – параметры, неизвестные статистику и подлежащие оцениванию, а ek – погрешности, искажающие зависимость. Среднее арифметическое моментов времени
tср = (t1 + t2 +…+tn ) / n
введено в модель для облегчения дальнейших выкладок.
Обычно оценивают параметры a и b линейной зависимости методом наименьших квадратов. Затем восстановленную зависимость используют для точечного и интервального прогнозирования.
Как известно, метод наименьших квадратов был разработан великим немецким математиком К. Гауссом в 1794 г. Согласно этому методу для расчета наилучшей функции, приближающей линейным образом зависимость x от t, следует рассмотреть функцию двух переменных
О ценки метода наименьших квадратов - это такие значения a* и b*, при которых функция f(a,b) достигает минимума по всем значениям аргументов.
Чтобы найти эти оценки, надо вычислить частные производные от функции f(a,b) по аргументам a и b, приравнять их 0, затем из полученных уравнений найти оценки: Имеем:
Преобразуем правые части полученных соотношений. Вынесем за знак суммы общие множители 2 и (-1). Затем рассмотрим слагаемые. Раскроем скобки в первом выражении, получим, что каждое слагаемое разбивается на три. Во втором выражении также каждое слагаемое есть сумма трех. Значит, каждая из сумм разбивается на три суммы. Имеем:
Приравняем частные производные 0. Тогда в полученных уравнениях можно сократить множитель (-2). Поскольку
(1)
уравнения приобретают вид
Следовательно, оценки метода наименьших квадратов имеют вид
(2)
В силу соотношения (1) оценку а* можно записать в более симметричном виде:
Эту оценку нетрудно преобразовать и к виду
Следовательно, восстановленная функция, с помощью которой можно прогнозировать и интерполировать, имеет вид
x*(t) = a*(t - tср)+ b*.
Обратим внимание на то, что использование tср в последней формуле ничуть не ограничивает ее общность. Сравним с моделью вида
xk = c tk+ d + ek , k = 1,2,…,n.
Ясно, что
Аналогичным образом связаны оценки параметров:
Для получения оценок параметров и прогностической формулы нет необходимости обращаться к какой-либо вероятностной модели. Однако для того, чтобы изучать погрешности оценок параметров и восстановленной функции, т.е. строить доверительные интервалы для a*, b* и x*(t), подобная модель необходима.
Непараметрическая вероятностная модель. Пусть значения независимой переменной t детерминированы, а погрешности ek , k = 1,2,…,n, - независимые одинаково распределенные случайные величины с нулевым математическим ожиданием и дисперсией неизвестной статистику.
В дальнейшем неоднократно будем использовать Центральную Предельную Теорему (ЦПТ) теории вероятностей для величин ek , k = 1,2,…,n (с весами), поэтому для выполнения ее условий необходимо предположить, например, что погрешности ek , k = 1,2,…,n, финитны или имеют конечный третий абсолютный момент. Однако заострять внимание на этих внутриматематических "условиях регулярности" нет необходимости.
Асимптотические распределения оценок параметров. Из формулы (2) следует, что
(5)
Согласно ЦПТ оценка b* имеет асимптотически нормальное распределение с математическим ожиданием b и дисперсией оценка которой приводится ниже.
Из формул (2) и (5) вытекает, что
Последнее слагаемое во втором соотношении при суммировании по i обращается в 0, поэтому из формул (2-4) следует, что
(6)
Формула (6) показывает, что оценка является асимптотически нормальной с математическим ожиданием и дисперсией
Отметим, что многомерная нормальность имеет быть, когда каждое слагаемое в формуле (6) мало сравнительно со всей суммой, т.е.
Из формул (5) и (6) и исходных предположений о погрешностях вытекает также несмещенность оценок параметров.
Несмещенность и асимптотическая нормальность оценок метода наименьших квадратов позволяют легко указывать для них асимптотические доверительные границы (аналогично границам в предыдущей главе) и проверять статистические гипотезы, например, о равенстве определенным значениям, прежде всего 0. Предоставляем читателю возможность выписать формулы для расчета доверительных границ и сформулировать правила проверки упомянутых гипотез.
Асимптотическое распределение прогностической функции. Из формул (5) и (6) следует, что
т.е. рассматриваемая оценка прогностической функции является несмещенной. Поэтому
При этом, поскольку погрешности независимы в совокупности и , то
Таким образом,
Итак, оценка является несмещенной и асимптотически нормальной. Для ее практического использования необходимо уметь оценивать остаточную дисперсию
Оценивание остаточной дисперсии. В точках tk , k = 1,2,…,n, имеются исходные значения зависимой переменной xk и восстановленные значения x*(tk). Рассмотрим остаточную сумму квадратов
В соответствии с формулами (5) и (6)
Найдем математическое ожидание каждого из слагаемых:
Из сделанных ранее предположений вытекает, что при имеем следовательно, по закону больших чисел статистика
SS/n является состоятельной оценкой остаточной дисперсии .
Получением состоятельной оценкой остаточной дисперсии завершается последовательность задач, связанных с рассматриваемым простейшим вариантом метода наименьших квадратов. Не представляет труда выписывание верхней и нижней границ для прогностической функции:
где погрешность имеет вид
Здесь p - доверительная вероятность, U(p), как и в главе 4 - квантиль нормального распределения порядка (1+р)/2, т.е.
При p= 0,95 (наиболее применяемое значение) имеем U(p) = 1,96. Для других доверительных вероятностей соответствующие значения квантилей можно найти в статистических таблицах (см., например, наилучшее в этой сфере издание [1]).
Сравнение параметрического и непараметрического подходов. Во многих литературных источниках рассматривается параметрическая вероятностная модель метода наименьших квадратов. В ней предполагается, что погрешности имеют нормальное распределение. Это предположение позволяет математически строго получить ряд выводов. Так, распределения статистик вычисляются точно, а не в асимптотике, соответственно вместо квантилей нормального распределения используются квантили распределения Стьюдента, а остаточная сумма квадратов SS делится не на n, а на (n-2). Ясно, что при росте объема данных различия стираются.
Рассмотренный выше непараметрический подход не использует нереалистическое предположение о нормальности погрешностей (см. начало главы 4).. Платой за это является асимптотический характер результатов. В случае простейшей модели метода наименьших квадратов оба подхода дают практически совпадающие рекомендации. Это не всегда так, не всегда два подхода бают близкие результаты. Напомним, что в задаче обнаружения выбросов методы, опирающиеся на нормальное распределение, нельзя считать обоснованными, и обнаружено это было с помощью непараметрического подхода (см. главу 4).
Общие принципы. Кратко сформулируем несколько общих принципов построения, описания и использования эконометрических методов анализа данных. Во-первых, должны быть четко сформулированы исходные предпосылки, т.е. полностью описана используемая вероятностно-статистическая модель. Во-вторых, не следует принимать предпосылки, которые редко выполняются на практике. В-третьих, алгоритмы расчетов должны быть корректны с точки зрения математико-статистической теории. В-четвертых, алгоритмы должны давать полезные для практики выводы.
Применительно к задаче восстановления зависимостей это означает, что целесообразно применять непараметрический подход, что и сделано выше. Однако предположение нормальности, хотя и очень сильно сужает возможности применения, с чисто математической точки зрения позволяет продвинуться дальше. Поэтому для первоначального изучения ситуации, так сказать, "в лабораторных условиях", нормальная модель может оказаться полезной.
Пример оценивания по методу наименьших квадратов. Пусть даны n=6 пар чисел (tk , xk), k = 1,2,…,6, представленных во втором и третьем столбцах табл.1. В соответствии с формулами (2) и (4) выше для вычисления оценок метода наименьших квадратов достаточно найти суммы выражений, представленных в четвертом и пятом столбцах табл.1.
Табл.1. Расчет по методу наименьших квадратов при построении
линейной прогностической функции одной переменной
i | ti | xi |
|
|
|
|
| ( )2 |
1 | 1 | 12 | 1 | 12 | 3,14 | 12,17 | -0,17 | 0,03 |
2 | 3 | 20 | 9 | 60 | 9,42 | 18,45 | 1,55 | 2,40 |
3 | 4 | 20 | 16 | 80 | 12,56 | 21,59 | -1,59 | 2,53 |
4 | 7 | 32 | 49 | 224 | 21,98 | 31,01 | 0,99 | 0,98 |
5 | 9 | 35 | 81 | 315 | 28,26 | 37,29 | -2,29 | 5,24 |
6 | 10 | 42 | 100 | 420 | 31,40 | 40,43 | 1,57 | 2,46 |
| 34 | 161 | 256 | 1111 | 0,06 | 13,64 | ||
| 5,67 | 26,83 | 42,67 | 185,17 |
В соответствии с формулой (2) b* =26,83, а согласно формуле (4)