49048 (Создание макроса на языке Statistica Visual Basic для проверки гипотезы о нормальности остатков регрессии), страница 4
Описание файла
Документ из архива "Создание макроса на языке Statistica Visual Basic для проверки гипотезы о нормальности остатков регрессии", который расположен в категории "". Всё это находится в предмете "информатика" из 1 семестр, которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "курсовые/домашние работы", в предмете "информатика, программирование" в общих файлах.
Онлайн просмотр документа "49048"
Текст 4 страницы из документа "49048"
Рис. 1. Стартовая панель модуля Multiple Regression
Рис. 2. Окно результатов регрессионного анализа
Окно результатов анализа (Multiple Regression Results) (рис. 2) имеет следующую структуру: верх окна - информационный. Он состоит из двух частей: в первой части содержится основная информация о результатах оценивания, во второй высвечиваются значимые регрессионные коэффициенты (significant beta's are highlighted). Внизу окна расположены три вкладки: Quick-быстрый, Advanced-продвинутый и Residuals/assumptions/ prediction, на которых находятся функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа.[боровиков 136] Критерий для определения уровня статистической значимости может быть изменен в поле Alpha (значение по умолчанию 0,05) .[Салманов, с. 254]
Рассмотрим информационную часть окна. В ней содержатся краткие сведения о результатах анализа, а именно:
-
Dependent - имя зависимой переменной
-
No. of сases - число случаев, по которым построена регрессия
-
Multiple R - коэффициент множественной корреляции
• R2 - коэффициент детерминации (квадрат коэффициента множественной корреляции)
• adjusted R2 - скорректированный коэффициент детерминации
-
Standard error of estimate - стандартная ошибка оценки
-
Intercept - оценка свободного члена регрессии, значение коэффициента В0 в уравнении регрессии.
-
Std. Error - стандартная ошибка оценки свободного члена,
стандартная ошибка коэффициента В0 в уравнении регрессии.
-
t(df) and p-value - значение t-критерия и уровень р. t-критерий используется для проверки гипотезы о равенстве 0 свободного члена регрессии.
-
F - значения F-критерия.
-
df - число степеней свободы F-критерия.
-
р - уровень значимости. [боровиков 136-138]
Нажмите на Summary: Regression results на вкладке Quick tab, чтобы отобразить электронную таблицу с бета-коэффициентами (рис. 3).
Рис. 3. Таблица коэффициентов уравнения регрессии и оценок их достоверности
Эта электронная таблица показывает стандартизированные бета-коэффициенты регрессии (Beta) и необработанные коэффициенты регрессии (В). Величина этих коэффициентов позволяет сравнивать относительный вклад каждой независимой переменной в предсказании зависимой переменной. Приводится также t-статистика и соответствующее значение вероятности (р) для проверки гипотезы о достоверности этих коэффициентов. [Салманов, с. 254-255]
После того как доказана адекватность модели, полученные результаты можно уверенно использовать для дальнейших действий. Анализ адекватности основывается на анализе остатков. [боровиков 139] Для анализа остатков на вкладке Multiple Regression Results - Residuals/assumptions/prediction tab нажмите кнопку диалога Residual Analysis (рис. 4). [Салманов, с. 256] Здесь имеется возможность рассчитать статистику Дарбина-Уотсона, удаленные остатки, доверительные интервалы для предсказанных значений и многие другие статистики. Широкие возможности анализа остатков и выбросов включают многочисленные типы графиков, диаграмм рассеяния, гистограмм, графики на нормальной и полунормальной вероятностной бумаге и др.[exponenta.ru]
Рис. 4. Окно анализа остатков
Однако можно также применять все аналитические средства STATISTICA, чтобы далее исследовать остатки, создав автономную входную электронную таблицу остатков. [Салманов, с. 261]
3. СОЗДАНИЕ МАКРОСА ДЛЯ ПРОВЕРКИ ГИПОТЕЗЫ О НОРМАЛЬНОСТИ ОСТАТКОВ
3.1 Описание макроса
При построении модели множественной линейной регрессии особое внимание необходимо уделять проверке гипотезы о нормальном распределении остатков. Это связано с тем, что в условиях нормального распределения остатков оценки параметров модели, построенные методом наименьших квадратов, являются оптимальными. Если распределение отличается от нормального, то свойство оптимальности может быть утрачено. Например, в данных могут быть резко выделяющиеся наблюдения (выбросы), а метод наименьших квадратов чувствителен к выбросам.
В данной курсовой работе осуществлялось эконометрическое моделирование вторичного рынка жилья в г. Минске с использованием статистического пакета Statistica 6.0., обладающего широкими возможностями для построения регрессионных моделей. Пакет Statistica 6.0. содержит встроенный язык программирования VBA, позволяющий создавать дополнительные модули для статистического анализа.
В ходе выполнения множественного регрессионного анализа в модуле Multiple Regression исследование остатков на нормальность можно осуществить лишь графическими методами с использованием нормальных графиков вероятности, доступных из диалога Residual Analysis. Однако на основании графической информации можно сделать лишь предположение о виде распределения остатков. Для проверки остатков на соответствие их нормальному распределению необходимо создать автономную входную электронную таблицу остатков, а затем вызвать модуль Distribution Fitting (Подбор распределения). Нажав кнопку Graph, мы получим результаты применения критерия хи-квадрат, а также гистограмму с проведенной на ней предполагаемой нормальной кривой, на основании которых можно сделать вывод о виде распределения остатков.
Таким образом, при осуществлении множественного регрессионного анализа в пакете Statistica 6.0. необходимо использовать 2 отдельных модуля (Multiple Regression и Distribution Fitting), создавая при этом дополнительную входную электронную таблицу остатков, что требует значительных затрат времени.
Для решения всех вышеперечисленных проблем на языке VBA было написано 2 модуля. Первый модуль (CREATE_MACROS) создает пользовательскую панель инструментов (Приложение Б), а второй (regres-normal) - автоматизирует процесс проверки гипотезы о нормальности остатков регрессии (Приложение А).
После запуска программы CREATE_MACROS, новая панель инструментов CUSTOM будет добавлена к существующей инсталляционной версии STATISTICA. Созданная панель инструментов состоит из 1 главного элемента - кнопки «Нормальность остатков». Чтобы удалить новый элемент панели инструментов, выберите Настройка (Customize) из меню Сервис (Tools) для отображения диалога Настройка (Customize). На вкладке Панели инструментов (Toolbars tab), подсветите новый элемент и Удалите (Delete) его (рис. 1.1).
Рис. 1.1. Удаление пользовательской панели инструментов
Для запуска модуля regres-normal необходимо нажать кнопку “Нормальность остатков” на панели инструментов (рис. 1), после чего появится диалог Multiple Regression.Residual Analysis (рис. 2). Критерий для определения уровня статистической значимости может быть изменен в поле Alpha (значение по умолчанию 0,05). При нажатии кнопки Variables отобразится диалог Select dependent and independent variable lists (рис. 3) для выбора зависимой и списка независимых переменных. После нажатия кнопки OK на экране появятся результаты выполнения программы (рис.4).
Рис. 1. Кнопка “Нормальностьостатков” для запуска модуля
Рис. 2. Стартовая панель модуля
Рис. 3. Окно выбора переменных для анализа
Рис.4. Результаты выполнения программы
Программа вычисляет следующий набор статистик:
-
Таблицы результатов оценивания регрессионной модели. Они содержат значения коэффициентов модели (В), бета-коэффициенты (Beta), их стандартные ошибки, значения критерия Стьюдента для проверки гипотезы о достоверности этих коэффициентов ( и ), коэффициенты корреляции R и детерминации R2, значение критерия Фишера (F, p) для проверки гипотезы о достоверности R и другое.
-
Таблицу результатов анализа остатков, содержащую наблюдаемые (Observed Value) и предсказанные по модели (Predicted Value) значения зависимой переменной, остатки (Residual) и другое.
-
Статистику Дарбина-Уотсона.
-
Графики: гистограмму остатков, диаграмму рассеяния, график на нормальной вероятностной бумаге.
-
Таблицу эмпирических и теоретических частот.
Оба модуля написаны на языке STATISTICA VISUAL BASIC. Рассмотрим схему работы программы regres-normal (рис. 5).
Рис. 5. Схема работы программы regres-normal
Весь блок программного кода в совокупности представляет собой модуль. Модуль regres-normal состоит из ряда операторов, организованных в шесть разделов: это раздел объявлений, начинающийся оператором Option Base 1, процедура Main, функция InputDialog, функция UI, процедуры MultipleRegression и NormalDistribution.
Переменные, содержащиеся в разделе объявлений, представляют собой глобальные переменные (Приложение В, табл. 1). Выполнение программы начинается с процедуры MAIN (рис. 5). Данная процедура вызывает функцию InputDialog, которую в свою очередь обслуживает функция UI. Функция InputDialog отображает пользовательский диалог "Multiple Regression. Residual Analysis", переменные Alpha и AlphaValue инициализируются значениями, содержащимися в соответствующих элементах управления типа TextBox. Функция UI отображает диалог выбора переменных для анализа ("Select dependent and independent variable lists:"). Здесь происходит инициализация списков зависимых и независимых переменных (VarList1(),VarList2()), а также переменных типа Long, хранящих количество элементов в этих списках (InList1, InList2). В случае отсутствия ошибок при вызове пользовательских диалогов далее в процедуре Main происходит последовательный вызов процедур MultipleRegression и NormalDistribution.
В процедуре MultipleRegression осуществляется регрессионный анализ с использованием данных из текущей таблицы (S1), а также происходит инициализация вновь созданной таблицы остатков (NewSpreadsheet). В процедуре NormalDistribution осуществляется проверка остатков из таблицы NewSpreadsheet на нормальное распределение.
3.2 Проверка гипотезы о нормальности остатков в модели вторичного рынка жилья в г. Минске
В модели исследуется зависимость стоимости вторичного жилья в г.Минске (Cena) от следующих факторов: общей площади квартиры (PlOb), возраста дома (Vozrast). Для работы использованы данные о 154 квартирах г. Минска за 2006 год. В модель также включена бинарная, «фиктивная» переменная Type, которая принимает значение 1, если квартира находится в кирпичном доме и значение 0 для всех остальных случаев.
Построенная модель стоимости квартир в г. Минске имеет вид:
Все коэффициенты регрессии статистически значимы, что показывает t-статистика и соответствующие значения вероятности (p), которые ниже уровня статистической значимости 0,05.
Для построенной модели (1) коэффициент корреляции (значение близко к 1, что указывает на тесную свяь между зависимой переменной и факторами). Значение критерия Фишера для проверки гипотезы о достоверности коэффициента корреляции: ; (R достоверно отличен от 0, изучаемый признак имеет связь хотя бы с одним из регрессоров). Коэффициент детерминации , т.е. 90% дисперсии результативного признака обусловлено влиянием регрессии, а 10% - другими факторами. Анализ остатков произведён при помощи статистики Дарбина-Уотсона , коэффициент автокорреляции остатков . Значит, автокорреляция в остатках отсутствует.