Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 47

Файл №1115311 Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере) 47 страницаЮ.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311) страница 472019-05-092019-05-09СтудИзба

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 47)

Эта за"дача носит название простой регрессии. Исходными данными этойзадачи являются два набора наблюдений x1 , x2 , . . . , xn — значения x иy1 , y2 , . . . , yn — соответствующие значения y. Мы сначала расскажем опоследовательности действий при решении задач простой регрессии.Подбор модели. Первым шагом решения задачи является предпо"ложение о возможном виде функциональной связи между x и y. При"мерами таких предположений могут являться зависимости: y = a + bx,y = a + bx + cx2 , y = ea+bx , y = 1/(a + bx) и т.д., где a, b, c и т.д.

—неизвестные параметры, которые надо определить по исходным данным.Компьютерные программы регрессионного анализа, как правило, содер"жат достаточно обширные списки подобных функций или позволяютзадавать вид зависимости формулой.Для подбора вида зависимости между x и y полезно построитьи изучить график, на котором изображены точки с координатами236(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ).

Иногда примерный вид зависимости бы"вает известен из теоретических соображений или предыдущих иссле"дований аналогичных данных.Оценка параметров модели. После выбора конкретного ви"да функциональной зависимости f (x, θ) можно по исходным даннымx1 , x2 , . . . , xn и y1 , y2 , . . . , yn провести расчет (оценку) θ, то есть вхо"дящих в f неизвестных коэффициентов (параметров). Тем самым мыполностью определили подобранную регрессионную функцию:y = f (x, θ̂),где θ̂ — оценка θ.Анализ адекватности модели. После подбора регрессионной мо"дели желательно выяслить, насколько хорошо выбранная модель опи"сывает имеющиеся данные. К сожалению, единого общего правила дляэтого нет.

На практике первое впечатление о правильности подобранноймодели могут дать изучение некоторых численных характеристик (коэф"фициента детерминации, F "отношения, доверительных интервалов дляоценок). Однако эти показатели скорее позволяют отвергнуть совсемнеудачную модель, чем подтвердить правильность выбора функциональ"ной зависимости. Более обоснованное решение можно принять, срав"нив имеющиеся значения yi со значениями ŷi , полученными с помощьюподобранной регрессионной функции: ŷi = f (xi , θ̂).

Разности междунаблюдаемыми и предсказанными значениями y:ri = yi − ŷi = yi − f (xi , θ̂),i = 1, . . . , nназывают остатками. Например, для линейной зависимости y = a + bxзначения остатков вычисляются в виде: ri = yi − ŷi = yi − (â + b̂xi ), гдеâ и b̂ — оценки коэффициентов a и b.Анализ остатков. Анализ остатков позволяет получить представле"ние, насколько хорошо подобрана сама модель и насколько правильновыбран метод оценки коэффициентов.

Согласно общим предположениямрегрессионного анализа, остатки должны вести себя как независимые(в действительности, почти независимые) одинаково распределенныеслучайные величины. В классических методах регрессионного анализапредполагается также нормальный закон распределения остатков.Исследование остатков полезно начинать с изучения их графика. Онможет показать наличие какой"то зависимости, не учтенной в модели.Скажем, при подборе простой линейной зависимости между x и y графикостатков может показать необходимость перехода к нелинейной модели(квадратичной, полиномиальной, экспоненциальной) или включения вмодель периодических компонент.237Для проверки нормальности распределения остатков чаще всегоиспользуется график на нормальной вероятностной бумаге (пп.

5.2,5.5), а также критерии типа Колмогорова"Смирнова, хи"квадрат и др.,подробно разобранные в гл. 10.Для проверки независимости остатков обычно используются крите"рий серий и критерий Дарбина"Уотсона. Их описание можно найти в[41]. В случае выявления сильной корреляции остатков следует перейтиот регрессионной модели к моделям типа авторегрессии"скользящегосреднего и возможно использовать разностные и сезонные операторыудаления тренда. Эти методики подробно описаны в гл.

12 и 14.Выбросы. График остатков хорошо показывает и резко отклоня"ющиеся от модели наблюдения — выбросы. Подобным наблюдениямнадо уделять особо пристальное внимание, так как их присутствие мо"жет грубо искажать значения оценок (особенно если для их полученияиспользуется метод наименьших квадратов). Устранение эффектов вы"бросов может проводиться либо с помощью удаления этих точек изанализируемых данных (эта процедура называется цензурированием),либо с помощью применения методов оценивания параметров, устойчи"вых к подобным грубым отклонениям. Иллюстрацией эффекта выбросаявляется пример 8.2к, разобранный в пункте 8.7.Множественная регрессия.

В более общем случае задача регрес"сионного анализа предполагает установление линейной зависимостимежду группой независимых переменных x1 , x2 , . . . , xk (здесь индекс kозначает номер переменной, а не номер наблюдения этой переменной)и одномерным откликом y. Эта обширная тема, носящая названиемножественной регрессии, не нашла отражения в данной книге.

Сней можно познакомиться в [36], [41]. Заметим, что для решения этойзадачи существуют мощные компьютерные процедуры, они имеются ив разбираемых нами пакетах.Стратегия анализа адекватности подобранной модели в задаче мно"жественной регрессии в целом аналогична задаче простой регрессии исводится к детальному анализу остатков.Замечания.

1. Имеются процедуры решения задач множественной регрес"сии, реализующие автоматический выбор тех переменных, которые оказываютсущественное влияние на отклик, и отсеивание несущественных переменных.Эти методы носят название шаговой регрессии, они весьма эффективны напрактике.2. Наибольшие трудности в задачах поиска зависимости от несколькихпеременных возникают, когда сами эти переменные сильно взаимозависимы.Это весьма характерная ситуация для многих экономических задач. Показателемподобной зависимости служит матрица корреляций переменных x1 , x2 , .

. . , xk .Самой простой рекомендацией при сильно зависимых переменных является238удаление части из них и проведение повторных расчетов. Затем проводитсясравнение полученных результатов. Другой особенностью подобных задачможет являться эффект, когда каждая из переменных x1 , x2 , . . . , xk действует наотклик не только независимо от других, но и порождает совместное воздействие.Для учета этого в модель, кроме переменных x1 , x2 , . . . , xk можно включатьих совместные произведения, например, переменные x1 · x2 , x1 · x3 , x2 · x3 ит.д. Однако в задачах множественной регрессии лучше стремиться сократитьобщее число переменных, от которых будет искаться зависимость, так как этосущественно упрощает последующий анализ модели.Нелинейная регрессия.

Скажем еще несколько слов о задаченелинейной регрессии. В этом случае параметры модели θ входятв подбираемую регрессионную функцию f (x, θ) нелинейным образом.Поэтому нахождение оценок параметров модели θ̂ в аналитическом видеобычно невозможно, так что эти оценки вычисляются на компьютереметодом итеративного приближения. Используемые здесь вычислитель"ные алгоритмы доволько сложны и не всегда работают успешно. Кро"ме того, огромный произвол в выборе вида самой нелинейной зависи"мости весьма затрудняет осмысленный подбор этой зависимости. Нанаш взгляд, использование методов нелинейной регрессии оправдано,в основном, когда вид регрессионной зависимости заранее известен изтеоретических соображений.8.3. …… Метод наименьших квадратов.

При выборе методов определенияпараметров регрессионной модели можно руководствоваться различны"ми подходами. Один из наиболее естественных и распространенныхсостоит в том, что при «хорошем» выборе оценки θ̂ параметра моде"ли θ величины yi − f (xi , θ) (в случае простой линейной регрессии —величины yi − A − bxi ) должны в совокупности быть близки к нулю.Меру близости совокупности этих величин (они обычно называютсяостатками) к нулю можно выбирать по"разному (например, максимуммодулей, сумму модулей и т.д.), но наиболее простые формулы расчетаполучаются, если в качестве этой меры выбрать сумму квадратов:n[yi − A − bxi ]2 → mini=1Определение. Методом наименьших квадратов называетсяспособ подбора параметров регрессионной модели исходя из минимизации суммы квадратов остатков.Сам по себе метод наименьших квадратов не связан с какими"либопредположениями о распределении случайных ошибок ε1 , .

. . , εn , онможет применяться и тогда, когда мы не считаем эти ошибки случай"ными (например, в задачах сглаживания экспериментальных данных).Однако мы будем рассматривать метод наименьших квадратов в связи сгауссовской моделью. Причины этого следующие:•Проиллюстрируем основные идеи обработки регрессионного экспе"римента (8.3) на примере простой линейной регрессии. Так называютзадачу регрессии, в которой x и y — одномерные величины (поэтомумы будем обозначать их x и y), а функция f (x, θ) имеет вид A + bx, гдеθ = (A, b). В этом случае соотношение (8.3) принимает вид:yi = A + bxi + εii = 1, . . . , n .•(8.4)Здесь x1 , .

. . , xn — заданные числа (значения фактора);y1 , . . . , yn — наблюденные значения отклика; ε1 , . . . , εn — независи"мые (ненаблюдаемые) одинаково распределенные случайные величины.Гауссовская модель. При решении задачи (8.4) (как и во многихдругих случаях) используются два основных подхода: непараметриче"ский и гауссовский, они различаются характером предположений от"носительно закона распределения случайных величин ε. Сначала мырассмотрим гауссовскую модель простой линейной регрессии. В нейдополнительно к вышесказанному предполагается, что величины εi рас"пределены по нормальному закону N (0, σ 2 ) с некоторой неизвестнойдисперсией σ 2 .239A, bименно в гауссовской модели метод наименьших квадратов обла"дает определенными свойствами оптимальности (мы их обсу"ждать не будем);в гауссовской модели получаемые с помощью этого метода оцен"ки неизвестных параметров обладают ясными статистическимисвойствами (которые мы обсудим).Оценки метода наименьших квадратов.

Характеристики

Тип файла

PDF-файл

Размер

3,06 Mb

Материал

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере

Тип материала

Книга

Предмет

Теория вероятностей и математическая статистика (ТВиМС)

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

ju.n.-tjurin-a.a.-makarov-analiz-dannyh-na-kompjutere.rar

Прочти меня!!!.txt

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.