В.А. Столярчук. Анализ результатов расчетов в САЕ-системах (учебное пособие) (1014115), страница 5
Текст из файла (страница 5)
Целью математической обработки чаще всего является представление результатов наблюдений в виде наиболее простой формулы или значения неизвестной с оценкой возможной погрешности ее использования.
Для простоты дальнейшего изложения будем считать, что некоторое явление характеризуется только двумя величинами {Х} и {Y}, связанными между собой некоторой неизвестной функциональной зависимостью. Любую из этих величин с одинаковой степенью можно считать независимой, тогда как другая будет считаться зависимой.
Различают четыре типа зависимостей между переменными:
1)Зависимость между неслучайными переменными, не требующую для своего изучения применения статистических методов;
2) Зависимость случайной переменной y от неслучайных переменных, исследуемую методами регрессионного анализа;
3) Зависимость между случайными переменными y и x, изучаемую методами корреляционного анализа;
4) Зависимость между неслучайными переменными, когда все они содержат ошибки измерения, требующую для своего изучения применения конфлюэнтного анализа.
Вычислительный эксперимент проводится обычно при заданных исходных данных, которые в дальнейшем можно рассматривать в некотором приближении как неслучайные величины. Результаты же сложного расчета, выполненного с помощью, например, метода конечных элементов, в сильнейшей степени зависят от множества факторов, в частности, от ошибок дескретизации и ошибок округления. Поэтому такие результаты можно рассматривать как уже некие случайные величины.
Таким образом, при обработке результатов численного эксперимента приходится чаще всего обращаться к методам регрессионного анализа.
Основу большинства методов регрессионного анализа и прогноза составляют методы интерполирования и среднеквадратичной аппроксимации, изучаемыми в базовых курсах математической подготовки.
5.2 Регрессионный анализ.
5.2.1 Теория.
1. Дисперсия.
Дисперсия (от лат. dispersio — рассеяние), в математической статистике и теории вероятностей, наиболее употребительная мера рассеивания, т. е. отклонения от среднего.
В статистическом понимании дисперсия
есть среднее арифметическое из квадратов отклонений величин xi от их среднего арифметического
В теории вероятностей дисперсией случайной величины Х называется математическое ожидание Е(Х — mх)2 квадрата отклонения Х от её математического ожидания mх = Е (Х).
Т.е. Е(Х — Е (Х))2.
Дисперсия случайной величины Х обозначается через или через
, т.е
= Е(Х — Е (Х))2.
Квадратный корень из дисперсии (т. е. , если
) называется средним квадратичным отклонением.
Для случайной величины Х с непрерывным распределением вероятностей, характеризуемым плотностью вероятности р (х), дисперсия вычисляется по формуле:
, где
В теории вероятностей большое значение имеет теорема: дисперсия суммы независимых слагаемых равна сумме их дисперсий. Не менее существенно неравенство Чебышева, позволяющее оценивать вероятность больших отклонений случайной величины Х от её математического ожидания.
2. Регрессия
Регрессия в теории вероятностей и математической статистике – это зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин.
В отличие от чисто функциональной зависимости у = f(х), когда каждому значению независимой переменной х соответствует одно определённое значение величины у, при регрессионной связи одному и тому же значению х могут соответствовать в зависимости от случая различные значения величины у. Если при каждом значении х = xi наблюдается ni значений величины у, то зависимость средних арифметических от xi , а именно
и является регрессией в статистическом понимании этого термина.
Примером такого рода зависимости служит, например, зависимость средних диаметров сосен от их высот.
Изучение регрессии в теории вероятностей основано на том, что случайные величины Х и Y, имеющие совместное распределение вероятностей, связаны вероятностной зависимостью: при каждом фиксированном значении Х = х величина Y является случайной величиной с определённым (зависящим от значения х) условным распределением вероятностей.
Регрессия величины Y по величине Х определяется условным математическим ожиданием Y, вычисленным при условии, что Х = х: Е(Y (х)) = u(х).
Уравнение у = u(х), в котором х играет роль «независимой» переменной, называется уравнением регрессии, а соответствующий график — линией регрессии величины Y по X. Точность, с которой уравнение регрессия Y по Х отражает изменение Y в среднем при изменении х, измеряется условной дисперсией величины Y, вычисленной для каждого значения Х = х:
D(Y (х)) = s2(x).
Если s2(х) = 0 при всех значениях х, то можно с достоверностью утверждать, что Y и Х связаны строгой функциональной зависимостью Y = u(X). Если s2(х) = 0 при всех значениях х и u(х) не зависит от х, то говорят, что регрессия Y по Х отсутствует. Аналогичным образом определяется регрессия Х по Y, но функции у = u(х) и х = u(у), вообще говоря, не являются взаимно обратными.
Линии регрессии обладают следующим замечательным свойством: среди всех действительных функций f (х) минимум математического ожидания Е[Y — f(X)]2 достигается для функции f(x) = u(х), т. е. регрессия Y по Х даёт наилучшее, в указанном смысле, представление величины Y по величине X.
Это свойство используется для прогноза Y по X: если значение Y непосредственно не наблюдается и эксперимент позволяет регистрировать лишь компоненту Х вектора (X, Y), то в качестве прогнозируемого значения Y используют величину u (X).
Наиболее простым является случай, когда регрессия Y по Х линейна:
Е(Y(x)) = b0 + b1x.
Коэффициенты b0 и b1, называются коэффициентами регрессии, определяются равенствами
,
где mХ и mY — математические ожидания Х и Y, и
— дисперсии Х и Y, а r — коэффициент корреляции между Х и Y. Уравнение регрессии Y = u(X) при этом выражается формулой
В случае, когда совместное распределение Х и Y нормально, обе линии регрессии у = u(х) и х = u(у) являются прямыми.
Если регрессия Y по Х отлична от линейной, то последнее уравнение есть линейная аппроксимация истинного уравнения регрессии: математическое ожидание Е[Y — b0 — b1X]2 достигает минимума b0 и b1 при b0 = b0 и b1 = b1. Особенно часто встречается случай уравнения регрессии, выражающегося линейной комбинацией тех или иных заданных функций:
у = u(Х) = b0j0(x) + b1j1(x) + ... + bmjm(x).
Наиболее важное значение имеет параболическая (полиномиальная) регрессия, при которой j0(x) = 1 , j1(x) = x, ..., jm(x) = xm.
Понятие регрессии применимо не только к случайным величинам, но и к случайным векторам. В частности, если Y — случайная величина, а Х = (X1, ..., Xk) — случайный вектор, имеющие совместное распределение вероятностей, то регрессия Y по X определяется уравнением
y = u ( x1, ..., xk), где u( x1, ..., xk) = E{YïX = x1, ... , Xk = xk}.
Если u ( x1, ..., xk) = b0 + b1x1 + ... + bkxk, то регрессия называется линейной. Эта форма уравнения регрессии включает в себя многие типы регрессии с одной независимой переменной, в частности полиномиальная регрессия Y по Х порядка k сводится к линейной регрессии Y по X1, ..., Xk, если положить Xk = Xk.
Простым примером регрессии Y по Х является зависимость между Y и X, которая выражается соотношением: Y = u(X) + d, где u(x) = Е(Y (X) = х), а случайные величины Х и d независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи у = u(х) между неслучайными величинами у и х.
На практике обычно коэффициенты регрессии в уравнении у = u(х) неизвестны и их оценивают по экспериментальным данным, проводя так называемый регрессионный анализ.
Первоначально термин «регрессия» был употреблен английским статистиком Ф. Гальтоном (1886) в теории наследственности в следующем специальном смысле:
«возвратом к среднему состоянию» (regression to mediocrity) было названо явление, состоящее в том, что дети тех родителей, рост которых превышает среднее значение на а единиц, имеют в среднем рост, превышающий среднее значение меньше чем на а единиц.
3. Регрессионный анализ.
Регрессионный анализ, раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по статистическим данным. Цель регрессионного анализа состоит в определении общего вида уравнения регрессии, построении оценок неизвестных параметров, входящих в уравнение регрессии, и проверке статистических гипотез о регрессии. При изучении связи между двумя величинами по результатам наблюдений (x1, y1), ..., (xn, yn) в соответствии с теорией регрессии предполагается, что одна из них Y имеет некоторое распределение вероятностей при фиксированном значении х другой, так что
Е(Y ï х) = g(x, b) и D(Y ï х) = s2h2(x),
где b обозначает совокупность неизвестных параметров, определяющих функцию g(х), a h(x) есть известная функция х (в частности, тождественно равная 1). Выбор модели регрессии определяется предположениями о форме зависимости g(х, b) от х и b. Наиболее естественной с точки зрения единого метода оценки неизвестных параметров b является модель регрессии, линейная относительно b:
g(x, b) = b0g0(x) + ... + bkgk(x).
Относительно значений переменной х возможны различные предположения в зависимости от характера наблюдений и целей анализа. Для установления связи между величинами в эксперименте используется модель, основанная на упрощённых, но правдоподобных допущениях: величина х является контролируемой величиной, значения которой заранее задаются при планировании эксперимента, а наблюдаемые значения у представимы в виде