В.А. Столярчук. Анализ результатов расчетов в САЕ-системах (учебное пособие), страница 5
Описание файла
Документ из архива "В.А. Столярчук. Анализ результатов расчетов в САЕ-системах (учебное пособие)", который расположен в категории "". Всё это находится в предмете "cad-cae-системы" из 5 семестр, которые можно найти в файловом архиве МАИ. Не смотря на прямую связь этого архива с МАИ, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "cad-cae-системы" в общих файлах.
Онлайн просмотр документа "В.А. Столярчук. Анализ результатов расчетов в САЕ-системах (учебное пособие)"
Текст 5 страницы из документа "В.А. Столярчук. Анализ результатов расчетов в САЕ-системах (учебное пособие)"
2. Регрессия
Регрессия в теории вероятностей и математической статистике – это зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин.
В отличие от чисто функциональной зависимости у = f(х), когда каждому значению независимой переменной х соответствует одно определённое значение величины у, при регрессионной связи одному и тому же значению х могут соответствовать в зависимости от случая различные значения величины у. Если при каждом значении х = xi наблюдается ni значений величины у, то зависимость средних арифметических от xi , а именно и является регрессией в статистическом понимании этого термина.
Примером такого рода зависимости служит, например, зависимость средних диаметров сосен от их высот.
Изучение регрессии в теории вероятностей основано на том, что случайные величины Х и Y, имеющие совместное распределение вероятностей, связаны вероятностной зависимостью: при каждом фиксированном значении Х = х величина Y является случайной величиной с определённым (зависящим от значения х) условным распределением вероятностей.
Регрессия величины Y по величине Х определяется условным математическим ожиданием Y, вычисленным при условии, что Х = х: Е(Y (х)) = u(х).
Уравнение у = u(х), в котором х играет роль «независимой» переменной, называется уравнением регрессии, а соответствующий график — линией регрессии величины Y по X. Точность, с которой уравнение регрессия Y по Х отражает изменение Y в среднем при изменении х, измеряется условной дисперсией величины Y, вычисленной для каждого значения Х = х:
D(Y (х)) = s2(x).
Если s2(х) = 0 при всех значениях х, то можно с достоверностью утверждать, что Y и Х связаны строгой функциональной зависимостью Y = u(X). Если s2(х) = 0 при всех значениях х и u(х) не зависит от х, то говорят, что регрессия Y по Х отсутствует. Аналогичным образом определяется регрессия Х по Y, но функции у = u(х) и х = u(у), вообще говоря, не являются взаимно обратными.
Линии регрессии обладают следующим замечательным свойством: среди всех действительных функций f (х) минимум математического ожидания Е[Y — f(X)]2 достигается для функции f(x) = u(х), т. е. регрессия Y по Х даёт наилучшее, в указанном смысле, представление величины Y по величине X.
Это свойство используется для прогноза Y по X: если значение Y непосредственно не наблюдается и эксперимент позволяет регистрировать лишь компоненту Х вектора (X, Y), то в качестве прогнозируемого значения Y используют величину u (X).
Наиболее простым является случай, когда регрессия Y по Х линейна:
Е(Y(x)) = b0 + b1x.
Коэффициенты b0 и b1, называются коэффициентами регрессии, определяются равенствами
,
где mХ и mY — математические ожидания Х и Y, и — дисперсии Х и Y, а r — коэффициент корреляции между Х и Y. Уравнение регрессии Y = u(X) при этом выражается формулой
В случае, когда совместное распределение Х и Y нормально, обе линии регрессии у = u(х) и х = u(у) являются прямыми.
Если регрессия Y по Х отлична от линейной, то последнее уравнение есть линейная аппроксимация истинного уравнения регрессии: математическое ожидание Е[Y — b0 — b1X]2 достигает минимума b0 и b1 при b0 = b0 и b1 = b1. Особенно часто встречается случай уравнения регрессии, выражающегося линейной комбинацией тех или иных заданных функций:
у = u(Х) = b0j0(x) + b1j1(x) + ... + bmjm(x).
Наиболее важное значение имеет параболическая (полиномиальная) регрессия, при которой j0(x) = 1 , j1(x) = x, ..., jm(x) = xm.
Понятие регрессии применимо не только к случайным величинам, но и к случайным векторам. В частности, если Y — случайная величина, а Х = (X1, ..., Xk) — случайный вектор, имеющие совместное распределение вероятностей, то регрессия Y по X определяется уравнением
y = u ( x1, ..., xk), где u( x1, ..., xk) = E{YïX = x1, ... , Xk = xk}.
Если u ( x1, ..., xk) = b0 + b1x1 + ... + bkxk, то регрессия называется линейной. Эта форма уравнения регрессии включает в себя многие типы регрессии с одной независимой переменной, в частности полиномиальная регрессия Y по Х порядка k сводится к линейной регрессии Y по X1, ..., Xk, если положить Xk = Xk.
Простым примером регрессии Y по Х является зависимость между Y и X, которая выражается соотношением: Y = u(X) + d, где u(x) = Е(Y (X) = х), а случайные величины Х и d независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи у = u(х) между неслучайными величинами у и х.
На практике обычно коэффициенты регрессии в уравнении у = u(х) неизвестны и их оценивают по экспериментальным данным, проводя так называемый регрессионный анализ.
Первоначально термин «регрессия» был употреблен английским статистиком Ф. Гальтоном (1886) в теории наследственности в следующем специальном смысле:
«возвратом к среднему состоянию» (regression to mediocrity) было названо явление, состоящее в том, что дети тех родителей, рост которых превышает среднее значение на а единиц, имеют в среднем рост, превышающий среднее значение меньше чем на а единиц.
3. Регрессионный анализ.
Регрессионный анализ, раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по статистическим данным. Цель регрессионного анализа состоит в определении общего вида уравнения регрессии, построении оценок неизвестных параметров, входящих в уравнение регрессии, и проверке статистических гипотез о регрессии. При изучении связи между двумя величинами по результатам наблюдений (x1, y1), ..., (xn, yn) в соответствии с теорией регрессии предполагается, что одна из них Y имеет некоторое распределение вероятностей при фиксированном значении х другой, так что
Е(Y ï х) = g(x, b) и D(Y ï х) = s2h2(x),
где b обозначает совокупность неизвестных параметров, определяющих функцию g(х), a h(x) есть известная функция х (в частности, тождественно равная 1). Выбор модели регрессии определяется предположениями о форме зависимости g(х, b) от х и b. Наиболее естественной с точки зрения единого метода оценки неизвестных параметров b является модель регрессии, линейная относительно b:
g(x, b) = b0g0(x) + ... + bkgk(x).
Относительно значений переменной х возможны различные предположения в зависимости от характера наблюдений и целей анализа. Для установления связи между величинами в эксперименте используется модель, основанная на упрощённых, но правдоподобных допущениях: величина х является контролируемой величиной, значения которой заранее задаются при планировании эксперимента, а наблюдаемые значения у представимы в виде
yi = g(xi, b) + ei, i = 1, ..., k,
где величины ei характеризуют ошибки, независимые при различных измерениях и одинаково распределённые с нулевым средним и постоянной дисперсией s2. Случай неконтролируемой переменной х отличается тем, что результаты наблюдений (xi, yi), ..., (xn, yn) представляют собой выборку из некоторой двумерной совокупности. И в том, и в другом случае регрессии регрессионный анализ производится одним и тем же способом, однако интерпретация результатов существенно различается (если обе исследуемые величины случайны, то связь между ними, как уже говорилось, изучается методами корреляционного анализа).
Предварительное представление о форме графика зависимости g(x) от х можно получить по расположению на диаграмме рассеяния (называемой также корреляционным полем, если обе переменные случайные) точек (xi, (xi)), где (xi) — средние арифметические тех значений у, которые соответствуют фиксированному значению xi. Например, если расположение этих точек близко к прямолинейному, то допустимо использовать в качестве приближения линейную регрессию. Стандартный метод оценки линии регрессии основан на использовании полиномиальной модели
y(x, b) = b0 + b1x + ... + bmxm
(этот выбор отчасти объясняется тем, что всякую непрерывную на некотором отрезке функцию можно приблизить полиномом с любой наперёд заданной степенью точности). Оценка неизвестных коэффициентов регрессии b0, ..., bm и неизвестной дисперсии s2 осуществляется наименьших квадратов методом. Оценки параметров b0, ..., bm, полученные этим методом, называются выборочными коэффициентами регрессии, а уравнение
определяет т. н. эмпирическую линию регрессии. Этот метод в предположении нормальной распределённости результатов наблюдений приводит к оценкам для b0, ..., bm и s2, совпадающим с оценками наибольшего правдоподобия. Оценки, полученные этим методом, оказываются в некотором смысле наилучшими и в случае отклонения от нормальности. Так, если проверяется гипотеза о линейной регрессии, то
, ,
где и — средние арифметические значений xi и yi, и оценка будет несмещенной для g(х), а её дисперсия будет меньше, чем дисперсия любой другой линейной оценки. При допущении, что величины yi нормально распределены, наиболее эффективно осуществляется проверка точности построенной эмпирической регрессионной зависимости и проверка гипотез о параметрах регрессионной модели. В этом случае построение доверительных интервалов для истинных коэффициентов регрессии b0, ..., bm и проверка гипотезы об отсутствии регрессионной связи bi = 0, i = 1, ..., m) производится с помощью распределения Стьюдента.
В более общей ситуации результаты наблюдений y1, ..., yn рассматриваются как независимые случайные величины с одинаковыми дисперсиями и математическими ожиданиями
Eyi, = b1 x1i + ... + bkxki, i = 1, ..., n,
где значения xji, j = 1, ..., k предполагаются известными. Эта форма линейной модели регрессии является общей в том смысле, что к ней сводятся модели более высоких порядков по переменным x1, ..., xk. Кроме того, некоторые нелинейные относительно параметров bi; модели подходящим преобразованием также сводятся к указанной линейной форме.