В.А. Столярчук. Анализ результатов расчетов в САЕ-системах (учебное пособие) (1014115), страница 6
Текст из файла (страница 6)
yi = g(xi, b) + ei, i = 1, ..., k,
где величины ei характеризуют ошибки, независимые при различных измерениях и одинаково распределённые с нулевым средним и постоянной дисперсией s2. Случай неконтролируемой переменной х отличается тем, что результаты наблюдений (xi, yi), ..., (xn, yn) представляют собой выборку из некоторой двумерной совокупности. И в том, и в другом случае регрессии регрессионный анализ производится одним и тем же способом, однако интерпретация результатов существенно различается (если обе исследуемые величины случайны, то связь между ними, как уже говорилось, изучается методами корреляционного анализа).
Предварительное представление о форме графика зависимости g(x) от х можно получить по расположению на диаграмме рассеяния (называемой также корреляционным полем, если обе переменные случайные) точек (xi, (xi)), где
(xi) — средние арифметические тех значений у, которые соответствуют фиксированному значению xi. Например, если расположение этих точек близко к прямолинейному, то допустимо использовать в качестве приближения линейную регрессию. Стандартный метод оценки линии регрессии основан на использовании полиномиальной модели
y(x, b) = b0 + b1x + ... + bmxm
(этот выбор отчасти объясняется тем, что всякую непрерывную на некотором отрезке функцию можно приблизить полиномом с любой наперёд заданной степенью точности). Оценка неизвестных коэффициентов регрессии b0, ..., bm и неизвестной дисперсии s2 осуществляется наименьших квадратов методом. Оценки параметров b0, ..., bm, полученные этим методом, называются выборочными коэффициентами регрессии, а уравнение
определяет т. н. эмпирическую линию регрессии. Этот метод в предположении нормальной распределённости результатов наблюдений приводит к оценкам для b0, ..., bm и s2, совпадающим с оценками наибольшего правдоподобия. Оценки, полученные этим методом, оказываются в некотором смысле наилучшими и в случае отклонения от нормальности. Так, если проверяется гипотеза о линейной регрессии, то
,
,
где и
— средние арифметические значений xi и yi, и оценка
будет несмещенной для g(х), а её дисперсия будет меньше, чем дисперсия любой другой линейной оценки. При допущении, что величины yi нормально распределены, наиболее эффективно осуществляется проверка точности построенной эмпирической регрессионной зависимости и проверка гипотез о параметрах регрессионной модели. В этом случае построение доверительных интервалов для истинных коэффициентов регрессии b0, ..., bm и проверка гипотезы об отсутствии регрессионной связи bi = 0, i = 1, ..., m) производится с помощью распределения Стьюдента.
В более общей ситуации результаты наблюдений y1, ..., yn рассматриваются как независимые случайные величины с одинаковыми дисперсиями и математическими ожиданиями
Eyi, = b1 x1i + ... + bkxki, i = 1, ..., n,
где значения xji, j = 1, ..., k предполагаются известными. Эта форма линейной модели регрессии является общей в том смысле, что к ней сводятся модели более высоких порядков по переменным x1, ..., xk. Кроме того, некоторые нелинейные относительно параметров bi; модели подходящим преобразованием также сводятся к указанной линейной форме.
Регрессионный анализ является одним из наиболее распространённых методов обработки результатов наблюдений при изучении зависимостей в физике, биологии, экономике, технике и др. областях. На модели регрессионного анализа основаны такие разделы математической статистики, как дисперсионный анализ и планирование эксперимента; модели регрессионного анализа широко используются в многомерном статистическом анализе .
4. Метод наименьших квадратов.
Метод Наименьших Квадратов, один из методов теории ошибок для оценки неизвестных величин по результатам измерений, содержащим случайные ошибки. Метод наименьших квадратов применяется также для приближённого представления заданной функции другими (более простыми) функциями и часто оказывается полезным при обработке наблюдений. Метод наименьших квадратов предложен К. Гауссом (1794—95) и А. Лежандром (1805—06). Первоначально метод наименьших квадратов использовался для обработки результатов астрономических и геодезических наблюдений. Строгое математическое обоснование и установление границ содержательной применимости метода наименьших квадратов даны А. А. Марковым (старшим) и А. Н. Колмогоровым. Ныне метод наименьших квадратов представляет собой один из важнейших разделов математической статистики и широко используется для статистических выводов в различных областях науки и техники.
Сущность обоснования метода наименьших квадратов (по Гауссу) заключается в допущении, что «убыток» от замены точного (неизвестного) значения физической величины и её приближённым значением X, вычисленным по результатам наблюдений, пропорционален квадрату ошибки: (X - m)2. В этих условиях оптимальной оценкой естественно признать такую лишённую систематической ошибки величину X, для которой среднее значение «убытка» минимально. Именно это требование и составляет основу метода наименьших квадратов. В общем случае отыскание оптимальной в смысле метода наименьших квадратов оценки Х — задача весьма сложная, поэтому практически эту задачу сужают и в качестве Х выбирают линейную функцию от результатов наблюдений, лишённую систематической ошибки, и такую, для которой среднее значение «убытка» минимально в классе всех линейных функций. Если случайные ошибки наблюдений подчиняются нормальному распределению и оцениваемая величина m зависит от средних значений результатов наблюдений линейно (случай, весьма часто встречающийся в приложениях Н. к. м.), то решение этой задачи будет одновременно являться и решением общей задачи. При этом оптимальная оценка Х также подчиняется нормальному распределению со средним значением m и, следовательно, плотность вероятности случайной величины Х
при х = Х достигает максимума в точке m = Х (это свойство и выражает точное содержание распространённого в теории ошибок утверждения «оценка X, вычисленная согласно методу наименьших квадратов — наиболее вероятное значение неизвестного параметра m»).
Случай одного неизвестного.
Пусть для оценки значения неизвестной величины m произведено n независимых наблюдений, давших результаты Y1, Y2,..., Yn, т. е. Y1 = m + d1, Y2 = m + d2,..., Yn = m + dn, где d1, d2,..., dn — случайные ошибки (по определению, принятому в классической теории ошибок, случайные ошибки — независимые случайные величины с нулевым математическим ожиданием: Еdi = 0; если же Edi ¹ 0, то Еdi, называются систематическими ошибками). Согласно методу наименьших квадратов в качестве оценки величины m принимают такое X, для которого будет наименьшей сумма квадратов (отсюда и само название метода):
( 1 )
где pi = k/si2 и si2 = Ddi = Edi2 (коэффициент k > 0 можно выбирать произвольно). Величину pi называют весом, a si — квадратичным отклонением измерения с номером i. В частности, если все измерения равноточны, то s1 = s2 =... = sn, и в этом случае можно положить p1 = p2 =... = pn = 1; если же каждое Yi, — арифметическое среднее из ni, равноточных измерений, то полагают pi = ni.
Сумма S (X) будет наименьшей, если в качестве Х выбрать взвешенное среднее:
Оценка величины m лишена систематической ошибки, имеет вес Р и дисперсию
В частности, если все измерения равноточны, то Y — арифметическое среднее результатов измерений:
При некоторых общих предположениях можно показать, что если количество наблюдений n достаточно велико, то распределение оценки мало отличается от нормального с математическим ожиданием m и дисперсией k/P. В этом случае абсолютная погрешность приближённого равенства
меньше
с вероятностью, близкой к значению интеграла
[напр., I (1,96) = 0,950; I (2,58) = 0,990; I (3,00) = 0,997].
Если веса измерений pi заданы, а множитель k до наблюдений остаётся неопределённым, то этот множитель и дисперсия оценки могут быть приближённо оценены по формулам:
и
(обе оценки лишены систематических ошибок).
В том практически важном случае, когда ошибки di подчиняются нормальному распределению, можно найти точное значение вероятности, с которой абсолютная погрешность приближённого равенства
окажется меньше ts (t — произвольное положительное число). Эту вероятность, как функцию от t, называют функцией распределения Стьюдента с n - 1 степенями свободы и вычисляют по формуле
где постоянная Cn-1 выбрана таким образом, чтобы выполнялось условие: In-1(¥) = 1. При больших n формулу (2) можно заменить формулой (1). Однако применение формулы (1) при небольших n привело бы к грубым ошибкам. Так, например, согласно (1), значению I = 0,99 соответствует t = 2,58; истинные значения t, определяемые при малых n как решения соответствующих уравнений ln-1(t) = 0,99, приведены в таблице:
n | 2 | 3 | 4 | 5 | 10 | 20 | 30 |
t | 63,66 | 9,92 | 5,84 | 4,60 | 3,25 | 2,86 | 2,76 |
Пример. Для определения массы некоторого тела произведено 10 независимых равноточных взвешиваний, давших результаты Yi (в г):
Yi | 18,41 | 18,42 | 18,43 | 18,44 | 18,45 | 18,46 |
ni | 1 | 3 | 3 | 1 | 1 | 1 |
(здесь ni — число случаев, в которых наблюдался вес Yi, причём n = Sni, = 10). Так как все взвешивания равноточные, то следует положить pi = ni и в качестве оценки для неизвестного веса m, выбрать величину
Задавая, например, I9 = 0,95, по таблицам распределения Стьюдента с девятью степенями свободы можно найти, что t = 2,262, и поэтому в качестве предельной абсолютной погрешности приближённого равенства m » 18,431 следует принять величину
Т. о. 18,420 < m < 18,442.