LEC-18 (Материалы к лекциям), страница 3
Описание файла
Файл "LEC-18" внутри архива находится в следующих папках: Материалы к лекциям, Lecturessemestr7. Документ из архива "Материалы к лекциям", который расположен в категории "". Всё это находится в предмете "методы решения задач механики сплошных сред" из 7 семестр, которые можно найти в файловом архиве МАИ. Не смотря на прямую связь этого архива с МАИ, его также можно найти и в других разделах. Архив можно найти в разделе "лекции и семинары", в предмете "методы решения задач механики сплошных сред" в общих файлах.
Онлайн просмотр документа "LEC-18"
Текст 3 страницы из документа "LEC-18"
При другом подходе данные аппроксимируют простой функцией, применимой во всем диапазоне табличных данных, но не обязательно проходящей через все точки. Такой подход называется подгонкой кривой, которую стремятся провести так, чтобы её отклонения от табличных данных были минимальными.
Обычно стремятся свести к минимуму сумму квадратов разностей между значениями функции, определяемыми выбранной кривой и таблицей. Такой метод подгонки называется методом наименьших квадратов.
Метод наименьших квадратов.
Пусть в таблице задана n+1 точка и требуется найти аппроксимирующую кривую в диапазоне . В этом случае погрешность в каждой табличной точке будет равна .
Тогда сумма погрешностей определяется выражением .
Обычно функцию выбирают в виде линейной комбинации подходящих функций .
Условие минимума Е определяется уравнениями
Поскольку , то это условие эквивалентно системе уравнений
Эти k уравнений, очевидно, можно представить в виде
Так как элементы матрицы в левой части и вектора-столбца правой определяются табличными данными, то выписанная система k линейных уравнений с k неизвестными может бы решена.
Можно выбрать любую функцию g(x), лишь бы она линейной относительно своих коэффициентов.
Фактический выбор функции должен осуществляться с учетом специфики табличных данных, под которой понимается их периодичность, экспоненциальный или логарифмический характер, свойства симметрии и наличие асимптотики.
Иногда таблицу разбивают на несколько частей и подбирают отдельную аппроксимирующую кривую для каждой части, однако это надо делать осмотрительно. Такой подход оправдан в тех случаях, когда есть основания полагать, что аппроксимируемые данные соответствуют разным физическим состояниям системы. Примерами могут служить переходы конструкции от устойчивого состояния к неустойчивому, переходы от дозвукового течения к сверхзвуковому или от ламинарного к турбулентному. Пользуясь приближенной формулой, не следует выходить за пределы интервала, в котором она справедлива.
Ортогональные полиномы
Если при построении аппроксимирующей функции gi(x) используются ортогональные полиномы, для которых
при , то матрица выписанной в предыдущем разделе системы уравнений будет диагональной, а выражения для коэффициентов упростятся: . Это очень облегчает задачу, и именно поэтому во многих стандартных программах подгонки кривых используются с ортогональные полиномы.
Сплайны
Сплайны сравнительно недавно стали использовать в вычислительной математике. Однако в машиностроительном черчении они фактически применяются уже давно, так как сплайн не что иное, как гибкая линейка, которую деформируют так, чтобы по ней можно было провести кривую через заданные точки (xi, yi). Будучи деформирована таким образом, линейка приобретает форму, при которой запасенная в ней упругая энергия
минимальна.
Используя теорию изгиба бруса при малых деформациях, можно строго показать, что сплайн — это группа сопряженных кубических многочленов, в местах сопряжения которых первая и вторая производные непрерывны.
Такие функции называют кубическими сплайнами. Чтобы построить кубический сплайн, необходимо задать коэффициенты, которые единственным образом определяют кубический многочлен в промежутке между данными точками.
Например, в случае, представленном на рисунке, необходимо задать все кубические функции q1(x), q2(x),…… qm(x). В наиболее общем случае эти многочлены имеют вид
, где , а kji — постоянные, определяемые указанными выше условиями.
Первые 2т условий требуют, чтобы сплайны соприкасались в заданных точках. Эти условия имеют вид
Следующие 2m—2 условий требуют, чтобы в местах соприкосновения сплайнов были равны первые и вторые производные.
Чтобы система алгебраических уравнений имела решение, необходимо, чтобы число уравнений точно равнялось числу неизвестных. На данном этапе мы имеем 4m от неизвестных и 4m-2 уравнений. Следовательно, мы должны найти еще два уравнения.
Обычно используют уравнения и .
Полученный таким способом сплайн называют «естественным кубическим сплайном». Найдя коэффициенты сплайна, можно использовать эту кусочно-гладкую полиномиальную функцию для представления данных при интерполяции, подгонке кривой или поверхности.
На первый взгляд может показаться, что определение коэффициентов сводится к решению 4m уравнений с 4m неизвестными. Однако, специально выбрав вид кубических многочленов можно значительно упростить задачу.
Если отдельные кубические уравнения имеют вид
где a и , то каждое из уравнений qi(x) содержит только два постоянных неизвестных коэффициента.
После того как первое уравнен qi(x) записано, с каждым следующим уравнением добавляется только один новый неизвестный коэффициент. При этом при а при .
Следовательно, при таком выборе кубических многочленов автоматически удовлетворяются все условия, кроме условий, налагаемых на вторые производные. Последние выражаются для внутренних точек
соотношениями , а для двух внешних – соотношениями и .
Таким образом, решаемая система уравнений является линейной, а ее матрица - трехдиагональной:
В этой системе уравнений число определяемых коэффициентов равно числу заданных точек. Поэтому решение оказывается не более сложным, чем в случае аппроксимации m+1 точек многочленом m-й степени. Часто оказывается, что кубический сплайн, аппроксимирует функцию лучше, чем многочлен степени т. Следует отметить, что существуют и другие сплайны, получающиеся при других условиях на концах или использовании многочленов более высоких степеней.
7.2 Регрессионный анализ.
7.2.1 Теория.
1. Дисперсия.
Дисперсия (от лат. dispersio — рассеяние), в математической статистике и теории вероятностей, наиболее употребительная мера рассеивания, т. е. отклонения от среднего.
В статистическом понимании дисперсия
есть среднее арифметическое из квадратов отклонений величин xi от их среднего арифметического
В теории вероятностей дисперсией случайной величины Х называется математическое ожидание Е(Х — mх)2 квадрата отклонения Х от её математического ожидания mх = Е (Х).
Т.е. Е(Х — Е (Х))2.
Дисперсия случайной величины Х обозначается через или через , т.е
Квадратный корень из дисперсии (т. е. , если ) называется средним квадратичным отклонением.
Для случайной величины Х с непрерывным распределением вероятностей, характеризуемым плотностью вероятности р (х), дисперсия вычисляется по формуле:
В теории вероятностей большое значение имеет теорема: дисперсия суммы независимых слагаемых равна сумме их дисперсий. Не менее существенно неравенство Чебышева, позволяющее оценивать вероятность больших отклонений случайной величины Х от её математического ожидания.
2. Регрессия
Регрессия в теории вероятностей и математической статистике – это зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин.
В отличие от чисто функциональной зависимости у = f(х), когда каждому значению независимой переменной х соответствует одно определённое значение величины у, при регрессионной связи одному и тому же значению х могут соответствовать в зависимости от случая различные значения величины у. Если при каждом значении х = xi наблюдается ni значений величины у, то зависимость средних арифметических от xi , а именно и является регрессией в статистическом понимании этого термина.
Примером такого рода зависимости служит, например, зависимость средних диаметров сосен от их высот.
Изучение регрессии в теории вероятностей основано на том, что случайные величины Х и Y, имеющие совместное распределение вероятностей, связаны вероятностной зависимостью: при каждом фиксированном значении Х = х величина Y является случайной величиной с определённым (зависящим от значения х) условным распределением вероятностей.
Регрессия величины Y по величине Х определяется условным математическим ожиданием Y, вычисленным при условии, что Х = х: Е(Y (х)) = u(х).
Уравнение у = u(х), в котором х играет роль «независимой» переменной, называется уравнением регрессии, а соответствующий график — линией регрессии величины Y по X. Точность, с которой уравнение регрессия Y по Х отражает изменение Y в среднем при изменении х, измеряется условной дисперсией величины Y, вычисленной для каждого значения Х = х:
D(Y (х)) = s2(x).
Если s2(х) = 0 при всех значениях х, то можно с достоверностью утверждать, что Y и Х связаны строгой функциональной зависимостью Y = u(X). Если s2(х) = 0 при всех значениях х и u(х) не зависит от х, то говорят, что регрессия Y по Х отсутствует. Аналогичным образом определяется регрессия Х по Y, но функции у = u(х) и х = u(у), вообще говоря, не являются взаимно обратными.
Линии регрессии обладают следующим замечательным свойством: среди всех действительных функций f (х) минимум математического ожидания Е[Y — f(X)]2 достигается для функции f(x) = u(х), т. е. регрессия Y по Х даёт наилучшее, в указанном смысле, представление величины Y по величине X.
Это свойство используется для прогноза Y по X: если значение Y непосредственно не наблюдается и эксперимент позволяет регистрировать лишь компоненту Х вектора (X, Y), то в качестве прогнозируемого значения Y используют величину u (X).
Наиболее простым является случай, когда регрессия Y по Х линейна: