С.Л. Ахназарова, В.В. Кафаров - Методы оптимизации эксперимента в химической технологии (1062947), страница 23
Текст из файла (страница 23)
Ул (! Ч.4) При малом числе экспериментов и сравнительно высокой корреляции распределение коэффициента корреляции существенно отличается от нормального (рис 25, а), Для построения доверительного интервала можно воспользоваться преобразованием Фишера. Распределение г является почти неизменным по форме при меняющихся ге и и и с возрастанием и быстро приближается к нормальному (рис 25, 6) со средним, равным -ду и ау / г" // т м г +2 е а Ю Рис, 2! Плотность раслределения выборочного козффиниента корреляции Тогда с доверительной вероятностью,6 значение неизвестного иг, находится в пределах ир ир е — ~/лейте+ (1Ч. 9) )/' где и — квантиль нормального распределения При доверительной л вероятности/9-0,95, и„-1,96, отсюда 1,96 11,96 г — С гл»~ г+ — 3 После нахождения доверительныхя) рапид для и, 1,96 $ — 3 можно найти доверительные границы для генерального коэффициента корреляции, подставляя гг и гг в формулу (1Ч.5).
2. Коэффициенты частной корреляции. При исследовании зависимости величины у от двух факторов хг и хг наличие корреляции между у и хг и корреляции между х/ и хг будет влиять на корреляцию между у и хь Для того чтобы устранить влияние хг, необходимо измерить корреляцию между у и хц когда хг постоянно Для этой цели в статистике применяют частные коэффициенты корреляции; Частный коэффициент корреляции г:"„, оценивает степень влияния фактора х~ на у при условии, что влиянйе хг на у исключено, В обозначении частного коэффициента корреляции этот исключенный фактор поставлен в индексе после точки.
При изучении зависимости у от трех факторов хг, хг и хя частный коэффициент корреляции между у и х/ при условии, что хг и ха будут постоянными, можно вычислить по формуле При переходе от парных коэффициентов корреляции к частным может существенно измениться не только величина коэффициента корреляции, но и знак, Проиллюстрируем это на примере. Исследовалась скорость коррозии (К) образцов стали, содержащих серу (Я), фосфор (е) и медь (Сц) в растворе лимонной кислоты, На основании выборки из 39 опы гов были получены значения коэффициентов парной корреляции. , =+0.8Ю; г „=+0,663: гкз =+0,205; гг!р = + 0,277; гк сч = — 0.504: .;„, =+0,369.
По формуле (1Ч.12) найдем частные коэффициенты корреляции, исключив влияние одного из факторов; 'кз.ел=+0 850! гкс„.з=- — 0 887! „,„., = — 0,690 Сопоставление величин парных и частных коэффициентов корреляции показывает, что влияние, например, фосфора на скорость коррозии при постоянном содержании меди больше, чем при переменном, а влияние фосфора на скорость коррозии при постоянном содержании серы меньше, чем при переменном; гКР 5 ~ гКР~ гКР Сл' Частные коэффициенты корреляции, вычисленные по формуле (1Ч.!4) в предположении, что устранено влияние двух факторов, приведены ниже: гкз сч Р— — + 0,792; гкр з сч — — — 0,343; гд сч зр = — 0.897.
Коэффициент парной корреляции между скоростью коррозии и содержанием фосфора при меняющихся концентрациях меди и серы положительный (г*„, -+0,277); частный коэффициент корреляции г'" — — 0,343. Таким образом, анализ корреляции дал возможность установить характер и степень влияния количества серы, фосфора и меди, содержащихся в стали, на скорость ее коррозии в растворе лимонной кислоты, В общем случае для расчета коэффициентов частной корреляции можно воспользоваться выборочной корреляционной матрицей; !! !2''' г!ы 2! 22''' г2у [Я= г У! 22''' уу !24 гк з.
р = — 0,034; гк р с» = + 0 585' гк р.з = + 0 193! „, =+0,81З; .; ,, = — 0,З83; гз с„р =- + 0,668; !ы.!а..... ! !. г+!..... 2 где Л, г — минор, получаемый вычеркиванием йй строки и столбца у; Ло (Л„)-миноР„полУчаемый вычеРкиванием 1-й бцй) стРоки и г-го (г-го) столбца. Например, для корреляционной матрицы '1 Г!2 '!З Г!у Г2! Г22 Г22 " . '2ы 'З! 'Зз ГЗЗ " Гву (1Ч.
16) Ы ыз 'ыЗ " ' Гуы г* коэффициент частной корреляции г!уу 23 между х! и у определится сле- дующим образом. ГЬЧ Гзя Г2З гЗ! '22 'ЗЗ 'ы! '22 ыз гч бы. 22 (!Ч.17) '/2 г/ Г22 Гзэ узы ГЗ2 ГЗЗ Гау 'и Г!2 '!З 2! 22 22 'З! г22 'ЗЗ При интерпретации результатов корреляционного анализа нужно иметь в виду, что коэффициент корреляции — чисто статистический показатель, Он не содержит предположения, что изучаемые величины находятся в причинно-следственной связи Поэтому любая трактовка корреляционной зависимости должна основываться на информации физико-химического характера 3. Приближенная регрессия.
Метод иаимеиьших квадратов. Для характеристики формы связи при изучении корреляционной зависимости пользуются уравнением приближенной регрессии Задача ставится таким образом. по данной выборке объема н найти уравнение приближенной регрессии и оценить допускаемую при этом ошибку Эта задача решается методами регрессионного и корреллуионного анализа, Уравнение приближенной регрессии существенно зависит от выбираемого метода приближения, В качестве такого метода обычно выбирают метод наименьших квадратов, Пусть задан некоторый класс функций Ях), накладывающих на выборку одинаковое число связей й Число связей 1 равно числу неопределенных коэффициентов, входящих в аналитическое выражение этой функции, Чаще всего используют мнагочлены различной степени Наилучшее уравнение приближенной регрессии дает та функция из рассматриваемого класса, для которой сумма квадратов имеет наименьшее значение л Ф = !)' (у! — / (х!))* (1Ч.
18) 121 Коэффициент частной корреляции между х, и у определится па формуле Лчы г (1Ч. 15) а! — — аа — — ... —— аС = ... ал — — а. ((Ч. 19) дФ дФ дФ вЂ” =О,— =О, ...,— =О дЬа дЬ, дьл ((Ч. 21) или а 1 Рс = ехр — — [у,— а (хс)[а~ [с 2ла (! Ч.22) ь„) ~ — =о.
д/ (хс) ъл а„ 2 ~ у, — / (х,, Ь,, Ь,, Ь, с=-! После преобразования дЬ„ л ! Ъ1 = К ехР— — [у,. ч (х Ва с=-! 127 126 При нормальном распределении случайных величин метод наименьших квадратов обосновывается в теории вероятностей как частный случай принципа максимума правдоподобия, Предположим что уравнение истинной регрессии выражается формулой и, = ср (х), а экспериментальные точки отклоняются от этой зависимости вследствие случайных ошибок измерения. Допустим„что ошибки измерения подчиняются нормальному закону распределения, Тогда результат 1-го опыта есть случайная величина ус, распределенная по нормальному закону с математическим ожиданием пс,, = ср/х() и средним квадратичным отклонением п„характеризующим ошибку воспроизводимости. Полагая, что все эксперименты равноточны, имеем: Тогда нормальный закон, по которому распределена величина у,, можно записать в виде 1 1 /с (УВ = ехР— — [Ус — а (хсЦа[ В результате опыта — ряда измерений — произошло следующее событие: случаиные величины Ус, 1'а,...,»„приняли совокупность значений у, ь",,...,у„.
В соответствии с принципом максимального правдоподобия (см. гл. 11, с. 30) подберем так математические ожидания Чс/х!), ср(з ),...,ср(х), чтобы вероятность этого события Р была максимальна. Вероятность р, того, что случайная величина У, попадет в интервал у, — е»2, у, + г/2 в первом приближении, равна.
Найдем вероятность того, что система независимых случайных величин Ус, )а,..., Ул примет совокупность значений из интервалов у, -а/2, у+ас2, ! =1,2,...,пс л р= а" 1 1 ехр — — [ус — Ч (х.)[а 2л а 2аа л 1 %( = ал а л (2л) — лС2 ехр [» Ч ( )[а с:.=! где К вЂ” коэффициент, не зависящий от ср(х,). Очевидно, что при заданном па максимум вероятности Р получит- ся в случае, когда стоящая в показателе степени экспоненты сумма минимальна, т.
е. л ,э, [ус — В(хд)а = ппп. .1 По методу наименьших квадратов можно обрабатывать любые экспериментальные данные, однако оптимальность этой процедуры доказывается только для нормального распределения. При этом можно говорить о достаточных статистиках, т. е. таких функциях от результатов наблюдений (оценках для параметров генеральной совокупности), при помощи которых извлекается вся информация об этих параметрах, содержасцаяся в эксперименте. Задача определения коэффициентов уравнения регрессии по методу наименьших квадратов сводится практически к определению минимума функции многих переменных. Если л у =- / (х, Ьа, Ь,, Ьа, ..., Ьл) есть функция дифференцируемая и требуется выбрать Ь,, Ьп Ь, так, чтобы Ф= Э [ус — /(хс, Ь,, Ь„Ь,, ., Ье)['=пнп, (1Ч.
20) с=! необходимым условием минимума Ф(Ье, Ь,, Ье...,ьс) является выполнение равенств л ~~~ 2 [ ус — /(хс, Ьа, Ь„Ьа, ..., Ье) ~ — = О, с=-! д/ (х;) х~я2 [ Ус — /(хс, Ьа, Ь,, Ь, ..., Ьл)~ — '=О, с=! 1 л л Х с-Ь ус —,— '~ /(хс, Ь., Ь„Ь,, ..., Ь,) — =О, (!Ч.2З) д/(хс) ~к~ д/(хй ! ! 1=1 с=! Ьа ~~у~ х! + Ь, )' х = )' х»у!. (1Н. 27) г=! л ,'Ь' у, г=! г=! л л л л у~у! р' хз! — ~~Р х! ~~9~ я!у! л У х>у; >=! >=! г=! г=! г=! (1Ч. 26) 2: -(Х )' л ~в х! г=! г=! л г=! л л л и ~ах>у; — ) ~х! ~)~у! л ~~ х! ! —.— ! л „~х,у! ! —.— ! г=! !.=! ~-(х)' = л ~у х; >=! л ) «х! >=! ;).'("- и =) г= ! (! Ч.
29) л ~~(х! — х)а (1Ч. 30) «~у; — Ъ (Ь,+Ь,х!)= О, л л Х вЂ”.-ь у! — — ((х>, Ь,, Ь„Ь,, ..., Ь») — =О. д~ (х!) 1Ь ч д( (хй г=! !.= ! Система уравнений (1Ч.23) содержит столько же уравнений, сколько неизвестных коэффициентов Ь, Ь,, Ь,,...,Ь» входит в уравнение регрессии, и называется в математической статистике сиснгемой нормальных уравнений. Функция Ф.лО при любых Ь, Ь„Ь,,...,Ь», следовательно, у нее обязательно должен существовать хотя бы один минимум. Поэтому если система нормальных уравнений имеет единственное решение, то оно и является минимумом для функции Ф.
При изучении зависимости от одного переменного параметра полезно для определения вида уравнения регрессии построить эмпирическую линию регрессии. Для этого весь диапазон изменения х на поле корреляции (рис. 26) разбивается на >г равных интервалов 2!х. Все точки, попавшие в данный интервал 2»х>, относят к его середине х! Для этого подсчитывают частные средние у! для каждого интервала л> ~ ул у> (1Ч.24) л> где н, — число точек в интервале сьх,; при этом ь ~~ л> =л; (1Н.