К. Дёрффель - Статистика в аналитической химии (1994) (1037704), страница 10
Текст из файла (страница 10)
Характеристика их разброса относительно среднего служит вторым показателем структуры цифровых данных В качестве меры рассеяния в аналитической химии почти всегда ис-, пользуют стандартное отклонение или размах, а иногда и интерквартильный размах. Та или иная из этих мер разброса выбирается в зависимости от цели. Стандартное отклонение. Выборочное стандартное отклонение определяют по формуле: Е(х, — х)2 (2.5) где х, — отдельное значение, х — среднее всех х„п — общее число измерений.
Оно служит наиболее распространенной в аналитической химии мерой разброса и характеризует случайную ошибку метода анализа (но не отдельного результата, см. гл, б). Стандартное отклонение г — это самое лучшее приближение для соответствующей величины и в генеральной совокупности. Его принято приводить по модулю (т.е.
без указания знака). А его квадрат х' называют выборочной двсперсиейг), 1) ч втор не всегда последовательно различает выборочные спевки и параметры генерахь- КОИ Сеаохупносхи. Мы будем проводить такое разгравачекке здесь и далее без спчвиальиых ОГОВОрок — Прем рчд 37 2.2.
Статистические показателя Сумма квадратов в числителе выражения (2.6) подсчитывается обычно ие по этой формуле из определения. После преобразования получаем ~ (х — х)г = ~~ (хг — 2х,к+хг) = ~~ хг — 2х~ х+нх Из (2.1) следует, что х = 2 х,/и, отсюда подстановкой получаем выражения -)г С г (Е хз)' (2.6а) (2.66) Выражение (2.6а) дает лишь малую ошибку округления. Поэтому оно особенно подходит для вычислений. При работе с малыми вычислительными машинами определенные преимущества имеет выражение (2.6б).
Для подсчета сумм квадратов имеет смысл всегда применять одни и те же формулы. В дальнейшем мы будем работать постоянно с выражением (2.6а). При вычислениях результаты измерений обычно преобразуют таким образом, чтобы отбросить лишние цифры и избавиться от запятых.
Благодаря этому расчет облегчается, уменьшается возможность ошибки ввода данных в ЭВМ и сокращается время ввода. Затем, конечно, надо вернуться к исходным значениям. При счете по формулам (2,6) важно помнить о разрядности, которую может обеспечить компьютер. Величина и — 1, стоящая в знаменателе равенства (2.5), называется числом сшененей свободы (ст. св.).
Эту величину можно интерпретировать как число новых проверочных измерений, которые должны были бы подтвердить именно тот результат, что уже получен из данных. Число степеней свободы в дальнейшем обозначается буквой /. (2.6] Для десяти определений марганца в усредненной пробе кадо найти стандартное отклонение. Получены следующие значения (в %, Мп): 0,69 0,70 0,67 0,66 0,67 0,68 0,67 0,69 0,68 0,68 Преобразуем результаты по формуле Х = 100х — 68, что позволяет избавиться от запятой. Вычитанием значения 68, которое близко к среднему арифметическому, делают результаты малыми числами; кроме того, последнее слагаемое в (2.6а) становится весьма малым.
Получаются следующие преобразованные значения: +1 +2 — 1 — 2 -1 2 Х,= — 1 0 — 1 +1 0 0 =10 Из уравнения (2.6а) находим сумму квадратов'. 2 ~~х,-х)' = 1'+г'+1'+...— ( ) =18 10 Я ю 1/13/9 — 1,2 Затем делаем обратное преобразование, причем не учитываем вычитаемое, поскольку оно не влияет, и получаем стандартное отклонение з = 0,01% Мп при / = 9 степенях свободы. Глава 2. Эмпирпчеспме рвспредепепмм чвсхох 38 «/мхе и 03 0 0,20 0,40 0,00 вм/и— Рнс. 2Л. Рвзлкчпе между средним арифметическим (х) и средним геомехрпческнм в зависимости от относптельаого стандартного отклонеппп. При наличии логарифмического распределения (см. пример [2.3]) подсчитываегся стандартное отклонение в~ для логарифмов.
Получаем ~в(18х 1 — )г 1 / г в- . 1 -(. 1)~-~'йх — „/ (2.7) (2.7] По результатам одного полуколкчесхвенкого метода анализа нашли вк к0,301. В соответствии с уравнением (2.6) получается +в~в — — 182 и -ш = 180,5. Относительное стандартное отклонение, следовательно, равно +100... — 50хв. Это соответствует коэффициенту ошибки, равному 2. Величина случайной ошибки определяет различие между геометрическим и арифметическим средними (см. с. 35).
При малой случайной ошибке (в /х < О, 10) зтим различием можно пренебречь. Однако применение среднего арифметического вместо геометрического при большой случайной ошибке может привести к значительным отклонениям (рис. 2.5). Выборочный размах. Разность между наибольшим и наименьшим значениями в упорядоченном ряду измерений называется размахом В. Он равен хг = х℄— х (2.9) Выборочный размах особенно хорош для характеристики рассеяния в выборках малого объема (н < 10). Когда же наблюдений много (н > 10), ок становится плохой оценкой рассеяния в генеральной совокупности, поскольку в отличие от стандартного отклонения он учитывает только два значения из всего Ряда измерений. Величина размаха зависит от объема выборки: при постоянной где х1х — среднее геометрическое. Отношение х;/хй отклоняется от значения 1 вверх и вниз тем больше, чем больше относительная случайная ошибка.
Отсюда +16ж 8( + — (~ -~~аж 8 (2.8) х 1+ пх/х Относительные стандартные отклонения вверх и вниз принимают различные значения. Асимметрия, обусловленная обратным отношением 1выражения (2.8)], увеличивается с ростом случайной ошибки. С помощью логарифмического распределения можно описать случайные ошибки любой величины. Выражение (1+ в,/х) практики иногда называют вкозффициентом ошибки". 39 дЭ Сгатмстмчесмме яокаэателм случайной ошибке В растет с ростом числа измерений. При определенных предположениях можно перейти от размаха выборки к стандартному отклонению [соотношение (5.4)] Интерквартильный размах.
Размах для больших массивов данных (и > 10) можно характеризовать с помощью интерквартильного размаха. Для этого и результатов измерений упорядочиваются по возрастанию [я1 < яэ « ... я„). Затем вычисляют интервал, охватывающий 50% измерений. Интерквартильный размах получается как разность между точкой, отсекающей четверть данных (выше которой лежит еще четверть результатов), и точкой, отсекающей четверть данных [ниже которой лежит еще четверть результатов).
Прк любом симметричном распределении квартиль дает возможность с одного взгляда получить представление о диапазоне рассеяния набора данных. Резко выделяющиеся значения влияют на квартиль только в малых выборках. Для характеристики диапазона рассеяния применяются и другие аналогичные величины р% измерений, которые называют яроцемшилями. 2.2.3. Асимметрия и эксцесс В равд. 2.1 указаны некоторые причины, по которым могут появиться выглядящие асимметрично распределения. Все такие распределения можно сделать симметричными с помощью подходящих преобразований (например, логарифмирования). Значит, это не "истинная" асимметрия.
Истинная асимметрия имеет место, если при достаточно большом числе измерений и после ликвидации всех технических или, быть может, математических причин асимметрия все-таки сохраняется. Такое распределение, кроме среднего значения и меры разброса, характеризуют еще и асимметрией р. Она определяется формулой (2.10) где пэ — число значений в у-м классе, и — число всех значений. Асимметрия — безразмерная величина, причем для симметричного распределения р = О. Левосторонняя асимметрия проявляется при р > О, правосторонняя — при р < О.
[2.8) В качестве примерь эмямрмческого расяределеямя частот с истинноМ асммметрмей часто приводят данные по ояределеммЮ кремния, Для первого распределения, представленного яа рмс. 2.3, имеем р1 = +0,88, для второго -рэ = +О, 09. Смстемэтмческме ошибки оказывают особенно сильное эяияяме ярм малом содержании в пробе Об асимметрии распределения можно судить с помошью интерквартильных Размахов. Для этого находят отрезки от самого низкого значения до нижнего квартиля Я „(от первого измерения до нижней границы интерквартильного Размаха) и от самого высокого значениЯ Вт, (от веРхней гРаницы ннтеРквартильпого размаха до последнего измерения) и находят разность Кто — Иди ° Для любого симметричного распределения эта разность равна нулю, при левосторон ней асимметрии она положительна, при правосторонней — отрицательна.
Недостатки в условиях проведения опыта могут привести к тому, что кривая распределения будет иметь слишком заостренный или, наоборот, слишком пологий максимум. Островершинное распределение получают, например если 40 О О С О 17 О 17 Р э р С 17 С В С А С С А А В р Е С В А А С А В Н С Н С 0,66 0,68 0,7078 Ав 0,006 0,012 0,018 "чч А1 Рис. 2.6. Распределения с эксцессом. выборка была неслучайной или если результаты измерений отбирались преднамеренно. Плосковершинное (пологое) распределение возникает, если при проведении межлабораторного опыта в разных лабораториях были совершенно различные условия работы.
Подобные искажения распределений характеризуют еще одним показателем — эксцессом е, который определяют по формуле (2.11) пя4 Островершинное распределение дает значение е > О, для пологого — е < О. [2.9) Два примера распределений с эксцессом приведены на рис. 2.6. Островершннное распределение результатов анализов мышьяка дает возможность предположить, что здесь была нарушена случайность. Определение малых количеств алюминия в стали особенно сильно подвержено влиянию небольших систематических ошибок, связанных со спецификой работы различных лабораторий. Поэтому прн межлабораторных анализах часто получают пологие распределения.