Г. Кристиан - Аналитическая химия, том 1 (1108737), страница 30
Текст из файла (страница 30)
г-Тест используют для решения вопроса о том, является ли статистически значимым различие между средними двух серий данных. Будем называть одну из методик проверяемой, а другую — проверочной. Из результатов этих методик специальным образом рассчитывают экспериментальную величину г и сравнивают ее с табличным значением (табл. 3.1) для выбранной доверительной вероятности и соответствующего числа степеней свободы. Если рассчитанное значение Т превосходшп табличное, то при заданной доверительной вероятности различие между результатами двух методик следует считать значимым. Если же оно не превосходит табличную величину, то у нас нет никаких оснований считать различие данных значимым. Разумеется, это не означает также, что полученные результаты идентичны.
Ниже описаны три различных варианта использования ~-теста. Один из них применяют тогда, когда известно (из других результатов измерений) значение 1г с точностью, достаточной для того, чтобы его можно было считать истинным. Если такое значение не известно, можно проанализировать одну и ту же пробу по двум методикам несколько раз. Можно также проанализировать серию разных проб по двум методикам. При этом одна из используемых методик не должна содержать систематической погрешности. 146 ОБРАБО7КА ДАННЫХ И БЛЕКТРОННЫЕ ТАБЛИЦЫ 1. Использование Ртеста при известном значении измеряемой величины. Заметьте, что уравнение (3.9) дает интервал значений измеряемой величины при отсутствии систематических погрешностей.
Поэтому можно записать, что (3.11) Из этого следует, что +г — (х И) (3.12) з Если величина 1з является достаточно надежной оценкой истинного результата анализа, полученной по данным других измерений (например, она может быть указана в паспорте стандартного образца, выпускаемого американским Национальным институтом стандартов и технологий — ЬПБТ, либо представлять собой значение атомной массы — основы химического анализа), то можно использовать уравнение (3. 12) для того, чтобы решить, являются ли результат измерений и его истинное значение статистически эквивалентными. Пример 3.17 Вы разрабатываете методику определения следов меди в биологических материалах, основанную на мокром сжигании пробы с последующим атомно-абсорбционным определением.
Для проверки правильности методики вы проанализировали стандартный образец листьев яблони, предоставленный Н1ЯТ. В результате отбора и анализа пяти проб получено среднее значение 10,8 ррш и стандартное отклонение 0„7 ррш. Паспортное значение содержания меди равно 11,7 ррш. Можно ли считать результаты методики статистически правильными при 95%-й доверительной вероятности? Решение Н~ = (х — )з) — = (10,8 — 11,7) — =2,э ~Ф ~Г5 з 0,7 Поскольку произведено пять измерений, число степеней свободы (У вЂ” 1) равно 4.
Соответствующее табличное значение г (табл. 3. 1) для 95%-й доверительной вероятности равно 2,776. Это меньше рассчитанного значения. Следовательно, разработанная вами методика содержит систематическую погрешность. Иными словами, с вероятностью не менее 95% различие между полученным результатом и паспортным значением не является случайным.
3 13. ТЕСТЫ СТАТИСТИЧЕСКОЙ ЗНАЧИМОСТИ: ЕСТЬ ЛИ РАЗЛИЧИЕ МЕЖДУ ДАННЫМИ? Из уравнения (3.12) следует, что чем выше воспроизводимость результатов, т. е. чем меньше величина з, тем больше рассчитанное значение А В этом случае возрастает вероятность, что табличное значение Т окажется меньше рассчитанного. Таким образом, чем выше воспроизводимость результатов, тем легче выявить неслучайные различия в данных. Кроме того, рассчитанные значения 1 возрастают и с ростом числа измерений [множитель 1Ф в формуле (3.12)1.
Поэтому результаты сравнения очень больших серий данных часто оказываются статистически значимыми. Однако различия в данных, выявляемые в подобных случаях, бывают очень тонкими и не имеют практического значения. 2. Сравнение средних двух серий данных. г-Тест можно применять и для сравнения двух средних значений. В этом случае уравнение (3.12) несколько видоизменяется: вместо ц в него подставляют среднее для второй серии, а вместо величины, обратной стандартному отклонению среднего (э/Ф/з), выражение: где з — средневзвешенное стандартное отклонение двух серий. Таким образом, формула (3.12) преобразуется в (3.13) Средневзвешенное стандартное отклонение (его определение см.
ниже) — это величина, иногда используемая как улучшенная оценка воспроизводимости методики. Она же используется для расчета воспроизводимости по двум сериям данных в парном ~-тесте (см. ниже). Во всех подобных случаях воспроизводимосгь оценивают из нескольких серий результатов анализов, например, данных, полученных в разные дни или для образцов, несколько различающихся по составу. Это иногда бывает предпочтительнее, чем оценивать воспроизводимость из единственной серии данных. Предпосылкой для таких оценок является допущение, что каждая серия данных характеризуется одной и той же величиной случайной погрешности. В общем случае средневзвешенное стандартное отклонение з рассчитывают по формуле: (3.14) гдехнхз, ...,хь — сРедниедлЯ 1-й, 2-й, ..., А-й сеРии данных, ахи,кп, ...,хд— отдельные значения из соответствующих серий.
Ф вЂ” общее число данных, рав- 148 ОБРАБОТКА ДАННЫХ И ЭЛЕКТРОННЫЕ ТАБЛИЦЫ ное сумме Ф, + Ф +...+ Ф . Например, если имеется 5 серий по 20 данных в каждой (хотя в общем случае число данных в каждой серии может быть разным)„ то А= 5, а М = 100. Число степеней свободы составляет (У вЂ” А), что равно (У1 — 1) + (Уз — 1) +...+ (Фя — 1). Таким образом, уравнение (3.14) представляет собой комбинацию выражений для расчета стандартного отклонения каждой серии.
При использовании т-теста для сравнения двух средних предполагается, что обе серии данных характеризуются приблизительно одинаковыми стандартными отклонениями, т. е. каждое значение в является приближенным значением одной и той же величины о. Это предположение можно проверить при помощи описанного выше Г-теста. Пример 3.18 Разработана новая методика гравиметрического определения Ре(111), в ходе которой железо осаждают в кристаллической форме в виде соединения включения с борорганическим реагентом. Правильность методики проверили путем сравнения результатов анализа железной руды с результатами, полученными при помощи стандартной методики, включающей осаждение гидроксида железа аммиаком и взвешивание ГезОг Результаты анализов (массовая доля железа, 88) приведены ниже. х1 = 19,65во Есть ли значимое различие между результатами двух методик? Решение (х.
— х )2 0,202 хл -х1 ха хз (хе — хз)з 0,122 Кн хп 18,89 0,45 0,35 0,85 19,20 19,00 19,70 19,40 0,04 0,002 1,00 0,24 0,058 0,40 0„46 0,212 0,25 0,16 0,026 Е(ха — хз)з = 0,420 0,34 Е (х,1 — х1)з = 2,262 20,10 20,50 18,65 19,25 19,40 19 дд Проверяемая методика 20,10;4 20,50 18,65 19,25 19,40 19,99 0,722 1,000 0,160 0,062 0,116 Стандартная методика 18,8988 19,20 19,00 19,70 19,40 хз = 19,2456 3.13. ТЕСТЫ СТАТИСТИЧЕСКОЙ ЗНАЧИМОСТИ: ЕСТЬ ЛИ РАЭЛИЧИЕ МЕЖДУ ДАННЫМИ? 149 Я~ 0,262/5 — 4 31 зз 0420~4 Эта величина меньше табличной (6,26). Поэтому серии данных имеют сопоставимые величины стандартных отклонений, и мы можем применить |-тест для сравнения средних: 2,262 + 0,420 6+5-2 — =12з 19,65 — 19,24 6.
5 0546 6+5 Табличное значение т для девяти степеней свободы (М, ч- Фг — 2 = 6 ь 5 — 2 = 9) при 95%-й доверительной вероятности равно 2,262. Таким образом, между результатами, полученными при помощи двух методик, нет статистически значимого различия. Точно так же, как результаты анализа одной пробы по двум методикам, можно сравнивать и результаты анализа двух проб при помощи одной методики. 3. Парный У-тест. В клинических лабораториях новую методику часто проверяют при помощи стандартной методики, анализируя серию проб, несколько различающихся по составу (в пределах физиологических состояний). Для этого случая экспериментальное значение Т вычисляют несколько иначе. Сначала для каждой 1-й пробы рассчитывают разность 23,, между результатами анализа двух методик (с учетом знака).
Затем рассчитывают среднее значение разности, отклонения (ггг, — гг), и из них — стандартное отклонение з„. Значение г находят по формуле: (3.15) (3.16) ОБРАБОТКА ДАННЫХ И ЭЛЕКТРОННЫЕ ТАБЛИЦЫ Пример 3.19 Вы разрабатываете новую методику определения азота мочевины крови и хотите узнать, значимо ли отличаются ее результаты от результатов анализа при помощи стандартной методики в диапазоне значений концентраций, которых можно ожидать для большинства реальных проб. Предварительно было установлено, что воспроизводимости обеих методик значимо не различаются.
При анализе серии проб получены следующие результаты: Проба П,— 27 117.-б)2 Решение з = ( — '=042 Г0,87 6 — 1 028 д 0,42 Табличное значение т для 95%-й доверительной вероятности и пяти степеней свободы составляет 2,571. Рассчитанное значение Т меньше табличного, следо- вательно, при выбранной доверительной вероятности значимое различие между результатами двух методик отсутствует.
Вывод о значимости различия двух величин, полученный при 95%-й доверительной вероятности, обычно считается достаточно достоверным. Если такое различие наблюдается даже при доверительной вероятности 99%, то этот вывод еще более достоверный. Напротив, если выполнять Т-тест при слишком малой доверительной вероятности (например, 80%), то можно ошибочно заключить, что между значениями наблюдается различие, когда на самом деле его нет. Эта ситуация называется ошибкой 1 рода.
С другой стороны, при слишком высоких доверительных вероятностях можно не заметить различия, когда оно есть (ошибка 11 рода). В целом чем меньше рассчитанное значение Б тем более надежным становится вывод об отсутствии значимого различия между сравниваемыми значениями. Если при 95%-й доверительной вероятности рассчитанное и А В С 13 Е г Вата методика (мг/дл) 10,2 12,7 8,6 17,5 11,2 11,5 Стандартная методика (мг/дл) 10,5 11,9 8,7 16,9 10,9 11,1 -О,З 0,8 -0,1 0,6 0,3 0,4 Е 1,7 П= 028 -0,6 0,5 -0,4 0,3 0,0 0„1 0,36 0,25 0,16 0,09 0,00 0,01 Е 0,87 3.14. ОТБРОС ПРОМАХОВ: 0-ТЕСТ табличное значения А оказываются близки, то для окончательного решения вопроса о различии величин обычно проводят дополнительные исследования.
3.14. Отброс промахов: О-тест Третий закон Финегла: в любом массиве данных величина, наиболее очевидным образом представляющаяся правильной, ошибочна. Часто в серии результатов параллельных анализов один из результатов заметно отличается от остальных. В таких случаях необходимо принять решение исключить такой результат из серии или оставить его. К сожалению, критерия, позволяющего однозначно решить, является ли результат грубым промахом или обусловлен «обычной» случайной погрешностью, не существует.
Разумеется, всегда есть соблазн удалить вообще все крайние значения, поскольку они могут существенно ухудшить общую статистику — увеличить значения стандартного отклонения и дисперсии, а также значительно изменить величину среднего. Но единственным надежным основанием для удаления результата может служить установленный факт грубой ошибки, допущенной при его получении. Сохранять такой результат в массиве данных нельзя. На практике для решения вопроса о сохранении или удалении результата следует руководствоваться опытом и здравым смыслом в не меньшей степени, чем результатами каких-либо статистических тестов.