Неопределенность статистического моделирования
2.2. Неопределенность статистического моделирования
Без предварительного всестороннего исследования изучаемой зависимости получение исходных данных статистического моделирования постановкой эксперимента является в высшей степени произвольным и неопределённым процессом. Положим, приглашены 10 исследователей компетентных в определённой области науки. Размещая каждого в отдельной комнате и ставя перед всеми одну и ту же научную проблему, предложим каждому составить план её решения. Обладая разными знаниями и опытом, очевидно, что ни в одной сравниваемой паре исследователей у них не будет одинаковых планов.
Выявление самой зависимости, которую необходимо изучать и моделировать, часто представляет сложную задачу. В статистическом моделировании выбор переменной отклика и влияющих на неё факторов в большой степени зависит от объёма имеющихся практических и теоретических знаний. Проанализируем ряд вопросов, возникающих при планировании опытов эксперимента, по которым маловероятно, что исследователи придут к совместному согласию [Box, Draper (2007) стр. 4-6]. Эти вопросы следующие:
1. Какие факторы должны изучаться из всего возможного их множества ξ1, ξ2, ..., ξр? Если бы это была, например, зависимость выхода некоторого вещества в результате химической реакции, то возможно большинство исследователей стали рассматривать температуру и давление, так как эти факторы являются важными. Но наряду с этим могут возникнуть разные мнения о том, какие другие факторы должны быть изучены, будь то начальная интенсивность добавления химического компонента, отношение определённых катализаторов, интенсивность перемешивания и так далее. Анализ имеющихся знаний об изучаемой зависимости выхода вещества для рассматриваемой химической реакции позволил бы сделать выбор факторов более объективно и независимо от частных мнений. Однако для этого необходимо располагать этими знаниями и уметь их правильно применять.
2. Значения факторов ξ1, ξ2, ..., ξр должны использоваться в оригинальном числовом виде или должны быть преобразованы? Некоторый фактор ξ, например энергия, в логарифмированном виде ln(ξ) изменяется по линейной шкале и приводит к линейному увеличению переменной отклика, например, ощущаемой громкости шума. Таким образом, проще выразить такую зависимость, взяв предварительно логарифм от ξ. Другой фактор может быть связан с переменной отклика обратно пропорционально квадрату, предлагая тем самым преобразование ξ–2. Могут быть найдены и другие примеры, в которых используются преобразования в виде квадратного корня ξ1/2, обратно пропорционального квадратного корня ξ–1/2 и обратной величины ξ–1. Выбор преобразования отдельного фактора часто называют выбором метрики (metric).
Вообще, преобразование факторов может включать два или более исходных факторов. Положим, что есть два исходных фактора ζ1 и ζ2, которые представляют собой два азотных удобрения. Но, вместо использования их самих в качестве факторов могут использоваться их сумма ξ1=ζ1+ζ2, то есть общее количество азота, и их отношение ξ2=ζ1/ζ2. Однако делать такие преобразования исходных факторов имеет смысл только, если изучаемая зависимость отклика от новых факторов ξ1 и ξ2 может быть выражена проще. Но обычно, наилучший выбор преобразований не является очевидным и, по крайней мере, в начале, будет предметом конфликтующих мнений.
3. Как должен измеряться отклик? Часто в статистическом моделировании весьма неясно, какая переменная должна быть откликом. Например, при изучении с целью улучшения работы станции по очистке воды, количество биохимического кислорода в потоке часто рассматривается экспертами как естественная мера чистоты. Однако в потоке можно иметь нулевое количество биохимического кислорода, что смертельно для бактерий и людей. Следовательно, выбор подходящей переменной отклика зависит от её конечного использования и часто будет предметом спора.
В предыдущем вопросе обсуждалось преобразование факторов. Преобразование переменной отклика тоже возможно, но не всегда ясен подходящий вид такого преобразования. Далее будет показано, как преобразование переменной отклика может привести к более простому представлению её зависимости от факторов и к более простым допущениям.
4. При каких значениях фактора ξ должны выполняться опыты? Пусть температура является важным фактором. Для изучаемой зависимости отклика от температуры один исследователь может считать, что опыты должны ставиться при изменении температуры от 100 до 400°С. Другой исследователь, полагающий, что зависимость очень чувствительна к изменению температуры, может выбрать диапазон от 115 до 125°С. Третий исследователь, считая необходимой более высокую температуру, может выбрать диапазон от 140 до 180°С. На практике должны рассматриваться не один, а несколько факторов одновременно. Если температура должна изменяться, например, в диапазоне 20°, то каким надо выбрать подходящий соразмерный диапазон изменения концентрации? Таким образом, исследователь должен выбирать не только значения факторов, при которых проводить опыты, но также соответствующие диапазоны изменения значений каждого фактора.
Рекомендуемые материалы
5. Как должна быть сложна функция моделируемой зависимости? Этот вопрос связан, конечно, с вопросами 2, 3 и 4. По идее, чем более подходящими выбраны преобразования переменных, тем более простая функция модели может получиться. Однако, чем больше представляющие интерес диапазоны изменения значений факторов, тем более сложная функция требуется для модели. Следовательно, этот вопрос также является неопределенным и вплотную примыкает к вопросам 2, 3 и 4.
Однако ситуация меняется, если имеется некоторая теоретическая функция изучаемой зависимости. Эта функция может быть включена в статистическую модель и функция такой статистической модели может быть простой даже при больших диапазонах изменений значений факторов.
Люди также интересуются этой лекцией: РАХМАНИНОВ Сергей Васильевич.
6. Как выбираются нечисловые факторы? Предыдущее обсуждение касалось только числовых факторов, таких, например, как температура и давление. Подобные же неопределенности происходят в экспериментировании с нечисловыми факторами, такими как тип сырья, тип катализатора, личность оператора и разные типы семян для посева. Если, например, желательно сравнить три типа семян, то какие из них должны применяться? Должны ли испытываемые типы семян включать наиболее дешевые, которые, как полагается, дадут наилучший урожай и являются наиболее известными? Ответ зависит от целей исследования, что, по крайней мере, частично, зависит от мнения.
7. По какому плану должен проводиться эксперимент? Этот вопрос тесно связан со всеми предыдущими вопросами. Для примера рассмотрим предложенный в вопросе 2 гипотетический эксперимент. Если факторы ζ1 и ζ2 двух азотных удобрений каждый используются при трёх значениях во всех возможных девяти комбинациях, то план такого эксперимента показан на Рис.2.2(а). Однако, если, при тех же значениях исходных факторов, план эксперимента строится для значений общего количества азота ξ1=ζ1+ζ2 и отношения ξ2=ζ1/ζ2, то получается очень несимметричный план, где новые факторы ξ1 и ξ2 принимают соответственно пять и семь значений, как показано на Рис.2.2(b). В общем, вопрос оптимальности плана тесно связан с произвольным выбором видов преобразований, а также размером и формой области значений используемых в эксперименте факторов.
Рис. 2.2. Влияние преобразований факторов на план эксперимента (а) План для исходных факторов (ζ1, ζ2). (б) Несимметричный план для преобразованных факторов [(ζ1+ζ2), ζ1/ζ2].
Таким образом, в чисто статистическом моделировании имеют дело с принятием ряда решений, которые, по существу, являются предметом персонального мнения. Среди них такие как: (а) правильность выбора переменной отклика и значений факторов для проведения опытов, (б) области значений факторов и отклика, а также преобразования, которым они должны подвергаться, и (в) местоположение представляющей интерес области значений факторов, подробное описание модели в этой области и план эксперимента, который должен использоваться для исследования.
Все эти вопросы неопределённости статистического моделирования могут быть упрощены, если возможно предварительное теоретическое исследование изучаемой зависимости. На основе такого исследования переменная отклика и влияющие на неё факторы могут быть легко установлены на основе теоретической модели, которая появится как результат такого исследования. Области значений и преобразования переменных также могут быть определены с использованием имеющейся теоретической модели, а представляющие интерес диапазоны изменения факторов могут быть приближённо вычислены с использованием теоретической модели. При этом функция статистической модели и план эксперимента могут выбираться наиболее простыми. В этом случае предметом персонального мнения остаётся выбор законов, на которых должен основываться вывод теоретической функции, но и это в дальнейшем может быть оценено с использованием анализа статистической линейной модели.