Н.А. Спирин, В.В. Лавров - Методы планирования и обработки результатов инженерного эксперимента (1062945), страница 36
Текст из файла (страница 36)
Данная группа включаетбольшое количество средств, позволяющих исследовать зависимости между переменными путем вычисления практически всех общих мер зависимости (коэффициентов корреляции).t-критерии для зависимых и независимых выборок (t-test for independent anddependent samples). Эта группа процедур позволяет осуществить проверку истинности статистических гипотез относительно наблюдаемых случайных величин путемвыполнения специальных тестов.Таблицы частот (Frequency tables). Группа позволяют строить таблицы частот и гистограммы выбранных переменных.
При этом значения переменных можноразбивать на классы и группировать произвольным образом.2277. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …Калькулятор вероятностных распределений (Probability calculator). Даннаягруппа позволяет вычислить характеристики многих стандартных вероятностныхраспределений: нормального, хи-квадрат, Стьюдента, F-распределения и др.Модуль Множественная регрессия (Multiple regression) включает в себя исчерпывающий набор средств множественной линейной и фиксированной нелинейной (в частности, полиномиальной, экспоненциальной, логарифмической и др.) регрессий, позволяющих вычислять неизвестные коэффициенты в заранее заданныхпользователем регрессионных моделях.Модуль Нелинейное оценивание (Nonlinear estimation) дает возможностьоценить практически любые определенные пользователем нелинейные модели,осуществить подгонку к наблюдаемым данным кривой, по существу, любого типа.Важным преимуществом данного модуля, в отличие от других программ нелинейного оценивания, является то, что в нем не накладывается ограничения на размер обрабатываемого файла данных.
Оценки коэффициентов нелинейной модели могутбыть построены с помощью оценок метода наименьших квадратов, метода максимального правдоподобия или заданной пользователем функции потерь. Пользователь может выбрать одну из нескольких вычислительных процедур: квазиньютоновский метод, симплекс-метод и др. Кроме того, пользователь может сам определитьлюбой тип нелинейной модели, набрав соответствующее уравнение в редакторесистемы.Модуль Дисперсионный анализ (ANOVA/MANOVA) дает возможность оценить степень воздействия различных факторов на измеряемые данные и выделитьсреди них наиболее значимые (существенные).
Для проверки основных предположений дисперсионного анализа имеется широкий выбор статистических процедур, вчастности критерии Фишера, Кохрена, Бартлета и др.Модуль Факторный анализ (Factor analysis) позволяет проводить факторныйанализ, основная цель которого заключается в том, чтобы выделить скрытые общиефакторы, т.е. воздействующие на все параметры объекта, а не на какой-то один параметр или группу. Выделяемые общие факторы определяют связи между наблюдаемыми параметрами объекта.МодульНепараметрическаястатистикаиподгонкараспределения(Nonparametrics/Distribution) дает возможность сравнить распределение наблюдаемых величин с большим количеством различных теоретических распределений.Имеется возможность подогнать к данным нормальное, логнормальное, экспоненци2287.
КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …альное, хи-квадрат, пуассоновское и др. распределения. Точность подгонки оценивается с помощью различных критериев (хи-квадрат, Колмогорова–Смирнова и др.).МодульАнализвременныхрядовипрогнозирование(TimeSeries/Forecasting) позволяет строить модель, описывающую ряд данных, сгладитьего, спрогнозировать будущие значения временного ряда на основе наблюдаемыхдо данного момента, построить регрессионные зависимости одного ряда от другого,провести спектральный или Фурье-анализ ряда и т.д. Модуль также включает процедуры автокорреляционного анализа.Возможности системы STATISTICA далеко не исчерпываются перечисленными выше модулями.
Кроме них, система содержит ряд модулей, предназначенныхдля более детального статистического анализа данных и необходимость в которыхна практике возникает крайне редко.7.3.6. Структура диалога пользователя в системе STATISTICAСтруктура диалога пользователя в каждом статистическом модуле имеет общие черты:1) после выбора из переключателя модулей (рис. 7.3) открывается стартовая панель выбранного статистического модуля;2) далее необходимо открыть файл данных и выбрать переменные для анализа изоткрытого файла;3) затем выбираются метод анализа и конкретная вычислительная процедура с соответствующими параметрами расчета из меню в стартовой панели модуля;4) далее запускается вычислительная процедура.
Если процедура итерационная, тосистема дает возможность на каждом шаге просмотреть результаты в появившемся на экране окне и при необходимости добавить число итераций для увеличения точности оценок;5) используя графические возможности и специальные таблицы вывода с вычисленными разнообразными статистиками, можно осуществить всесторонний просмотр и анализ результатов;6) выбирается следующий шаг анализа.В сложном проекте следует работать с различными модулями, последовательно переключаясь между ними.2297. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …7.3.7. Примеры использования системы STATISTICAРасчет основных характеристик случайных величинЗапускаем систему STATISTICA и выбираем статистический модуль BasicStatistics/Tables (Основные статистики и таблицы).
Создаем новый файл исходных данных, выбирая из меню пункт File/New data, и присваиваем ему произвольноеимя, например exampl1.sta.Исходные данные для анализа возьмем из примера 3.8, в котором приведенырезультаты обработки 50 проб передельного чугуна на предмет содержания в нихкремния (табл. 3.7). Заполним таблицу в системе STATISTICA с исходными данными, как показано на рис.
7.4. Для этого создаем две переменные: первая содержитномер пробы чугуна (N_ПРОБЫ), вторая – процентное содержание кремния в чугунедля соответствующей пробы (SI_%). Размер таблицы в системе по умолчанию принят 10 на 10 (10 переменных с именами VAR1, VAR2, …, VAR10 и 10 случаев). Чтобыизменить имя переменной, необходимо выбрать пункт меню Edit/Variables/CurrentSpecs или нажать комбинацию клавиш [Ctrl]+[F2], а затем в диалоге указать нужноеимя.Рис.7.4. В рабочем окне системы STATISTICA расположен файлс исходными данными содержания кремния в чугуне2307.
КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …После того как подготовлен файл исходных данных, выбираем пункт менюAnalysis/Descriptive Statistics (Описательная статистика). В появившемся диалоговом окне, вид которого показан на рис. 7.5, следует выбрать переменную для анализа нажатием кнопки Variables. Мы выбрали переменную, содержащую данные о процентном содержании кремния в чугуне, имя выбранной переменной отражается рядом с кнопкой Variables. Диалог Описательная статистика позволяет:− вычислитьразнообразныевыборочныехарактеристики(Statistics):Median&quartiles – медиана и квартили, Conf. Limits for means – доверительныеграницы для среднего. В строке Alpha error можно задать требуемый уровеньзначимости.
Напомним, что уровень значимости – это вероятность неправильногоотвержения гипотезы, когда она верна (подробнее см. п. 3.3). Более расширенный набор статистик для расчета можно выбрать нажатием кнопки More statistics(рис. 7.6): Mean – среднее арифметическое, Sum – сумма, Median – медиана,StandardDeviation–стандартноеотклонение,Variance–дисперсия,Minimum&maximum – минимум и максимум, Range – размах, т.е. разность междумаксимумом и минимумом, Skewness – коэффициент асимметрии, Kurtosis – коэффициент эксцесса:Рис.7.5.
Вид экрана меню Descriptive Statistics (Описательные статистики)2317. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …− построить для выборки таблицу частот(Frequency Tables) и гистограмму частот(Histograms);отметивпунктNormalexpected frequencies, можно нанести на гистограмму кривую нормального распределения и визуально оценить соответствие исходных данных нормальному закону распределения;− проверить гипотезу о нормальности распределения наблюдаемых случайных величин с использованием критерия Колмогорова–Смирнова, выбирая его в разделеDistribution.Для визуализации результатов имеетсявозможность построения разнообразных граРис.7.6.
Меню Статистикификов, вызываемых нажатием соответствующей кнопки в нижней части экрана.Результаты статистического анализа выводятся в специальное окно. Для данных из примера вид окна с результатами показан на рис. 7.7, из которых следует, чтосреднее арифметическое (математическое ожидание) содержания кремния в чугунесоставляет 0,6504%; выборочная дисперсия 0,0185%; максимальное и минимальноезначения равны соответственно 0,32 и 0,95%; действительное содержание кремнияв чугуне с вероятностью 95% лежит в интервале от 0,6117 до 0,6891%.
Заметим, чтоэти данные близки к результатам, полученным ранее в примере 3.8 с помощью пакета Microsoft Excel, небольшие расхождения объясняются точностью представлениярезультатов.Рис.7.7. Вид окна с результатами расчета статистик из примера 3.82327. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …Проверка нормальности распределенияПроверим гипотезу о нормальности распределения данных из примера.
Дляэтого в окне диалога Описательные статистики, показанного на рис. 7.5, отметиммышью пункт K-S test and Lilliefors test normality (Тест Колмогорова–Смирнова дляпроверки нормальности) и нажмем кнопку Histograms. В результате на экране появится окно (рис. 7.8), на котором изображена гистограмма переменной SI_% и дополнительно нанесена линия нормального распределения. В верхней части гистограммы показан рассчитанный параметр теста Колмогорова – Смирнова – критерийD (см. п. 3.6).K-S d=,036Рис.7.8. Гистограмма распределения содержания кремния в чугуне срезультатами проверки гипотезы о нормальности распределенияНапомним, что критерий D называется критерием согласия, поскольку он проверяет, в какой степени наблюдаемые значения случайной величины согласуются сфункцией нормального распределения: чем меньше величина D, тем в меньшейстепени эмпирическая функция распределения случайной величины отличается отнормальной функции распределения.