XVII Математическая статистика (1081432), страница 29
Текст из файла (страница 29)
В зкспериментах с селекцией гороха Г.И.Мендель' наблюдал частоты появления различных видов семян при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Эти данные и значения теоретических вероятностей по теории наследственности приведены в табл. 5.6. Проверьте на уровне значимости о = 0,1 гипотезу Нд о согласонании частотных данных с теоретическими вероятностями.
Таблица 5.6 Ответ: Гипотеза принимается. 5.19. Решите задачу 4.27, не предполагая нормальность распределения контролируемого признака. 5.20. В таблице 5.7 для каждой из депяти партий сыра приведены его жирность (в процентах) и усредненные (по 80 опрошенным респондентам) результаты опроса вкусовых качеств сыра по шестибальной системе („ превосходно" — 6 баллов, „очень хорошо" — 5, „хорошо" — 4, „так себе" — 3, „плохо" — 2, „неприемлемо" — 1). Проверьте по результатам опроса гипотезу о связи жирности сыра и его вкусовых качеств на уровне значимости о = 0,05.
О т в е т: вкусовые качества сыра улучшаются с увеличением его жирности. 'Г.И.Мендель (1822-1884) — монах и аестрийсиий естестеоиспытатель. 239 Вопросы и задачи Таблица $.7 5.21. Из 300 абитуриентов, поступивших в институт, 97 человек имели оценку 5 в школе и получили оценку 5 на вступительных экзаменах по тому же предмету, причем только 18 человек имели оценку 5 и в школе, и на экзамене. С уровнем значимости 0,1 проверьте гипотезу о независимости оценок 5 в школе и иа экзамене.
Ответ: гипотеза отклоняется. 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА 6.1. Исходные понятия При решении прикладных задач в различных областях человеческой деятельности, в том числе и в инженерной практике, исследователь нередко сталкивается с необходимостью установления факта существования функциональных или иных зависимостей между переменными величинами, которые могут быть и случайными. Для подтверждения сказанного рассмотрим несколько простейших примеров.
Пример 8.1. Пусть У вЂ” величина износа (в мм) протектора шины на автомобилях определенного типа после 10000 км пробега, Х1 — величина нагрузки (в кг) на колесо автомобиля, Хз — тип протектора (используются три типа протекторов). Если установить степень влияния Х1 и Хз на У, то можно дать рекомендации по продлению долговечности шины. Пример 8.2. Пусть У1 — производительность химической установки (в т/ч), Уз — процент брака готовой продукции. Технолог предполагает, что на переменные У1 и Уз влияют в наибольшей степени такие технологические параметры, как: Х1 — влажность сырья (в %), Хз — температура в реакторе установки, Хз — содержание примеси (в %). Как установить степень влияния контролируемых переменных Хы Хз, Хз на переменные У1 и Уз? Если найти вид зависимости Ъ~ и Уз от Хы Хз, Хз, то можно выбрать оптимальный (т.е.
наилучший в определенном смысле) технологический режим (при котором, например, процент брака будет минимальным при заданном уровне производительности). 241 бд. Исходные понятна Пример 6.3. Пусть У вЂ” успеваемость студентов по некоторой дисциплине (измеряемая, например, средним баллом на экзамене). Деканат проводит обследование студентов данного вуза с целью установления наиболее значимых факторов, влияющих на У. В результате предварительного анализа сделано предположение о том, что этими факторами могут быть: Х~ — время, затрачиваемое студентом на самостоятельную работу, Хз — количество пропущенных занятий, Хз — величина стипендии.
Существует ли взаимосвязь между факторами Хм Хз, Хз? В какой степени они оказывают влияние на успеваемость? 41 Приведенные примеры далеко не полностью отражают возможные постановки задач рассматриваемого типа. Но даже нх поверхностный анализ позволяет отметить следующее. 1. Зависимое переменное У может быть случайной величиной, даже если переменные Хм ..., Х„таковыми не являются, так как значение У определяется не только значениями переменных Хз, ..., Хр, которые исследователь выделил (по его мнению, они являются определяющими), но и многими другими неучтенными факторами, а также ошибками измерений. Это означает, что связь между Хз, ..., Хр и У является не функциональной, а ствоваспзмчесяоб — изменение переменных Хм ..., Хр влияет на значения переменного У через изменение закона распределения случайной величины У.
2. Некоторые переменные могут иметь количественный характер, а некоторые — качественный (см. пример 6.1). 3. Нас может интересовать либо зависимость переменного У от переменных Хз, ..., Х, либо нзаимозависимость между несколькими переменными (не обязательно между всеми). Так, в примере 6.3 может существовать взаимозависимость между переменными Хс, Хз и Хз.
Перечисленные особенности приводят к различным постановкам задач статистического исследования зависимостей, ко- 242 й. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА торые упрощенно можно классифицировать следующим обра- зом: 1) эадачи коррел.ационного анализа — задачи исследования наличия взаимосвязей между отдельными группами переменных; 2) эадачи регрессионного анализа — задачи, связанные с установлением аналитических зависимостей между переменным У и одним или несколькими переменными Хм ..., Хр, которые носят количественный характер; 3) задачи дистверсионного анализа — задачи, в которых переменные Хм ..., Хр имеют качественный характер, а исследуется и устанавливается степень их влияния на переменное У.
Анализу наличия взаимосвязей между отдельными группа; ми переменных и посвящена эта глава. Задачи регрессионного и дисперсионного анализа рассмотрены в последующих главах (см. 7 и 8). Кроме перечисленных типов задач выделяют н многие другие. Так, ковариационный анализ рассматривает одновременно и количественные и качественные переменные Хм ..., Хр, конфлюенеаныб анализ обобщает регрессионный на тот случай, когда переменные Хм ..., Хр и У измеряют с ошибками, факекорный ана виэ" служит для выделения иэ множества исследуемых переменных Хм ..., Хр наиболее значимых* *.
Для удобства дальнейших рассуждений обратимся к так называемой модели „черного ящика" (рис. 6.1) как наиболее общей модели любой реальной системы, ассоциированной с понятием отображения 1: Х -+ У. Па вход „черного ящика" поступает входной сигнал — вектор Х, который посредством отображения 1 преобразуется в выходной сигнал — вектор У. Нри этом, в соответствии со сложившийся терминологией, Х = (Хм ..., Хр) — вектор вгодныи неременныи, или вектор 'Смс Айвозан СА., Енюков И.С., Мешоакнн ЛД., 1985.
*'См.: Нриклалиав статистика. Класси4юкация и снижение размерности / С А. Айвазов, В.М. Бязштойер, И.С. Енюков, ЛД. Мешонник. "'См., иаиример: Айвозан С.А., Енюкое И.С., Мешоакнн Л.Д., 1985. 243 фактпороа; У = (Уы ..., Ук) — вектор еыходкьзх переменных, или вектор опзкликоа; е = У вЂ” ДХ), е = (еы ..., е )— вектор слуиабкьзх озыибок, т.е. случайных переменных, отрвжаюшнх влияние на переменные У;, з = 1, т, неучтенных факторов, а также случайных ошибок измерений анализируемых показателей. Х 1 -е ! Х -ь )е ... 1е„ Рмс. 6.1 При проведении корреляционного анализа исследователь должен уметь: а) выбрать показатель стохастической связи анализируемых переменных; б) оценить его значение по имеющимся эксперименпмльным данньиц т.е. найти его пючечную и интервальную оценки; в) проверить статистическую еипопзезу о том, что значение показателя стохастической связи значимо отличается от нуля.
Ниже дано описание методов и моделей, используемых для решения перечисленных задач. 6.2. Анализ парных связей Выбор показателя связи. Для начала рассмотрим задачу выбора показателя стохастичесхой связи между двумя случайными величинами" с и з), реализации которых будем обозначать соответственно через х и у. 'Использование новых обозначений (( н Н вместо Х н У) свально с тем, что 4 н н могут высгуввть как в роли факторов, так н в роли откликов 1нлн 4 мозсет быть фактором, а и откликом). 244 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА Пркмер 6.4. Пусть случайный вектор (~,6) имеет нормальный закон распределения с математическим ожиданием р= (рмрг) и ковариационной матрицей где сг~~ и нгг — дисперсии случайных величин ~ и о соответственно, а р — коэффициент корреляции между ~ и о.
В этом случае условная плотность распределения случайной величины и при условии, что с = х, является плотностью нормального распределения [ХИ) с параметрами р„~ (условное математическое ожидание) и ог (условная дисперсия я) при значении ~ = х, которые связаны с параметрами исходного двумерного распределения следующим образом: М(Я[с = *) = р ~х = рг+ р — (х — 1и), (6.1) р( ~~ ) г 2(1 г) (6.2) Если закон распределения случайного вектора (ф, о) ке является нормальным, то характер изменения условного математического ожидания М(я[~=я) = Дх) может быть и нелинейным, причем, чем меньше условная дисперсия В(6~~= х), тем меньше при различных значениях х рассеяны возможные значения случайной величины я относительно линии регрессии М(д[4=х) = Дх) (рис. 6.2).
Функцию Дх) = М(я[ф=х) называют функцией регрессии, или регрессией. В рассматриваемом случае линия регрессии является прямой, а условная дисперсия не зависит от х. 246 6.2. Анализ парных сввэей Рис. 6.2 Обозначим Мо=д, Вц=пиз. Отклонение У вЂ” Р возможных значений о от д складывается нз двух слагаемых (см. рис. 6.2): д — р = (У(х) — р) + (у — У(х)), (6.3) где У(я) — р — отклонение функции регрессии У(я) в точке я от математического ожидания р; у — У(я) — отклонение возможного значения и от значения функции регрессии в точке я. Покажем, что рассеяние паз случайной величины и относительно ее математического ожидания есть сумма двух слагаемых, а именно: математического ожидания квадрата отклонения и от ее условного математического ожидания Я) и математического ожидания квадрата отклонения У(~) от д.
Действительно (ХЧЦ, м(У®) =м(м(~~~)) =мц=д, Ою=,'=М(ч-и)'=М((ю-УИ))+(УЫ)-и) = =М(ч-У(4)) +2М(И-У(0)(у(0-и))+М(УЫ) — и) = = М(~- У(~))'+ М(УŠ—,.)', 246 и. ОснОВы кОРРелЯЦиОннОГО АнАлизА Докажем последнее равенство для непрерывных случаиных величин с и и, предпол олагая что их совместная плотность распределения р(х,д) в Ег не обращается в нуль: р( '*у) „ И(х)-Р)Р4(х)~х~ (У-1Ж) (*,) Ф= = / Щх)-пг)р4(х)Мха у ' Нр-у(х) р так как р(х р).. Р4(У) | "„Р(х, у) „„~(,) Р4 (х) -Со Таким образом, если воспользоваться обозначениями г М(, ~(~))г пг — Щ(~) = М(Я) — р) то полученный результат может быть представлен в виде (6.4) "ч Из равенства (6.4) следует, что связь между 4 и я тем теснее, сию ог вносит слагаемое ог, порожденное функциеи регрессии у(х) = М(ц)4 = х.