Гмурман - Теория вероятностей и математическая статистика (969547), страница 45
Текст из файла (страница 45)
Найдем искомые параметры, для чего подстзвнм вычисленные по таблице суммы в соотношения (ече): Р в (5.26,975 — 15 8,15)/(5.57,5 — 15з)=0,202; Ь = (57,5 8,15 — 15 26,975)/62,5 = 1,024. з! для простоты записи вместо ~р условнмся пнсзть ~ . Таблица 11 Напашем искомое уравненке регрессия: К = 0,202л+ 1,024.
Для того чтобы получить представленне, йасколько хорошо вычкслекные по этому уравненню значення г 1 согласуются с наблюдаемыми значениями йь найдем отклонения К; — у;. Результаты вычнсленнй пркведены в табл. !2. Таблкца 12 Как вндно нз таблицы, не все отклонения достаточно малы. Это объясняется малым чяслом наблюдений. $ б.
Корреляционная таблица При большом числе наблюдений одно и то же значение х может встретиться и раз, одно и то же значение у — пв раз, одна и та же пара чисел (х, у) может наблюдаться плв раз. Поэтому данные наблюдений группируют, т. е. подсчитывают частоты и„, аз, п . Все сгруппированные данные записывают в виде таблицы, которую называют корреляционной.
17 2730 257 Поясним устройство корреляционной таблицы на примере табл. 13. Таблица 13 В первой строке таблицы указаны наблюдаемые значения (10; 20; 30; 40) признака Х, а в первом столбцев наблюдаемые значения (0,4; 0,6; 0,8) признака У. На пересечении строк и столбцов находятся частоты п„и наблюдаемых пар значений признаков. Например, частота 5 указывает, что пара чисел (1О; 0,4) наблюдалась 5 раз.
Все частоты помещены в прямоугольнике, стороны которого проведены жирными отрезками. Черточка означает, что соответственная пара чисел, например (20; 0,4), не наблюдалась. В последнем столбце записаны суммы частот строк. Например, сумма частот первой строки «жирного» прямоугольника равна а»=5+7+,14*=26; зто число указывает, что значение йризиака У, равное 0,4 (в сочетании с различными значениями признака Х), наблюдалось 26 раз. В последней строке записаны суммы частот столбцов. Например, число 8 указывает, что значение призрака Х, равное 10 (в сочетании с различными значениями признака У), наблюдалось 8 раз. В клетке, расположенной в нижнем правом углу таблицы, помещена сумма всех частот (общее число всех наблюдений и).
Очевидно, ~Р и„= '~~а„= л. В нашем примере Хп„= 8+ 21+ 13+ 18 60 и,'Я ла — — 26+ 12+ 22 = 60. 2бз й й, Отыскание параметров выборочного уравнения прямой линии регрессии по сгруппированным данным В $4 для определения параметров уравнения прямой линии регрессии У' на Х была получена система уравнений (,'~'„х')р„„+(,"Ях) Ь ~ху, (~~>',х) р„„+ пЬ = ~ч~',у. (пх*)рц +(пх) Ь=~~~п„„ху, (х)р„„+ Ь =у. (еа) Решив эту систему, найдем параметры р„„и Ь и, следо- вательно, искомое уравнение у =рф~х+Ь. Однако более целесообразно, введя новую величину— выборочный коэффициент корреляции, написать уравнение регрессии в ином виде. Сделаем это.
Найдем Ь из второго уравнения (аа): Ь=у — р„„х. 17" Предполагалось, что значения Х и соответствующие им значения г наблюдались по одному разу. Теперь же допустим, что получено большое число данных (практически для удовлетворительной оценки искомых параметров должно быть хотя бы 50 наблюдений), среди них есть повторяющиеся, и они сгруппированы в виде корреляционной таблицы. Запишем систему (а) так, чтобы она отражала данные корреляционной таблицы, Воспользуемся тождествами: ~,'х=пх (следствие из х '~Р,х(п); ~у пу (следствие из у=~~~~~у/п); ~~~, 'х' = пх' (следствие нз х' = ~,'х'/и), чаху=оп,„ху (учтено, что пара чисел (х, у) наблюдалась и „раз).
Подставив правые части тождеств в систему (а) и сократив обе части второго уравнения на и, получим Подставив правую часть этого равенства в уравнение у»=р„»х+Ь, получим У, — У = Ру» (х — х). Найдем *1 из системы (в) коэффициент регрессии, учитывая, что х' — (х)'=а*„(см. гл. ХЧ1, $ 10): ',г',л вху — у Хл», у — 1у Р л 1.»* — (х)'1 ла» Умножим обе части равенства на дробь а„/ав~ ~Я л „ху — лху Р»'= Ре ав ла ав Обозначим правую часть равенства через г, и назовем ее выборочным коэффициентом корреляции (см. замечание 3): ~Ч~ л» ху — лху ла„оу Подставим гв в (вввв): Ра»о~/оу = гв.
Отсюда а, Рв» ~'г'»- а» Подставив правую часть этого равенства в (евв), окончательно получим выборочное уравнение прямой линии регрессии У на Х вида Ух У гв =(» «) а» 3 а и е ч а н н е 1. Аналогично находят выборочное уравнение примой линни регрессии Х на У вида — а» ха-хг гв =(у-у), ав где гва»~ав — — р„в. В втой главе выборочное среднее квадратическое отклонение обовначено черен а; например, а — выборочное среднее квадратическое отклонение Х.
3 а м е ч а н и е 2. Уравнения выборочных пряных регрессии можно эаписать в более симметричной форме: Ук У х — х х — х у — у э ге= о, ох ох оу За менам не 3. Выборочный коэффяцнент корреляции является оценкой коэффициента корреляции М(ХУ) — И(Х) и()") п„оэ о„оэ Действительно, используя метод моментов (см. гл. ХЪ'1, й 2!), т. е. эаменнв числовые характеристики их оценками, получим ~(Ч~ээ п„эху)/п~ — ху ~~~'„я„эху — «ху гэ охов по„оэ й 7. Выборочный коэффициент корреляции Как следует из предыдущего параграфа, выборочный коэффициент корреляции определяется равенством ~~э~ я„„ху их у гв поход где х, у — варианты (наблюдавшиеся значения) признаков Х и г; 넄— частота пары вариант (х, у); и — объем выборки (сумма всех частот); о„, аэ — выборочные средние квадратические отклонения; х, у — выборочные средние.
Известно, что если величины 1" и Х независимы, то коэффициент корреляции г =0 (см. гл. Х1У, 2 17); если .г= ~-1, то г" и Х связаны линейной функциональной зависимостью (см. гл. Х1'Ч, 2 20). Отсюда следует, что коэффициент корреляции г измеряет силу (тесноту) лик е й н о й связи между У н Х.
Выборочный коэффициент корреляции г, является оценкой коэффициента корреляции г генеральной совокупности и поэтому также служит для измерения линейной связи между величинами †количественны признаками У и Х. Допустим, что выборочный коэффициент корреляции, найденный по выборке, оказался отличным от нуля. Так как выборка отобрана случайно, то отсюда еще нельзя заключить, что коэффициент корреляции генеральной совокупности также отличен от нуля. Возникает необходимость проверить гипотезу о значимости (существенности) выборочного коэффициента корреляции 261 (нли, что то же, о равенстве нулю коэффициента корреляции генеральной совокупности).
Если гипотеза о равенстве нулю генерального коэффициента корреляции будет отвергнута, то выборочный коэффициент корреляции значим, а величины Х и г коррелироваиы; если гипотеза принята, то выборочный коэффициент корреляции незначим, а величины Х и У не коррелированы. Проверка гипотезы о значимости выборочного коэффициента корреляции для случая нормальной корреляции изложена далее (см.
гл. Х1Х, 2 21), Если выборка имеет достаточно большой обьем и хорошо представляет генеральную совокупность (репрезентативна), то заключение о тесноте линейной зависимости между признаками, полученное по данным выборки, в известной степени может быть распространено и на генеральную совокупность. Например, для оценки коэффициента корреляции г, нормально распределенной генеральной совокупности (при и) 50) можно воспользоваться формулой — З вЂ” ~г ~г+З= гв 1+ге гп )~п За меча н не 1.
Знак выборочного козффнцнента корреляцнн совпадает со знаком выборочных козффнцнентов регресснн,. что следует нз формул (см. б 6): Рзх=ге = 1 Рхз=гв = оз. (в) о, з о, Заме ч а ы не 2. Выборочный коы)фацнент корреляции равен Г с двему геометрыческому выборочных козффнцнентов регресснн. ействительно, перемножнв левые н правые части равенств (в)„ получнм з Рхзрхз гв' Отсюда ге= ~ Г Рзврхз. Зывк пры рвдыкале в соответствын с замечаннем 1 должен совпадать со знаком ксыффнцнентов регресснн. й 8.
йчетодика вычисления выборочного коэффициента корреляции Пусть требуется по данным корреляционной таблицы вычислить выборочный коэффициент корреляции. Можно значительно упростить расчет, если перейти к 262 условным вариантам (при этом величина га не изменится) и,=(хс — С,)/Ь, и и, =(у~ — С,)/Ья. В этом случае выборочный коэффициент корреляции вычисляют по формуле та=(~;и ии — пийу(па„о ).
Величины и, и, оа и о можно найти методом произведений (см. гл. ХЧП, $4), а при малом числе данных— непосредственно исходя из определений этих величин. Остается указать способ вычисления ч~~,'и ии, где п„— частота пары условных вариант (и, и). Можно доказать, что справедливы формулы (см. пояснение в конце параграфа): ,'яп, ии ч~~~,и0, где у =,'яп и, ~и~~ и еии Х и)~е Где и ~и~~~ паап Для контроля целесообразно выполнить расчеты по обеим формулам и сравнить результаты; нх совпадение свидетельствует о правильности вычислений. Покажем на примере, как пользоваться приведенными формулами. Пример 1.
Вычислить,~ и ло поданным иорреляционноа табл. 14. Таблица 14 Р Е Ш Е Н И Е. ПЕрЕйдЕМ К уСЛОВИЫМ ВарваНтаи: и/=(Хà — СГ)//!Г =ь (хг — 40)/1О (в качестве ложного нуля Сг взята варианта я=40, РасположеннаЯ пРнмеРно в сеРедиие ваРиацвонного РЯДа! шаг Ьт равен разностя между двумя соседннмн варкантами: 20 — 10=*10) и о/= (р/ — Сз)/йз = (у/ — 35)/10 (в качестве ложного нуля С взята варианта у=35, расположенная в середине варнациониого ряда; шаг Ь, равен разности между двумя соседнимн вариантамн: 25 — 15 = 10), Составим корреляционную таблицу в условных вариантах.
Практически зто делают так: в первом столбце вместо ложного нуля Сз (варианты 35) пишут 0; над нулем последовательно записывают — 1, 2; под нулем пишут 1, 2. В первой строке вместо ложного пуля Сг (варианты 40) пишут 0; слева от нуля последовательно записывают — 1, — 2, — 3; справа от нуля пишут 1, 2. Все остальные данные переписывают из первоначальной корреляционной таблицы. В итоге получим корреляционную табл.
15 в условных вариантах. Таблица 15 Теперь для вычисления искомой суммы Хна ио составим расчетную табл. !6. Пояснения к составлению таол. 16: 1. В каждой клетке, в которой частота и „~ О, записывают в правом верхнем углу произведение частоты и на варианту и. Например, а правых верхних углах клеток перво!1 строки записаны произведения: 5.( — 3)= — !5; 7 ( — 2)= — !4.
2. Складывают все числа, повешение/Е в правых верхних углах клеток одной строки и нх сумму записывают в клетку атой же строки столбца У. Например, для первой строки У= — 15+( — !4) "- — 29. 3. Умножают варианту и на У н полученное произведение зацисывают в последнюю клетку той же строки, т. е. в клетку столбца пУ. Например, в первой строке таблицы и= — 2, У= — 29; следовательно, иУ =( — 2) ( — 29) =58. 4. Наконец, снежив все числа столбца оУ, получают сумму Х иУ. которая равна искомой сумме~~~~л „ио. Например,длятабл. 16 е имеем ~иУ=169; следовательно, искомая сумма ~~~~~ ли„ив=169. и для контроля аналогичные вычисления производят портолбцам: произведения л о записывают в левый нижний угол клетки, содержащей частоту л ж 0; все числа, помещенные в левых нижних углах клеток одного столбца, складывают н их сумму записывают в строяу У; далее умножают каждую варианту и на У и результат записывают в клетках посаедией строки.