180735 (628772), страница 4
Текст из файла (страница 4)
Правило сложения дисперсий. Коэффициент детерминации и эмпирическое корреляционное отношение
В статистике важно рассчитывать дисперсии для результативного признака , опираясь на данные аналитической группировки.
В этом случае дисперсии примут вид:
- общая дисперсия
(13)
- внутригрупповые дисперсии
(14)
- средняя из внутригрупповых дисперсий
(15)
- межгрупповая дисперсия
(16)
где - общая средняя
- средняя
-ой группы
Правило сложения дисперсий
(17)
На основе этого правила рассчитывают эмпирические показатели тесноты корреляционной связи между факторным и результативным признаками.
Если учесть, что величина межгрупповой дисперсии характеризует влияние только факторного признака, а величина общей дисперсии помимо факторного признака характеризует влияние и всех остальных признаков, то отношение межгрупповой дисперсии к общей покажет силу влияния факторного признака на результативный.
Это отношение называют коэффициентом детерминации
(18)
Корень квадратный из коэффициента детерминации называют эмпирическим корреляционным отношением.
(19)
Оно показывает степень тесноты связи между факторным и результативным признаком и изменяется в пределах от 0 до 1. Нулевое значение говорит о том, что связи нет (тогда межгрупповая дисперсия равна 0). Значение 1 указывает на наличие функциональной зависимости между признаками, при которой значения исследуемого показателя полностью определяются значениями факторного (группировочного) признака (средняя из внутригрупповых дисперсий в этом случае принимает нулевое значение). И естественно, чем ближе к 1, тем связь теснее. Для аналитической характеристики степени связи используют шкалу Чэддока
| 0 | 0,1-0,3 | 0,3-0,5 | 0,5-0,7 | 0,7-0,9 | 0,9-0,999 | 1 |
сила связи | отсутствует | слабая | умеренная | заметная | тесная | весьма тесная | функциональная |
Проиллюстрируем расчеты по данным и результатам расчета примера 2.2.
Пример 4.10. Имеются следующие данные о зависимости выработки работников от их производственного стажа.
Стаж, г. | Число работников, чел. | Выработка изделий в среднем на работника, шт. |
2-5 5-8 8-11 | 4 5 2 | 7,0 8,4 11,0 |
Итого | 11 |
|
Опираясь на данные представленной таблицы и на исходные данные примера 2.2. определить коэффициент детерминации и эмпирическое корреляционное отношение.
Решение
Вычислим межгрупповую дисперсию по формуле (16)
.
Расчеты произведем в таблице
Стаж, лет | Число работников, чел. | Средняя выработка |
|
2-5 5-8 8-11 | 4 5 2 | 7,0 8,4 11,0 | (7-8,364)2∙4=7,442 (8,4-8,364)2∙5=0,006 (11-8,364)2∙2=13,897 |
Итого | 11 |
| 21,345 |
Теперь вычислим общую дисперсию выработки изделий на основе индивидуальных данных примера 2.2 по формуле (13)
Для этого вначале возведем данные выработки в квадрат.
Выработка изделий, шт. |
|
1 | 2 |
10 7 | 100 49 |
7 6 9 8 12 9 8 7 9 | 49 36 81 64 144 81 64 49 81 |
Итого | 798 |
Тогда или 74,9%
=0,865
Величина коэффициента детерминации говорит о том, что вариация выработки изделий на 74,9% зависит от вариации производственного стажа работников и на 25,1% от прочих признаков.
Величина эмпирического корреляционного отношения (0,865) свидетельствует о тесной взаимосвязи между стажем работников и их выработкой.
6. Дисперсия альтернативного признака
Частный случай атрибутивного (неколичественного) признака – признак альтернативный. Когда единицы совокупности либо имеют данный изучаемый признак, либо не имеют его. Примером таких признаков является: наличие бракованной продукции, ученая степень у преподавателей вуза, работа по полученной специальности, превышение среднедушевых денежных доходов их общероссийского уровня, наличие детей в семье и т.д.
В случае наличия альтернативного признака единице совокупности присваивается значение «1». В случае отсутствия – «0».
Весами в расчетах служат:
- доля единиц обладающих данным признаком;
- доля единиц, не обладающих данным признаком
Тогда средняя величина альтернативного признака равна:
дисперсия примет вид:
Дисперсия альтернативного признака изменяется в пределах от 0 до 0,25. Максимального значения 0,25 достигает при 0,5
Пример 4.11. При выборочном опросе 300 жителей Курска 60 из них высказались положительно по поводу хранения личных денежных сбережений в коммерческих банках города
Определить средний уровень, дисперсию и среднее квадратическое отклонение признака
Решение
Практическое применение вариации альтернативного признака в основном состоит в построении доверительных интервалов при проведении выборочного наблюдения.
7. Изучение формы распределения признака. Основные характеристики закономерностей распределения
Непременным условием успешности построений, исчислений и выводов на основе вариационных рядов является однородность обобщаемых в них совокупностей, устанавливаемая на базе глубокого теоретического анализа.
Четко выраженный порядок изменения частот в соответствии с изменением величины признака называют закономерностью распределения.
Знание типа закономерности распределения, (а следовательно, и формы кривой) необходимо прежде всего:
1. Для выяснения типичности условий получения первичного статистического материала. Так, появление многовершинной или существенно асимметричной кривой говорит о разнотипном составе совокупности и о необходимости перегруппировки данных с целью выявления более однородных групп.
2. Для обеспечения правильности выполнения практических расчетов и прогнозов. Так, применение формулы Г. Стерджесса для расчета оптимального числа групп интервального ряда, правила «трех сигм», коэффициента вариации Vσ в качестве индикатора однородности совокупности, метода наименьших квадратов при моделировании корреляционной связи явлений, методов дисперсионного анализа и других правомочно лишь в условиях нормального и близких к нему распределений.
Закономерности вариационных рядов, выражающие в типе распределения их частот, наглядно выступают на графиках – гистограмме и полигоне распределения частот. Их рассмотрение показывает, что в гистограмме наблюдается большая скачкообразность распределения, а в полигоне обнаруживается постепенность перехода от одной группы к другой. Ломаная линия полигона частично сглаживает скачкообразность гистограммы, является более обобщенным приемом анализа распределения.
При увеличении строк интервального вариационного ряда и соответственном уменьшении величины его интервалов число сторон полигона распределения будет расти и ломаной линии будет присуща тенденция превратиться в пределе в некую кривую. Такая кривая называется кривой распределения. В ней происходит наибольшее освобождение данных от влияния случайных факторов. Она выявляет и показывает в максимально обобщенном виде характер вариации, закономерность распределения частот внутри однокачественной совокупности явлений.
Кривые распределения могут быть разных типов. В практике социально-экономических исследований широко применяется кривая нормального распределения. Она представляет собой одновершинную симметричную колоколообразную фигуру, правая и левая ветви которой равномерно и симметрично убывают, асимптотически приближаясь к оси абсцисс.
Отличительной особенностью этой кривой является совпадение в ней средней арифметической, моды и медианы. Если всю площадь между кривой и осью абсцисс принять за 100%, то в пределах заключено 68,3% частот, в пределах
- 95,4%, в пределах
99,7% («правило трех сигм»).
Хотя нормальное, или симметричное, распределение соответствует природе ряда явлений, однако для общественных явлений оно нехарактерно, так как в нем отражаются различия, вызванные внешними воздействиями, присущие не развивающейся, а лишь колеблющейся совокупности единиц. Для социальных явлений характерно развитие, динамизм. Поэтому ряды и кривые распределения частот общественных явлений, как правило, асимметричны, в них частоты возрастают до максимума и убывают от него неравномерно. Именно наличие асимметрии, или скошенности, в рядах однородных совокупностей служит косвенным указанием на то, что исследуемый процесс проходит активную стадию развития.