142326 (726539), страница 2
Текст из файла (страница 2)
Анализ и интерпретация
В задачи работы входит построение кластерной модели социально-экономического положения по регионам РФ. Требуется выделить группы регионов, имеющих схожую, однородную социально-экономическою обстановку. Таким образом, исходными данными должна являться статистика показателей социально-экономического положения на региональном уровне (по всем регионам РФ).
Описательная статистика. Для начала работы стоит провести разведочный анализ с целью определения перспектив кластеризации. Прибегнем к возможностям SPSS и получим описательные статистики показателей социально-экономического положения.
Таблица 3 «Описательная статистика показателей »
|
| Количество | Минимум | Максимум | Среднее | Стандартное отклонение |
| Gini | 70 | ,314 | ,578 | ,36346 | ,036434 |
| Fond | 70 | 7,8 | 44,0 | 11,430 | 4,4475 |
| Sdohod | 70 | 105,1 | 674,0 | 231,597 | 73,1439 |
| Szarplata | 70 | 168,1 | 309,4 | 234,240 | 36,9582 |
| Spensii | 70 | 80,7 | 132,6 | 111,811 | 13,0245 |
| ChislMin | 70 | 13,5 | 73,0 | 26,624 | 10,0924 |
Наиболее важным показателем для нас является стандартное отклонение. Чем выше стандартное отклонение величины (чем больше ее изменчивость), тем больше эта переменная будет оказывать влияние на результаты кластеризации. Мы видим, например что переменные Sdohod или Szarplata имеют наибольшее стандартное отклонение и возможно разделение регионов на группы именно по этим признакам. Практически большее стандартное отклонение означает, что между регионами существует большая дифференциация по данным показателям: в какой-то части регионов показатели малы, а в какой-то части регионов наоборот велики. Таким образом, справедливо ожидать, что показатели с большей «дифференцирующей способностью» (большей дисперсией) окажут большее влияние на результат кластеризации [4, 5]
Видно, что, как и для многих экономических показателей, чем меньше среднее показателя, тем меньше стандартное отклонение этого показателя. Связано это с невозможностью переменных принимать отрицательные значения. Это значит, что наибольшее влияние на результаты кластеризации окажут переменные с большей средней величиной.
Так же большое подспорье в оценке перспектив кластеризации окажут гистограммы абсолютных или стандартизированных значений по тем переменным по которым она проводиться. Далее мы будем рассматривать только стандартизированные значения, в связи с тем, что стандартные отклонения слишком различны. Стандартизация показателей проводилась с помощью меню SPSS Analyze – Descriptive Statistics – Descriptives с установкой флажка стандартизации. Изучим гистограммы наших показателей.
При анализе гистограммы Коэффициента Джини мы видим, что все регионы отчетливо делятся на две группы. Причем одна из этих групп крайне велика и туда входит большая часть всех регионов РФ.
Анализ гистограмм для коэффициента фондов, численности населения с доходами, ниже ПМ и соотношения денежных доходов с ПМ выявил аналогичные распределение регионов как и для коэффициента Джини.
А вот анализ гистограмм Szarplata и Spensii не выявил очевидного деления на какие-либо группы регионов.
Стоит также рассмотреть и корреляции всех показателей.
Таблица 4 «Матрица корреляций показателей »
| Gini | Fond | Sdohod | Szarplata | Spensii | ChislMin | |
| Gini | 1 | ,953(**) | ,872(**) | ,455(**) | -,225 | -,384(**) |
| Fond | ,953(**) | 1 | ,881(**) | ,370(**) | -,257(*) | -,301(*) |
| Sdohod | ,872(**) | ,881(**) | 1 | ,599(**) | -,046 | -,658(**) |
| Szarplata | ,455(**) | ,370(**) | ,599(**) | 1 | -,069 | -,668(**) |
| Spensii | -,225 | -,257(*) | -,046 | -,069 | 1 | -,250(*) |
| ChislMin | -,384(**) | -,301(*) | -,658(**) | -,668(**) | -,250(*) | 1 |
Как следует из справочной информации по пакету SPSS, звёздочками отмечены значимые корреляции, то есть, те, на которые имеет смысл обращать внимание. Исследовав таблицу корреляций мы можем заметить, что Коэффициент фондов и Коэффициент Джини дают нам крайне близкую информацию (корреляция 0,953) что в свою очередь позволяет нам вместо обоих показателей воспользоваться одним. В данной ситуации более предпочтительным для работы является коэффициент фондов так как он в свою очередь обладает большим относительным разбросом. Об этом нам может сказать коэффициент вариации (отношение стандартного отклонения переменной к среднему значению этой переменной). У коэффициента Джини он составляет порядка 0,1 а у коэффициентов фондов около 0,389 (в таблицах не показано).
Иерархическая кластеризация. После изучения полученного результата описательной статистики показателей социально-экономического положения было установлено, что ряд переменных не стоят нашего внимания, а именно – коэффициент Джини.
Было решено провести серию пробных разбиений наблюдений на 2, 3 и так далее кластеров, чтобы установить переменные либо данные, которые играют малозаметную роль в разбиении регионов на кластеры. При этом воспользуемся методом k-средних.
При первом же разбиении на 2 кластера, мы можем судить о том, что город Москва явно превзошел все остальные регионы по уровню социально-экономического развития. И при любом количестве кластеров Москва всегда будет отделяться в отдельный кластер. Поэтому целесообразнее всего будет исключить Москву из рассмотрения в работе, ибо дальнейшее ее рассмотрение не поможет нам объективно взглянуть на общую социально-экономическую обстановку в целом по России. То есть далее мы будем рассматривать только 69 регионов.
Кластерный анализ с разбиением на 3 кластера создал у нас две достаточно большие группы: 24 и 38 регионов и одну маленькую (7 регионов). В самую малочисленную группу попали самые худшие по показателям регионы с достаточно малыми доходами, зарплатами и большой прослойкой населения, доходы которых явно меньше прожиточного минимума. Такие регионы как Ингушетия, Калмыкия, республика Тыва. В основном это регионы с крайне низким уровнем жизни и не развитой экономикой.
Две другие группы оказались более подкованными в этом плане. Во вторую группу попали такие регионы как Тамбовская, Тульская области республика Саха. Лучший результат же показали регионы первого кластера. Самые доходные и социально обеспеченные. Такие как Московская область, Мурманская и Вологодская области.
Далее приводится дендрограмма (график объединения) для иерархического кластерного анализа с оставшимися переменными. Из нее будет видно на каких расстояниях объекты объединяются в кластеры, из этого можно будет сделать вывод на сколько кластеров разбить всю совокупность.
Красной линией на дендрограмме мы отметили один из вариантов кластерного решения, который предусматривает разбиение на 6 кластеров. Это решение даёт следующие центры кластеров:
Таблица 6 «Кластерные центры по итогам иерархического анализа »
| Кластер | 1 | 2 | 3 | 4 | 5 | 6 |
| zFond | ,18 | -,32 | -,15 | -,03 | 1,06 | -,70 |
| zSdohod | ,58 | -,25 | -,89 | ,01 | 1,37 | -1,73 |
| zSzarplata | 1,18 | -,35 | -1,23 | ,68 | 1,14 | -1,29 |
| zSpensii. | ,86 | ,36 | -,53 | -1,83 | -,55 | -1,41 |
| zChislMin | -,80 | -,07 | 1,54 | -,21 | -,99 | 4,60 |
Кластеризация методом k-средних. Повторим разбиение на 6 групп с помощью метода k-средних. Таблица 7 показывает, как распределились в итоге регионы по кластерам. Последняя графа показывает расстояние от региона до центра его кластера, то есть, как бы говорит, далеко ли регион находится от типичного для данного кластера региона.












