142326 (726539), страница 4
Текст из файла (страница 4)
Таблица 11 «Значимость переменных при разбиении на 6 кластеров»
| Sig. | |
| zFond | ,000 |
| zSdohod | ,000 |
| zSzarplata | ,000 |
| zSpensii | ,000 |
| zChislMin | ,000 |
Из таблицы дисперсионного анализа можно проанализировать результаты кластеризации, оценив значимость всех переменных. Значимость всех переменных получилась удовлетворительной по уровню 0.05, это говорит о том, что все переменные оказывают достаточно сильное влияние на результаты кластеризации.
Вероятнее всего, явных кластеров в пространстве наших переменных не существует. Учитывая, что многие из исходных переменных имели распределение, близкое к нормальному, скорее всего, рабочая модель распределения регионов в социально-экономическом пространстве выглядит как общероссийский центр с основной массой регионов с характеристиками, близкими к среднероссийскому уровню и небольшое количество «периферийных» регионов, чья структура в силу особенностей конкретного региона заметно отличается от среднероссийской.
Это значит, что можно предложить другие, равнозначные варианты группировки. Разделить на другое количество кластеров, использовать другие показатели или их комбинации и т.д.
Выводы
В результате проделанной работы удалось обобщить и проанализировать исходные данные по социально-экономическому положению регионов РФ по состоянию на конец 2004 года. Был выбран метод проведения исследования и построения статистической модели. На основе иерархического кластерного анализа были сделаны предварительные выводы о возможном разбиении на кластеры. Окончательная кластеризация проведена с помощью метода k-средних.
В полученной 6-кластерной модели обнаружены значительные различия в социальном и экономическом развитии регионов, попавших в разные кластеры. Особенности каждого кластера были рассмотрены, также были предложены возможные причины данных особенностей. Был получен один большой кластер, отражающий характерное в среднем положение регионов по России, а также 5 более мелких, менее характерных для России кластера.
В работе удалось обнаружить, что большинство регионов находится в положении близком к среднему по всей России, и лишь небольшая часть регионов сильно отличается от средних показателей. В основном это было заметно на бедных регионах Кавказа и богатых регионов центральной части РФ. Примером может послужить Москва постоянно отделявшаяся в обособленный кластер.
Тем не менее, полученная группировка регионов может быть использована в дальнейшем. Ее можно верифицировать на более поздних данных. Если изменений мало, значит полученная классификация хотя и являлась одной из многих возможных, но всё-таки не случайна.
В работе использовались данные Росстата за 2004 год, которые к настоящему моменту уже несколько устарели. На веб-сайте Госкомстата [3] уже имеются данные о начисленных пенсиях, зарплатах и прожиточном минимуме даже за 2006 год, однако не все исследованы показатели даны в разрезе по регионам (например, индекс Джини или коэффициент фондов даны только в целом по России). Но если запастись свежим статистическим сборником (имеется аналогичный сборник 2006 года), например, то можно построить аналогичную модель по новым данным и сравнить. Возможно, ситуация осталась такой же, возможно появились какие-то изменения, и тогда можно будет поставить вопрос о причине переходов регионов из одного кластера в другой, о смене типологий.
Список использованных источников
-
Социальное положение и уровень жизни населения России. 2005: Стат. сб. / Росстат. -М., 2005
-
Беляева, Л.А. Материальное неравенство в России. Реальность и тенденции // Социологические исследования, 2007, №11.
-
Федеральная служба государственной статистики, http//www.gks.ru
-
Бююль, А., Цёфель, П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. – Диасофт, 2005
-
Решение задач в программе SPSS, http://www.spsstools.ru
-
SPSS 13.0. Справочная система.
-
Гайдышев, И. Анализ и обработка данных. Специальный справочник – С.-Пб., 2001
-
Кластерный анализ в задачах социально-экономического прогнозирования, http://www.ref.by/refs/49/28133/1.html
-
Интернет-университет информационных технологий. 13. Лекция: Методы кластерного анализа. Иерархические методы, http://www.intuit.ru/department/database/datamining/13/datamining_13.html
-
Кунец Н.Л. Кластерный анализ в портфельном инвестировании. Курсовая работа. http://www.5ballov.ru/referats/preview/71794/1
Приложение. Порядок выполнения анализа в SPSS
-
Перенесём табличную информацию (исходные данные) из статистического сборника в файл Excel, подписав вверху названия переменных (Gini, Fond и т.д., чтобы затем их SPSS прочёл как переменные);
-
Загрузим SPSS и импортируем туда сохранённые данные из Excel (File – Open – Data, указать тип .xls);
-
При необходимости можно подписать метки переменных;
-
Получим описательную статистику показателей (Analyze – Descriptive Statistics – Descriptives);
-
Удалим из файла данных те регионы, где отсутствует полная информация по всем показателям (осталось 70);
-
Стандартизируем показатели (повторим Analyze – Descriptive Statistics – Descriptives с флажком Save standardized values as variables;
-
Построим гистограммы показателей (Graph – Histogram);
-
Найдём корреляции показателей (Analyze – Correlate – Bivariate);
-
Удалим из файла данных Москву;
-
Проведём пробный иерархический анализ (Analyze – Classify – Hierarchical Cluster);
-
Найдём координаты кластерных центров для сохранённого решения с 6 кластерами (Analyze – Compare Means – Means);
-
Проведём кластеризацию на 6 кластеров с методом k-средних (Analyze – Classify – K-Means Cluster).












