Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика, страница 5
Описание файла
DJVU-файл из архива "Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 5 - страница
е факторов-детерминантов), рассматриваем их в «пространстве состояния» П (Х), т. е. в пространстве, координатами которого служат основные показатели жизнедеятельности семей. Фиксируя же в качестве координат тех же самых объектов значения показателей У' их потребительского поведения, рассматриваем их в чпространстве поведения» П (1'). Очевидно, при надлежащем выборе метрики в пространствах П (Х) и П (У) геометрическая близость двух точек в П (Х) будет означать сходство условий жизнедеятельности соответствующих двух семей, так же как и геометрическая близость точек в П (У) будет означать сходство их потребительского поведения. Среди методов первичной статистической обработки анализируемых данных, обычно используемых на этой стадии исследования (см., например, (!2, гл.
1Π— 11)), широко распространенными и весьма полезными являются методы изучения различных одно-, двух- и трехмерных эмпирических распределе- ний, которые сводятся к построению и различным представлениям (графическим, табличным) упомянутых выше комбинационных группировок. Пример табличного представления одной из таких двумерных комбинационных группировок приведен в табл. В.2.
Таблица Бй Эта комбинационная группировка построена на основе статистического обследования 400 семей по двум признакам из пространства П (Х): по ха) (руб.) — величине среднедушевого семейного дохода (с тремя градациями: «низкий>, «средний» и «высокий>), и по хнч — качеству жилищных условий (с четырьмя градациями: «низкое», «удовлетворительное», «хорошее» н «очень хорошее»). Каждая клетка таблицы соответствует классу, полученному в результате проведенной комбинационной группировки; внутри клетки обозначеночисло семей, имеющих данное сочетание градаций анализируемых признаков (подобные таблицы называют также «таблицами сопряженности», см., например, 112, и. 10.3.5), а также (11, 3.1)).
Лля более полного представления результатов подобной классификации можно было бы ввести в программу компьютера требование выпечатывать номера семей, попавших в каждую из двадцати клеточек таблицы. Заметим, что непрерывным аналогом «омбинационной группировки является обычный переход от исходных наблюдений непрерывной случайной величины к «труппированным» выборочным данным 1!2, и. 5.4.2).
Результат такого перехода представляется либо в виде таблицы, подобной табл. В.2, либо в виде графика (гистограммы). 2. Выявление основных типов потребления спомои1ью разбиения исследуемого множества точек-семей на классы в «пространстве поведения» П(У) Гипотеза существова- ния «естественных», объективно обусловленных типов поведения, т. е. какого-то небольшого количества классов семей, таких, что семьи одного класса характеризуются сравнительно сходным, однотипным потребительским поведением, геометрически означает распадение исследуемой в «пространстве поведения» совокупности точек-семей на соответствующее число «сгустков» или «скоплений» точек. Выявив с помощью подходящих методов многомерного статистического анализа (кластер-анализа, таксономин) эти классы-сгусткн, тем самым определим основные типы потребительского поведения. Попутно в качестве «побочного результата» решения главной задачи этого этапа конструктивно реализуется метод построения целевых функций предпочтения, являющийся развитием и некоторой модификацией метода, предложенного в (471.
По существу, при этом решается одна и та же задача регрессионного анализа (111, но функция регрессии строится отдельно только по однородным данным, попавщим в один какой-то класс. 3. Отбор наиболее информ тивных типообразующих признаков (факторов-детерминантов) и выбор метрики в пространстве типообразующих признаков. Очевидно, неправомерно рассчитывать на то, что диапазоны возможных значений каждого из кандидатов в типообразующие признаки окажутся непересекающимися для семей с разным типом потребительского поведения.
Другими словами, значения каждого нз признаков х<п в отдельности и их набора в совокупности подвержены некоторому неконтролируемому разбросу при анализе семей внутри каждого из типов потребления. Естественно считать наиболее информативными те факторы-детерминанты или те нх наборы, разница в законах распределения которых оказывается наибольшей при переходе от одного класса потребительского поведения к другому. Эта идея и положена в основу метода отбора наиболее информативных (типообразующих) признаков-детерминантов. Наконец, отобрав небольшое число наиболее информативных признаков-детермннантов, мы можем попытаться снова разбить исследуемую совокупность семей на классы-сгустки, но уже в пространстве выявленных тнпообразующих признаков.
При этом результат разбиения будет существенно зависеть не только от состава группы наиболее информативных типообразующих признаков, но и от способа вычисления расстояния между двумя точками- семьями в этом пространстве и, в частности, от того, с какими весами участвуют в этом расстоянии отобранные типообразующие признаки. Поэтому веса подбираются таким образом, чтобы результат разбиения семей на классы в про- странстве наиболее информативных факторов-детерминантов в некотором смысле наименее отличался бы от разбиения тех же точек-семей, которое было получено в «пространстве поведения».
Таким образом, добиваемся наибольшего совпадения, наибольшеи связности в результатах классификации одного и того же множества семей в двух разных признаковых пространствах — «пространстве поведения» П (Г) и пространстве типообразующих признаков П(Х).
4. Анализ динамики, структуры исследуемой совокупности семей в пространстве наиболее информативных типо- образующих признаков. Конечной целью этого этапа является прогноз тех постепенных преобразований классификационной структуры совокупности потребителей (семей, рассматриваемых в пространстве типообразующих признаков), которые должны произойти с течением времени. Реализация этапа может быть осуществлена с использованием результатов и подходов, описанных в [501, а также с помощью привлечения математического аппарата марковских цепей (аналогично тому, как используется этот аппарат при анализе динамики структуры трудовых ресурсов; см., например, [1?1) и многомерных временных рядов [146).
При этом, конечно, должны быть учтены существующие методы прогноза социально-демографической структуры населения [311, [1451. 5. Прогноз структуры потребления. На этом этапе исследования опираемся на результаты, полученные в итоге проведения предыдущего этапа, т. е. исходим из заданной классификационной структуры потребителей в интересующий нас период времени в будущем. Восстанавливая классификационную структуру потребления (классификационную структуру совокупности семей в пространстве признаков П (1'), характеризующих потребительское поведение семьи) по классификационной структуре потребителей (по классификационной структуре той же совокупности, но в пространстве типообразующих признаков), будем относить каждую конкретную семью к тому типу потребления, для которого значения характеризующих ее типообразующих признаков являются, грубо говоря, наиболее типичными.
П р и м е р В. 2. Классификация как необходимый предварительный этап статистической обработки многомерных данных [91. Пусть исследуется зависимость интенсивности миграции населения хнв (профессиональной или территориальной) от ряда социально-экономических и географических факторов х<п, х<'), ..., хс» — '~, таких, как средний заработок, обеспеченность жилой площадью, детскими учреждениями, уровень образования, возможности профессиональ- 24 ного роста, климатические условия и т. п.
Естественно пред- доложить (и результаты исследования это подтверждают), что для различных однородных групп индивидуумов одни и те же факторы влияют на х<е> в разной степени, а иногда и в противоположных направлениях. Поэтому до применения аппарата регрессионно-корреляционного анализа следует разбить все имеющиеся в нашем распоряжении данные Х'; =- = (х';", х<*', ..., хге>) (<'==1,2, ..., и) на однородные классы и решать далее поставленную задачу отдельно для каждого к<оного класса. Только в этом случае можно ожидать, что полученные коэффициенты регрессии х<е> по х<'>, х<'>, ..., ..., хо" > будут допускать содержательную интерпретацию, а мера ~сенаты связи между х<е> и (х<'>, х<'>, ..., х'>' — '>) окажется достаточно высокой.
Подобные задачи 'можно найти в !130, с. 77). Другой вариант такого рода примера получим, если в качестве объектов исследования рассмотрим предпрнятияопределенной отрасли, а в качестве вектора наблюдений Х<— совокупность объективных (нерегулируемых) условий работы <чго обследованного предприятия (сырье, энергия, оснащенность техникой и рабочей силой и т. п.). Классификация предприятий по Х производится как необходимый предварительный этап для возможности последующей объективной оценки работы коллективов и разработки обоснованных дифференцированных нормативов: очевидно, лишь к предприятиям, попавшим в один класс по Х, может быть применена одинаковая система нормативов и стимулирующих показателей (см.