Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика, страница 4
Описание файла
DJVU-файл из архива "Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 4 - страница
Цель исследований такого типа — использование имеющегося «обучения» для отбора из множества результатов обследований небольшого числа наиболее информативных (с точки зрения диагностической силы) показателей и для построения на их основе формального диагностирующего правила (см., например, (115)). Однако в задачах социально-экономического профиля ис- следователь, как правило, располагает в качестве исходных ) данных лишь «входной» информацией (второй столбец табл.
В.1) и в лучшем случае отдельными элементами «обучения«с " например, известно, что определенная группа (из числа статистически обследованных) объектов относится к одному и тому же классу, но какие есть другие классы и как между ) ними распределены остальные статистически обследованные ) объекты, неизвестно. Сущность обсуждаемого принципа как раз и состоит в том, что даже такая урезанная и обедненная обучающая информация оказывается весьма полезной в решении узловых задач «настройки» используемых математических моделей, как, например, выбор метрики в исследуемом признаковом пространстве, оценка общего числа классов, выбор критерия качества классификации и т. д.
4. Оптимизационная формулировка задач классификации и снижения размерности. Среди множества возможных методов, реализующих поставленную цель статистической обработки данных (разбиение совокупности статистически обследованных объектов на однородные классы, переход от заданного широкого набора признаков х<'),..., х<») к небольшому числу определяющих факторов), нужно уметь найти наилучший метод с помощью оптимизации некоторого экзогенно заданного критерия (фуц ) ачества метода.
Выбор конкретного вида этогц кр ован либо на апРиорном знании вероят)нйтной )еской природы к обрабатываемых данных, либо на соображениях содержательного (экономического, медицинского, технического н т. п.) плана. В сочетании с некоторыми другими (более специфицированными) базовыми идеями ' этот подход дает возможность построить достаточно общую математическую конструкцию, в рамках которой удается «навести порядок» в огромном множестве существующих алгоритмов классификации и снижения размерности, подчас стихийно (и эвристически) возникающих из нужд разнообразных приложений.
Типовые задачи практики и конечные прикладные цели исследований, использующих методы классификации и снижения размерности До разработки аппарата многомерного статистического анализа и, главное, до появления и развития достаточно мощной электронно-вычислительной базы главные проблемы теории и практики классификации и снижения размерности относились не к разработке методов и алгоритмов, а к полноте и тщательности отбора и теоретического анализа изучаемых объектов, характеризующих их признаков, смысла и числа градаций по каждому из этих признаков.
Все методы классификации сводились, по существу, к методу так называемой комбинационной группировки, когда все характеризующие объект признаки носят дискретный характер или сводятся к таковым (пол или мотив миграции индивидуума, уровень жилищных условий или число детей в семье и т.п.), а два объекта относятся к одной группе только при точном совпадении зарегистрированных на них градаций одновременно по всем характеризующим их признакам (одинаковый пол, мотив миграции и т. д.), Методы снижения размерности ограничивались простым агрегированием однотипных признаков (например, переход от фиксации семейных расходов отдельно на молоко, сыр, сметану и т.п.
к общим семейным расходам на молочные продукты) н отбором (на уровне содержательного анализа) некоторой на- т Например, идея расшпрнтельного толкования понятая ядра класса ядром класса может быть точка, труппа точек, ось, поверхность, случайная переменная н т д На этом, в частности, построен весьма общий подход к решенню задач анализа данных, названный авторамн «методом дннамнческнх сгущении» (!06) Эта же идея нскользована нами н прн построении общей теорнн автоматической классификации (гл 1О). !3 нболее информативной части нэ исходного набора признаков.
Однако по мере роста объемов перерабатываемой информации и, в частности, числа классифицируемых объектов и характеризующих их признаков возможность эффективной реализации подобной логики исследования становилась все менее реальной (так, например, число й групп или классов, подсчитываемое при комбинационной группировке по формуле и =- т, т, ... т, гдет, — число градаций попризнаку хо1, а р — общее число анализируемых признаков, уже при т, = 3 и р = 5 оказывается равным 243). Именно электронно-вычислительная техника стала тем главным инструментом, который позволил по-новому подойти к решению этой важной проблемы и, в частности, конструктивно воспользоваться разработанным к этому времени мощным аппаратом многомерного статистического анализа: методами распознавания образов «с учителем» (дискриминантный анализ) и «без учителя» (автоматическая классификация, или кластер-анализ), методами и моделями фактор ного анализа, многомерного шкалирования и т.
д Развитие электронно-вычислительной техники как средства обработки больших массивов данных стимулировало проведение в последние годы широких комплексных исследований сложных социально-экономических, технических, медицинских и других процессов и систем, таких, как образ и уровень жизни населения, совершенствование организационных систем, региональная дифференциация социально-экономического развития, планирование и прогнозирование отраслевых систем, закономерности возникновения сбоев (в технике) или заболеваний (в медицине) и т п. В связи с многоплановостью и сложностью этих объектов и процессов данные о них по необходимости носят многомерный и раэнотипный характер, так как до их анализа обычно бывает неясно, насколько существенно то или иное свойство для конкретной цели.
В этих условиях выходят на первый план проблемы построения группировок и классификации по многомерным данным (т е. проблемы классификации многомернык наблюдений), причем появляется возможность оптимизации этого построения с точки зрения наибольшего соответствия получаемого результата поставленной конечной цели классификации. Цели классификации существенно расширяются, и одновременно содержание самого процесса классификации становится неизмеримо богаче и сложнее.
Оно, в частности, дополняется проблемой построения симой процедуры классиФикации, ранее носившей чисто техническии характер. 19 Лля пояснения сущности основных типов задач классификации и конечных прикладных целей, которые ставит при этом перед собой исследователь, рассмотрим примеры, П р и м е р В.!. Выявление типологии потребительского поведения населения, анализ сущности дифференциации этого поведения, прогноз структуры потребления (154).
В качестве исходной информационной базы используются данные бюджетных обследований семей [105). Поясним логическую схему исследования. Многомерная статистика рассматривает совокупность изучаемых многомерных объектов (В.1) как совокупность точек или векторов в пространстве описывающих нх признаков. Применительно к схеме потребления совокупностью объектов, подлежащих изучению, является множество элементарных потребительских ячеек — семей.
Каждая семья характеризуется, с одной стороны, некоторым набором Х факпгоров-детерминантов (социально-демографические и другие признаки, описывающие условия жизнедеятельности семьи), а с другой — набором 1' параметров поведения («переменных поведения»), в которых отражаются ее фактические потребности. В качестве социально-демографических факторов, имеющих существенное значение для изучения потребительских аспектов социальной жизни, целесообразно использовать, например, общественную и национальную принадлежность, уровень образования и квалификацию, характер труда, демографический тип н возраст семьи, тип населенного пункта и характер жилища, размер и структуру имущества, уровень доходов.
Имеется некоторое сомнение относительно включения последнего показателя (уровень доходов), так как принципиально он может быть выражен через другие социально- демографические характеристики. Величина доходов является пРоизводной от уровня образования, квалификации, характера трудовой деятельности (через заработки работников семьи), половозрастного и численного состава семьи '. Поэтому доход остается в нашей конструкции как один из вспомогательных компонентов, в концентрированном виде выражающий разницу в основных факторах-детерминантах. Различия в потребностях, складывающиеся под влиянием социально-демографических и природно-климатических ' Рассматривая в дифференцированном балансе доходов и потреблении населения структуру погребленни семей только по признаку различий в доходе, мм фактически абстрагируемся от всех других социально-демографических факторов.
20 „повий, являются объективно существующими; они формируют весь строй поведения потребителя в конкретно- исторических условиях, а в конечном счете порождают своеобразные типы потребителей, ориентированные на существенно разное потребление. Весь комплекс социально-демографических и других факторов, существенно воздействующих на структуру потребления, будем называть пгипообразуюи1им.
Они имеют определяющее значение, в то время как все другие дают лишь случайную вариацию в пределах одной группы (типа) потребительского поведения. В качестве признаков поведения )' можно рассматривать три группы параметров: а) уровень и структуру потребления; б) характер (объем и содержание) использования свободного времени; в) интенсивность изменения социального, трудового, демографического статуса (в [154) рассмотрена только первая группа признаков). Итак, в задаче даны числовые характеристики и градации типообразующих и одновременно поведенческих признаков каждой семьи из анализируемой совокупности.
Решение общей проблемы, связанной с выявлением и прогнозом структуры и дифференциации потребностей населения, распадается в соответствии с принятой в (154) логической схемой исследования на следующие этапы. 1. Сбор и первичная спштистическая обработка исходных данных. Исследуемые объекты (семьи) выступают в качестве многомерных наблюдений или'точек в двух многомерных пространствах признаков. Фиксируя в качестве координат этих точек значения (или градации) типообразующих переменных Х (т.