Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 104
Текст из файла (страница 104)
Рассмотрим методы оптимизации проекционных индексов г (А) на множестве всех проекций М (р, !)) из Гт» в (««. Пусть П (д) обозначает совокупность всех положительно определенных симметричных (д х д)-матриц. Ставя в соответствие паре матриц (М, А), где М с П ()), а А с МО (р, д), матрицу В == МА, получаем взаимнооднозначное соответствие между множеством всех таких пар П(д)хМО(р, д)=((М, А), МЕ П(д), АЕ МО(р, д)) 55! и множеством всех проекций М (р, д) из Р' в (г«. Обратное отображение из М (р, д) в П(д)> МО (р, в) ставит в соответствие проекции В пару матриц М = (ВВ')М' и А = = (ВВ')-М' В.
Таким образом, каждому проекционному индексу Р ( В) соответствует функция г (М, А), и задача поиска выразительной проекции В" сводится к оптимизации этой функции на П (д) х МО (р, д). Пусть С вЂ” некоторая ортогональная (д х д)-матрица. Тогда если проекции В соответствует пара (М. А), то, как легко видеть, проекции СВ соответствует пара (СМС', СА). Следовательно, задача поиска выразительной проекции для 0-инвариантного проекционного индекса г" (В) сводится к задаче оптимизации функции Р (М, А) на следующем множестве классов эквивалентности пар (М, А): Пб (р, я) = ((М, А) '- М Е П (д), А Е М 0 (р, д): : (М„А ) (М„Ат), тогда и только тогда, когда М, = СМ С', А, = САз для некоторой ортогональной матрицы С).
Считая координатами симметрической матрицы М ее матричные коэффициенты т,, 1< з < г < д, можно отождествить множество П (д) с соответствующим подмножеством ч(ч~-1) в — - мерном евклидовом пространстве )с 2 Условие положительной определенности матриц показывает, что это подмножество является открытой выпуклой областью чМЧО в Я ' . Следовательно, для вычисления градиента функции Р (МА) поМ можно использовать обычные правила дифференцирования по матричным коэффициентам т, матрицы М.
Вычисление градиента Р (МА) по А проводится по описанному выше правилу (см. формулу (20.33)). ВЫВОДЫ 1. Описаны теоретические результаты, лежащие в основе анализа р-мерных случайных величин в терминах их д-мерных проекций, 1 <д = р. 2. Исследован класс радиальных распределений. Каждое из этих распределений полностью восстанавливается по единственной одномерной проекции, поэтому смеси их дают запас многомерных модельных законов, достаточный для решения большинства практических задач восстановления плотности распределения по конечному набору проекций 3.
Выделены два важных параметрических семейства радиальных законов К„(Х; О, о'1„), а ) О и 1„„(Х; О, о'! „), а ) р 1- 1, где Х Е Йг и о' — дисперсия. Кансдая д-мерная ортогональная проекция из 1сг в Ят переводит Й„„(Х: О, о'1„) в м „., (Х; О, от1ч), а 1„,„(Х; О, а'!р) в 2 1я „( ч) (Х; О, оЧ ), поэтому, задав модель восстанав. ливаемого закона распределения в виде смесей этих законов, получаем, что каждая его проекция имеет ту же модель со сдвигом параметров. Большую роль играет и то, что имеется естественный механизм формирования р-мерных векторов с плотностями Йр а н 1», а. 4.
Для каждого а ) 0 построен функционал Ь*, (Ц на множестве всех плотностей р-мерных случайных векторов $ с иевырожденной ковариационнои матрицей, достигающий максимальное значение на плотности )з'р, (Х; О, о»1»)„ При а — ~ оо функционал и; ® переходит в классический энтропийный функционал. 5. Показано, как поиск выразительных проекций из )с» в )с» для данного закона распределения (данной выборки) сводится к решению оптими.ационных задач на соответствующих подмногообразиях многообразия всех проекций из Й» и )св, и описаны алгоритмы решения этих задач.
Глава 21. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ЗАДАЧ СОКРАЩЕНИЯ РАЗМЕРНОСТИ И КЛАССИФИКАЦИИ Задачи сокращения размерности и классификации часто возникают при обработке данных в различных областях науки и техники. К настоящему времени разработано и продолжает развиваться обширное программное обеспечение (ПО) для решения этих задач.
Подробный обзор программных средств для решения подобных задач, а также для обеспечения других разделов статистического анализа приведен в 1143), где рассмотрено значительное число программных продуктов, разработанных у нас в стране и за рубежом. Сведения о программных средствах, полезных в данном разделе статистическш.о анализа, имеются в 1121.
Почти все описанные там пакеты и системы статистической обработки данных имеют в своем составе процедуры для сокращения размерностей н классификации. (См, также (66, 75, 89, 95, 120, 203, 204, 249, 256).) В настоящей главе основное внимание уделено программному обеспечению для персопалы1ых ЭВМ (при этом рассматривается программное обеспечение не только для задач сокращения размерностей и классификации, пои для других разделов статистического анализа), а также развитию экспертных систем в статистике. Рассматриваются также программные средства, предназначенные для таких сравнительно новых подходов в статистическом анализе, как визуализация многомерных данных, разведочный анализ.
Программное обеспечение прикладного статистического анализа для ПЭВМ 2!.1. Таблица 21Д Мвксимвльв ое число Твердый диск рлм (кб) сопро- цессор Версии пвкеч пере- объмеввык~ екеов 200) В 256 1 — 1 АВС 6401+1 — 3) + ) 300) О ВМ)ЗР!РС (Ьавь) 640 )+! — 20~ + ) 300 ! Р ВМ)ЗР,'РС (Ы!) ~ РС 4.2 ) 196 ) — 0.7 ) 0 ! 250 ~ 32К РС-15Р 1 — ) 640 ! ' 0.7 ~ 0 ) 200 ) 250 К ! 8 21 ~ 640 1 +2 — 4 ) + ~ 150 В Р-5ТАТ 5Р557РС-1-(Ьав!и) ) РС+ ) 384 ! 51 — 3 1 0 ) 200 ! 71 5Р55/РС+((и!!) ) РС+ ) 450 -1-2 — 6 ) 0 ) 200 ) 0 256 ~ — 0 3 ) 0 ) ИЛМ) 250К 5ТЛТЛ (Ъаца) ) 1.3 256 ) — ОА ! 0 ) ЙЛМ! 250К 5ТАТЛ (1ин) ) 1.3 384 ) -1-! ) 0 ВАМ ! 650К 5ТАТСеНАРН1СВ 11.2, 2.0 256~+1 — 2~ 0 200~ В 2.2 5У5ТАТ 554 Рассмотрим статистическое ПО в основном для ПЭВМ типа 1ВМ РС и совместимых с ними. В настоящее время статистическое ПО ПЭВМ является весьма развитым. Обзор его по состоянию на 1985 г.
приведен в [3091. Здесь же ограничимся рассмотрением сравнительно небольшого списка программных средств, которые, судя по литературным источникам [255) н некоторому нашему личному опыту, представляются наиболее интересными. Данные по ПО сосредоточены в нескольких таблицах, которые представляют характеристики ПО по следующим позициям Использование ресурсов. В табл. 21.1 представлены характеристики рассматриваемых пакетов. Следует учесть, что разные версии одного и того же пакетамогуттак же сильно отличаться друг от друга, как н разные пакеты. В графе КАМ (гапбо!и ассезз шешогу) приведен минимальный объем внутренней памяти, необходимый для работы пакета. В графе «Твердый диска приводятся две цифры: первая — ми- нимальная память на диске (Мб), необходимая для работы пакета, и вторая — максимальная, запрашиваемая для рабаты только некоторых программ. Знак <+» означает необходимость диска, «» — желательность его, « — » — ненужность.
В графе «Сопроцессор» знак « т » указывает на необходимость сопроцессора !п1е) 8087 для работы пакета, «О»вЂ” его использование носит опциональный характер. Заметим, что использование сопроцессора повышает скорость обработки в среднем в 3 раза. В графе <Максимальное число объектов» буква В означает, что объектов может быть столько, сколько их размещается на диске, число килобайт (К) указывает, что объектов может быть столько, сколько поместится в области памяти такого объема (при заданном числе переменных). Здесь рассматриваются две версии пакета ВМПР— базисная (Ьа»В) и полная ((ц!!), две версии пакета ЯК881РС + (Ьаз(з и (ц!1) и две версии пакета ШТАТА (Ьаз(з и (ц(1). Базисная версия ВМТ)Р содержит 6 программ, а полная — 28 программ. Базисная версия БРВБ(РС 1- не включает некоторые программы по многомерному анализу данных и имеет существенно сокращенные возможности графического анализа данных.
Базисная версия БТАТА, в отличие от полной, не содержит графических средств анализа. Управление пакетом и данными. Некоторые сведения„ связанные с этими характеристиками, приведены в табл. 21.2. В графе «Способ управления» ука<ано, каким образом осуществляется управление пакетом — с помощью системы меню или команд.
С одной стороны, использование меню проще для пользователя-неспециалиста, с другой— развитая система команд позволяет создавать подготовленному пользователю сложные схемы обработки, В графе «Импарт/экспорт» пакеты оцениваются по их возможности взаимодействовать по данным с другими широко используемыми ПО для ПЭВМ вЂ” интегрированными пакетами, «эргееб эЬее!» (типа (.о1пэ 1 — 2 — 3), базами данных (дВаэе 1ИП и т. д.). Здесь, как и в других графах этой таблицы, «+», означает хорошо развитый и легко доступный для пользователя обмен, «» — удовлетворительный уровень, < — » — возможность имеется, но реализация достаточно трудна.