Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 91
Текст из файла (страница 91)
Это визуализация данных и манипуляции с данными на основе графического отображения; использование аппарата активных и иллюстративных переменных; преобразование данных, облегчающее выявление структур, анализ остатков. 18.2. Визуализация данных 18.2.1. Роль визуализации в разведочном анализе данных. Как выше указывалось, основное назначение РАД вЂ” дать компактное и понятное для исследователя описание структуры данных нли структуры зависимости переменных. Визуализация данных, которая предполагает получение тем или иным способом их графического отображения, так что исследователь может просто путем непосредственного визуального анализа этого изображения определить, имеет ли место одна из моделей структуры данных (а, б, в, г), является, по-видимому, наиболее наглядным способом описания.
Графическое отображение (гистограммы, диаграммы рассеивания) может быть получено непосредственно в пространстве исходных переменных. Однако «информативное» графическое отображение многомерных данных получается с помощью методов РАД, нацеленных на выявление перечисленных структур данных и зависимостей (например, главных компонент, анализа соответствий, целенаправленного проецирования и т.д.). В результате применения этих методов получаются образы объектов, переменных и (для неколичественных переменных методом соответствий анализа) категория в виде точек обычно размерности 1 — 3, Выходная размерность данных может быть и больше 3, но дл я графического отображения все равно берутся какие-либо одна, две или три их координаты, обычно при этом первые координаты более информативны и используются для визуального анализа в первую очередь.
Быстро возрастающая роль визуального Я75 анализа многомерных данных стимулирована широким распространением и доступностью технических (вычислительных) средств, обеспечивающих построение визуальных образов. В 60-е и 70-е годы основным и наиболее широко использовавшимся техническим средством для представления графических форм, возникающих в статистическом анализе, служило алфавитно-цифровое печатающее устройство (АЦПУ). Существенно менее доступными были графопостроители и графические дисплеи.
Тем не менее некоторые динамические формы визуального анализа были разработаны уже в начале 70-х годов именно с целью использования возможностей графического дисплея, обслуживаемого достаточно мощной ЭВМ. В качестве такого примера можно привести систему РК(МЕ !230!. Современная графика для статистического анализа обладает всеми свойствами и преимуществами компьютерной графики — построение, обработка и модификация графических форм возможна в интерактивном режиме и за короткое время. 18.2.2.
Диаграммы рассеивания. Рассмотрим вопросы визуализации многомерных данных, связанные с использованием диаграмм рассеивания (ДР), которые являются широко распространенной, простой и эффективной формой визуального представления данных. Некоторые другие формы визуального представления данных (гистограммы, графики оценок плотности и др.) рассмотрены в )223, 11, гл.
10). В гл. 8 книги приведены формы визуализации структур, возникающих в иерархических процедурах кластер-анализа. ДР многомерных данных является визуальной формой представления результатов некоторого отображения исходной матрицы данных в двумерное евклидово пространство. Роль исходной матрицы данных может играть матрица «объект — свойство» или матрица близостей (отношений «объект — объект», «переменная — переменная»).
В качествеотображенных на ДР единиц могут выступать объекты, переменные, категории переменных (если переменные неколичественные). Далее они будут называться отображенньит единицами (ОЕ). Графические же элементы, с помощью которых ОЕ изображаются на ДР, будут называться выразил»ельными злеменпшми (ВЭ). В табл. 18.1 приведены основные методы анализа, порождающие информативные ДР.
Рассмотрим теперь некоторые способы, позволяющие улучшить способность ДР к отображению структурных данных. Маркирование ОЕ. Маркирование достигается, в зависимости от технических возможностей средств графического 476 ээээ ОЗаа. СС3 Э сос С Э 3 ссас со э Он О.
а оса~о а сс с ОЗ - э 3 33 3 Зо ха Оэ э э о сс с а ,ф 3 с сэ Ооой О,ОБ с о О, Зос 3~ о~х ~ ~Ф х ~ о ко О э ВО со 'О а о а с Зэсс с 3 ас ссо.о, а э 33 а. а О а ах х»Д ЗОБО а. ах а а а, 3 а сс эЯ с с с Ы со а ОО с ко о Оа' о с *с сск 3 Я 3 ОЗ с $ со с 3О а.,3 э О3 3 О эа сж 33 с х а с 3 О „Е с„ с Я саа сс эса эа Оа3 о о>, Яа с Ооон с э 3 с с а а3аа э3К э о ~а ааоо,о а.„ а О с ко а а я с' 3" о~со 3 " оэ о~'" о э с 3 асса ааа асаа ксэзк эк н С 3 с 3О ",3 Э а. О.а ОЗсэсээ эаасасс а ссссо ООЭ 3аао.- И~ЗВБИ*'-' ~а'о Са. ~а.'Ос н 3 э с ээ ОЗ ос с а, ос С 3 о и ка Ф '3 э э 3 С Э о оМ а,3 а 3 3- О. О33О сао оооа3, О.С со ха 33э 33а 3 „3 а,э о а 333 э к О ООСЗ-'- скос с а*о со Оса аао>,са 3 С 3 ащсас е соссэс ээ фосс саасссэ с 33.о.
э Я ос хэ а а Э 3 Я аа'О.М а а "о аоо кЗа Жнхэс3ОО 33 О,3 а ох нсх о О. кск а х Зэ а Э 33 С'С Э 3 а ~,О.5 3О3 сс3О дх э 3 3 3 э а х 3 а 3 с '% а О. с о. а с 3 3- ОЭО О О.3- оса эсс а.33 э э с ссэ э а а с „3 С 3 а 3 3 с о с э Рс о н э3 а санса н О. а с с 3 са 3 а Ь с 3" с о э 33 с Ок Оо Ф с со э а 3 с э а О. С эа к о с Н С О ОЙ 3- 3 о 3 с ф „3 О Зззо Зсаэ с Я 3 й аа 3 ос3 оа .к 3 33 Р3 э э а о а к к а й 3 о О, с с а о. 3 3 эхс соЗ э Фас 'О Оо эсЗ э-ОЗ 3 о сс О а э а~ а 3 О. а ссс 3.
3- э о 3 3 Х схс ф Э 3. о асс О СЗОЗ д х э ос с с а с а.са э о э каэк а э~,эЗ 3 3 3 3 О А *с с ° 3 Саа э ас,ф а а. Ос ! ~~ са отображения, путем вариации окраски, формы и величины ВЭ, используемых для представления на ДРотображаемых единиц — объектов, переменных, категорий. Так, обыденной практикой в дискриминантном и кластерном анализе является выделение на ДР, путем маркирования объектов, принадлежащих к разным группам, категорий, принадлежащих к разным переменным в множественном анализе соответствий. Другой пример — маркирование объектов, подозрительных на аномальность, на ДР, используемой в целенаправленном проецировании для выделения аномальных наблюдений (см, пример 19.3).
Маркирование может быть использовано и с целью отображения на двумерной ДР информации о некотором дополнительном третьем измерении (например, о третьей главной компоненте на ДР, соответствукацей двум первым ГК). Для этого, например, объекты изображаются точками, а из этих точек восстанавливается отрезок, параллельный оси Оу (вертикальной оси). Длина этого отрезка пропорциональна значению третьей координаты, а ее направление вверх или вниз соответствует знаку этой координаты.
Если количество ОЕ невелико, то можно маркировать и четвертое измерение с помощью, например, горизонтальных отрезков. Другой возможностью на цветном графическом дисплее является использование окраски и ее интенсивности. Например, красная, оранжевая и желтая окраска для положительных значений третьей координаты (диапазон значений разбивается на три градации — большие, средние, малые) и синий, циан, белый — для отрицательных значений (с аналогичным разбиением диапазона отрицательных значений на три градации). Разумеется, такие ДР могут лишь частично передать информацию о взаимном расположении точек в пространстве более чем двух измерений, и Дж.
Тычки пред- 1 лагает называть эти ДР 2- -мерными [3231. 2 Изменение масштаба. Меняя масштабы ДР по вертикали и горизонтали, тем самым изменяем метрику двумерного изображения — визуально наблюдаемые расстояния и взаимное расположение точек (изменение масштаба соответствует некоторому линейному преобразованию ОЕ в двумерном пространстве). Тем самым можно добиться более выраженного визуального представления тех или иных структур на ДР. Один из простых технических приемов изменения масштабов состоит в следующем. Обычно при построении ДР задаются ее размеры — количество строк (линий) по оси 478 Оу и интервалов по оси Ох.