Главная » Просмотр файлов » Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 63

Файл №1027378 Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика) 63 страницаАйвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378) страница 632017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 63)

ВЫВОДЫ Е Задача оценки качества группировки и ее интерпретации носит комплексный характер и основывается на использовании совокупности большого числа характеристик, отра- 330 жающих компактность групп, их взаимное расположение и распределение объектов в группах. Весьма важным, если не основным, является использование содержательных сообран~ений. 2. В качестве средств, позволяющих оценить качество полученной группировки, полезными являются критериальные величины, характеристики компактности классов, визуальный анализ отображений на плоскости, образованные главными компонентами и факторными осями, осями, получаемыми в анализе соответствий, и особенно каноническими дискриминантными направлениями.

3. Процедуры классификации целесообразно проводить несколько раз, меняя метрики, число классов и другие пара. метры настройки. 4, Основной подход к интерпретации полученных групп основан на использовании статистических характеристик внутригрупповых распределений. Полезным приемом является использование дискриминантного анализа и иллюстративных переменных. Раздел 111.

СНИЖЕНИЕ РАЗМЕРНОСТИ АНАЛ ИЗИ РУЕМОГО П РИ 3 НА КО ВО ГО ПРОСТРАНСТВА И ОТБОР НАИБОЛЕЕ ИНФОРМАТИВНЫХ ПОКАЗАТЕЛЕЙ Глава !3. МЕТОД ГЛАВНЫХ КОМПОНЕНТ Сущность проблемы снижения размерности и различные методы ее решении В исследовательской и практической статистической работе приходится сталкиваться с ситуациями, когда общее число р признаков х<ч, х~'>, ..., х<е1, регистрируемых на каждом из множества обследуемых объектов (стран, городов, предприятий, семей, пациентов, технических или зкологических систем), очень велико — порядка ста и более. Тем не менее имекяциеся многомерные наблюдения х'" 1 х,'*' Х~ = .', 1=1, 2, ..., и, (13.1) х!ю следует подвергнуть статистической обработке, осмыслить либо ввести в базу данных для того, чтобы иметь возможность их использовать в нужныи момент.

Желание статистика представить каждое из наблюдений (13.1) в виде вектора г некоторых вспомогательных показателей гы>, г~ч, ..., г!ез с существенно меньшим (чем р) числом компонент р'бывает обусловлено в первую очередь следующими причинами: необходимостью наглядного представления (визуализации) исходных данных (!3.!), что достигается их проецированием на специально подобранное трехмерное пространство (р' = 3), плоскость (р'= 2) или числовую прямую (задачам такого типа посвящен раздел 1Ъ'); стремлением к лаконизму исследуемых моделей, обусловленному необходимостью упрощения счета и интерпретации полученных статистических выводов; необходимостью существенного саглипия объемов хранимой статистической информации (без видимых потерь в ее информативности), если речь идет о записи и хранении массивов типа (13.!) в специальной базе данных.

332 При этом новые (вспомогательные) признаки г<'<, г<'>, ..., г<»ч мокнут выбираться из числа исходных или определяться по какому-либо правилу по совокупности исходных признаков, например как их линейные комбинации. При формировании новой системы признаков к последним предъявля. ются разного рода требования, такие, как наибольшая информативность <в определенном смысле), взаимная некоррелированность, наименьшее искажение геометрической структуры множества исходных данных и т.

п. В зависимости от варианта формальной конкретизации этих требований (см. ниже, а также раздел (Ъ') приходим к тому или иному алгоритму снижения размерности. Имеется, по крайней мере, три основных типа принципиальных предпосылок, обусловливающих возможность перехода от большого числа р исходных показателей состояния (поведения, эффективности функционирования) анализируемой системы к существенно меньшему числу р' наиболее информативных переменных. Зто, во-первых, дублирование информации, доставляемой сильно взаимосвязи ными признаками; во-вторых, не- информативность признаков, мало менякхцихся при переходе от одного объекта к другому (малая «вариабельиость» признаков); в-третьих, вазможность агрегирования, т.

е. простого или «взвешенного» суммирования, по некоторым признакам. Формально задача перехода (с наименьшими потерями в информативности) к новому набору признаков г<'>, г<»>, ...„г<»э может быть описана следующим образом. Пусть Л = г (Х) — некоторая р-мерная вектор-функция исходных переменных х<'<, х<»<, ..., хио (р' 4 р) и пусть 1 (Л(Х)) — определенным образом заданная мера информативности р'-мерной системы признаков Л (Х) = (г<'>(Х), ..., г<»ч (Х)). Конкретный выбор функционала 1» (Л) зависит от специфики решаемой реальной задачи и ойирается на один из возможных критериев: критерий автоинформшпивности, нацеленный на максимальное сохранение информации, содержащейся в исходном массиве (Х,), —,„относительно самих исходных признаков; и критернй внешней информативности, нацеленный на максимальное «выжимание» из (Х<),=< —,„информации, содержащейся в этом массиве относительно некоторых других (внешних) показателей.

Задача заключается в определении такого набора признаков 2, найденного в классе Г допустимых преобразований исходных показателей х«>, ..., х<»', что 1р <(2(Х))=шах(7» (2(Х))). хее Тот илн иной вариант конкретизации этой постановки (определяющнй конкретный выбор меры информативности Рр (Я) н класса допустимых преобразований) приводит к конкретному методу снижения размерности: к методу главных компонент, факторному анализу, экстремальной группировке параметров н т. д.

Поясним это на примерах. 13.1.1. Метод главных компонент (см. $13.2 — $13.6). Именно к р' первым главным компонентам придет исследователь, если в качестве класса допустимых преобразований Г определит всевозможные линейные ортогональные нормированные комбинации исходных показателей, т.

е. з»>(Х) =- сн (х>» — н>»)+ ... +с> (х>Р> — ры>); (13.3) (здесь >>'т> = Ех<"> — математическое ожидание х>">), а в качестве меры информативности р'-мерной системы показателей (з»> (Х), ..., гвг> (Х)) выражение 1 ° (Е (Х)) = >>т" >+... + 1>х>»> (здесь 1», как и ранее, знак операции вычисления дисперсии соответствующей случайной величины). 13.1.2. Факторный анализ (см.

гл. 14). Как известно (см. $ !4.1), модель факторного анализа объясняет структуру связей между исходными показателями х»>, ..., хы> тем, что поведение каждого нз них статистически зависит от одного н того же набора так называемых оби(их факи>оров ум>, ..., увг>, т. е. х>л )»и> = ч~~ >у у> '>+им> (1 1, 2, ..., р), »=1 где >)„— «нагрузка» общего фактора уГ"> на исходный показатель х»>, а и»> — остаточная»специфическая» случайная компонента, причем Еу<'> = О, Еи>п = О, Оу<'> = 1 н у>», ..., у~Р>', им>, ..., и<Р> — попарно некоррелированы. Оказывается, если Г определить как класс всевозможных линейных комбинаций х>»>, ..., хон с учетом упомянутых пг- 334 раннченнй на у<">, а в качестве меры информативности рмерной системы показателей выбрать величину 1г (Х (Х))= = 1 — Ц Кх — К-~<', то решение оптимизационной задачи (13.2) совпадает с вектором общих факторов (у<'>,..., У<рч) в модели фактоРного анализа.

Здесь Кх — коРРелЯ- цнонная матрица исходных показателей х«<, „х<Р), К2— Р' корреляционная матрица показателей х<п = ~~г ~<)т, у<">, У=! а )<А<< — евклидова норма матрицы А. 13.1.3. Метод экстремальной группировки признаков (см. п. 14.2.!). В данном методе речь идет о таком разбиении совокупности исходных показателей х«<, ..., х<м на заданное число р' групп 5„..., 5 р, что признаки, принадлежащие одной группе, были бы взанмокоррелнрованы сравнительно сильно, в то время как признаки, принадлежащие к разным группам, были бы коррелнрованы слабо. Одновременно решается задача замены каждой (<-й) группы сильно взанмокоррелнрованных исходных показателей одним вспомогательным «равнодействующим» показателем го>, который, естественно, должен быть в тесной корреляционной связи с признаками своей группы.

Определив в качестве класса допустимых преобразований г исходных показателей все нормированные ()уз<о = 1) линейные комбинации х«<, ..., х<м, ищем решение (я, ..., Зр, э<'<, ..., а<рч), макснмнзируя (по 3 и Е (Х)) функционал + ~ гэ(х<ь», г<Рч), «<мезр где г (х, г) — коэффициент корреляции между переменными хна. 13.1.4.

Многомерное шкалирование (см. гл. 1Б). В ряде ситуаций н в первую очередь в ситуациях, когда исходные статистические данные получают с помощью специальных опросов, анкет, экспертных оценок„возможны случаи, когда элементом первичного наблюдения является не состояние <ь го объекта, описываемого вектором Х„а характеристика ры попарной близости (отдаленности) двух обьектов (нлн признаков) соответственно с номерамн < и). В этом случае исследователь располагает в качестве массива исходных статистических данных матрнцей размера пХп (если рассматриваются характеристики попарной бли- засти объектов) или рХр (если рассматриваются характеристики попарной близости признаков) вида р=(рм), <, 1=1, 2, ..., т, т=а или т=-р, (13.5) где величины р;, интерпретируются либо как расстояния между объектами (признаками) < и 1, либо как ранги, задающие упорядочение этих расстояний.

Задача многомерного шкалирования состоит в том, чтобы «погрузить» наши объекты (признаки) в такое р'-мерное пространство (р'(Сш)п (р, н)), т. е. так выбрать координатные оси Ог<'>, ..., Ог<»'>, чтобы исходная геометрическая конфигурация совокупности анализируемых точек-объектов (или точек-признаков), заданных с помощью (13.1) или (13,5), оказалась бы наименее искаженной в смысле некоторого критерия средней «степени искажения» Л (Е) взаимных попарных расстояний.

Одна из достаточно общих схем многомерного шкалировання определяется критерием 5(2) = ~ $~ <(;(г) — <(<; 1», <,у=> где Иы — расстояние между объектами О, и О„в исходном пространстве, Н„. (Е) — расстояние между теми же объектами в искомом пространстве меньшей размерности р', а а и р — свободные параметры, выбор конкретных значений которых производится по усмотрению исследователя, Определив меру информативности искомого набора признаков 2, например, как величину, обратную упомянутой выше величине степени искажения геометрической структуры исходной совокупности точек, сведем эту задачу к общей постановке (13.2), полагая 13.1.5. Отбор наиболее информативных показателей в моделях дискриминантного анализа (см.

21А; 2.5). Приведенные выше функционалы являются измерителями автоинформативности соответствующей системы признаков. Приведем теперь примеры критериев внешней информативности. В частности, нас будет интересовать информативность системы показателей г<'>(Х), ..., г<е'> (Х) с точки зрения правильности классификации объектов по этим показателям в схеме дискриминантного анализа.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6505
Авторов
на СтудИзбе
302
Средний доход
с одного платного файла
Обучение Подробнее