Главная » Просмотр файлов » Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 93

Файл №1027378 Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика) 93 страницаАйвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378) страница 932017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 93)

Упрощение структуры данных. В этом случае стремятся получить преобразования, после применения которых распределение становится максимально похожим на многомерное нормальное. Используется некоторый класс преобразований, например (18.17), (18.8), но параметры а, и р> оцениваются уже не на основе максимизации критерия (18.5), а при максимизации функции правдоподобия. Рассмотрим случай преобразования (18.7). Если предположим, что векторная случайная величина !'= (у('>, ...

у(ю)' подчинена многомерному нормальному распределению й/р (О, 2(), то для функции правдоподобия имеем следующее выражение: р(Х<й, х, а)=(2>т)-".>э<Х <-"Iз./„Х где а=(а„..., ар)'1 Х!"! =Цх<'!)"', ..., (хсР!)~Р); р л с»! — ! л число объектов /« ~~ ~а~~~ (х~ ) т !с=! якобнан преобразования. Оценки параметров а, (! = 1, р), 9 и л получаются из ре- шения задачи (а, 8, л)=»- агдспахр (Х[Ь, Х, а), е. х.а Можно использовать и логарифм функции правдоподобия. 18.4. Исяользованне дополнительных (иллюстративных) переменных и объектов При использовании методов РАД существует опасность обнаружить в данных такие структуры, которые связаны, скорее, со спецификой данной выборки, но в силу ее недостаточного объема не отражают калик-либо устойчивых закономерностей в генеральнои совокупности.

В случае, когда исследуемое множество объектов само представляет собой всю генеральную совокупность, такой проблемы не возникает, однако если результаты, полученные при изучении выборки, бсудут использоваться для работы с объектами, не входящими в нее, проблема становится серьезной. Конечно, можно надеяться, что этап «подтверждающего анализа» должен отсеять неправомерные со статистической точки зрения выводы. Однако некоторые возможности такого отсева существуют и в РАД. Один из приемов, применяемый с этой целью, состоит в разделении объектов и переменных на две части — активные (объекты, переменные) и иллюстративные, экзаменующие. Разделение объектов на «обученне» и «экзамен» широко используется в дискриминантном (см.

гл. 3) и регрессионном анализе. Использование иллюстративных переменных менее распространено. Применение иллюстративных переменных в кластер-анализе описано в $12.4. Помимо проверки устойчивости выделенных структур, использование дополнительных элементов помогает и в интерпретации результатов РАД. 188. Основные типы данных и методы, используемые в разведочном анализе данных РАД применяется к данным, заданным в одной из следующих форм: матрица данных (МД) типа «объект — признак» с переменными, измеренными в количественных шкалах (МДК); МД с переменными„измеренными в ординальной шкале (МДО); МД с переменными, измеренными в номинальной шкале (МДН); МД с переменными, измеренными в шкалах разной природы (гетерогенная МЛ, МДГ); таблица данных типа «объект — объект» (будем рассматривать только случай матрицы расстояний (МР)); таблица сопряженностей (ТС).

Процедуры статистической обработки, используемые в РАД, могут быть разбиты наследующие группы в зависимости от целей анализа и типа обрабатываемых данных. 1. Вычисление основных статистических характеристик для матрицы типа МЛК (101. 2. Преобразования переменных для МДК с целью линеаризации связей и (или) «нормализации» данных симметризации (см.

$ 18.3). 3. Преобразование переменных (оцифровка) для МЛК, МДО, МЛН, МДГ по различным критериям (см. $1?.4, 18.3). 4. Сокращение размерности данных с помощью линейных отображений: главные компоненты (ГК) (см. гл. 13), целенаправленное проецирование (гл. 19). Б. Нелинейные методы отображения данных типа МДК, МЛО, МДН, МДГ (последние три матрицы в метрике Хемминга) (см. гл.

13). 6. Метрическое шкалирование для матриц типа МР (см. гл. 16). 7. Множественный анализ соответствий для МДО, МДН и МЛГ, ТС (см. гл. 17). 8. Классификационные методы: кластер-анализ для таблиц МДК, МДО, МР, МДН, разделение смесей распределений, дискриминантный анализ (см. гл. 6 — 12). Я. Типологический анализ главных компонент (см. гл. 7). Анализ древообразной структуры зависимостей для МДК (см. гл. 2). !О. Кластер-анализ переменных МДК, МДО, МДН, МДГ, ТС.

Пошаговый метод анализа структуры зависимостей переменных для МДО, МДН, ТС. ! !. Анализ регрессионных зависимостей (метод целенаправленного проецирования, линейная модель) (см. гл. !9). ВЫВОДЫ !. Этап РАД применяется, когда у исследователя отсутствует априорная информация о статистическом или причинном механизме порождения имеющихся в его распоряжении данных. Основная цель РАД вЂ” построить некоторую статистическую модель данных (описания их структуры), которую, вообще говоря, необходимо дальше верифицировать. Можно сказать, что на этапе РАД формулируются статистические гипотезы, которые должны быть проверены на этапе подтверждающего анализа. 2. Важнейшим элементом РАД является широкое использование визуального представления многомерных данных, возможности которого возросли с появлением динамических форм визуального представления.

3. Преобразование данных в РАД позволяет либо линеаризовать связи между переменными, либо упростить для дальнейшего описание структуры данных. 4. Для верификации результатов РАД эффективным приемом является использование аппарата иллюстративных переменных и объектов. Глава )н. ЦЕЛЕНАПРАВЛЕННОЕ ПРОЕЦИРОВАНИЕ МНОГОМЕРНЫХ ДАННЫХ В этой главе в основном рассматриваются методы линейного проецирования данных.

Совокупность таких методов в последнее время получила большое развитие и известна в заружебной статистической литературе, как «рго)есНоп рпгзп((э (РР). Будем здесь использовать термин «целенаправленное цроецирование» (ЦП). Методы ЦП являются естественным обобщением классических методов многомерного статистического анализа, таких, как факторный анализ, анализ глав- иых компонент, линейный дискриминантный анализ и т. д. В отечественной литературе [36 — 40, 65, 67, 69, 104, 3281 содержатся постановки ряда задач ЦП и методы их решения. 19.1. Цель и основные понятия целенаправленного проецирования Метод ЦП [230, 246, 251, 3281 основан на поиске наиболее «интересиых» («выразительных») 9-мерных линейных проекций исходных р-мерных данных Х<ю == (Х„..., Х„), где <7 (( р. В РАД 9 =- 1, 2, реже 3.

Пусть [1 — оператор линейного проецирования р-мерных данных на <1-мерное пространство, т. е. набор из д линейно независимых р-мерных векторов У,, ..., У«, таких, что по определению [)'Х» — — (У< Хю ..., У'Х»)', 1( л < < и и Я ([), Х) — некоторая статистика, выборочное значением которой вычисляется по д-мерно«выборке объема и. Тогда ф =- (<([), Х<">) =- 4 (ГХ„..., Ю'Х„) называется проекционным индексом (ПИ), характеризукицим выразительность проекции [) относительностатистики Я. Решение задачи РАД методом ЦП состоит из двух этапов: 1) выбор проекционного индекса 9 ([3, Х<"~); 2) поиск проекций [), наиболее интересных относительно Я, т.

е. решение задач: найти 4) =ага п<ах4~(0, Х"). <19.!) Первому этапу посвящены следующие параграфы, здесь же кратко остановимся на втором. При решении задачи (19.!) для ряда важных ПИ Я ([), Х<">) удается использо. вать последовательный (пошаговый) метод получения проекционных векторов 0„..., У«. Допустим, что уже выбраны первые (9 — 1) проекционных векторов У,, ..., У«,. Тогда решается задача (19.1) в классе операторов [)=- (У,, ..., У«), где первые (д — 1) векторов — это отобранные ранее векторы, а У« — любой линейно независимый с ними вектор.

Иногда из формулы для Я (1), Х«ч) ясно, что достаточно брать векторы О,, ..., У« ортогональными, но в общем случае направления образуют косоугольную систему. Эта процедура может быть улучшена в результате использования дополнительного критерия «не- интересности» направления проецирования. Тогда в алгоритм можно включатьшаги, на которых «неинтересные» направления выбрасываются. В каждом из рассмотренных ва- риантов пошаговый метод реализуется обычными процедурами условной оптимизации (условия линейной независимости, ортогональности или З-ортогональности, где Я вЂ” например, ковариациоиная матрица). Имеются важные ПИ, для которых пошаговый метод не эффективен.

В этом случае необходимо вернуться к оптимизационной задаче (19,!) в исходной постановке, т. е. решать ее как задачу безусловной, оптимизации на многообразии всех операторов д-мерного проецирования. Численные процедуры решения таких задач разработаны в !37 — 39! и рассмотрены в гл. 20. Прежде чем перейти к последующему изложению, кратко остановимся на вопросе, почему собственно используются линейные отображения? Имеется несколько обоснований различной природы для использования линейных отображений многомерных данных для целей анализа. Перечислим некоторые из них (оговорим, что порядок перечисления не отражает их относительной важности).

Во-первых, линейные отображения приводят к тому, что в качестве новых переменных в пространстве образов используются линейные комбинации исходных переменных. Это существенно упрощает интерпретацию выделяемых структур (например, кластеров), поскольку позволяет использовать такие хорошо освоенные в статистике понятия, как факторные нагрузки или вклады переменных (нормированные тем или иным способом коэффициенты линейных комбинаций). Во-вторых, имеется важное статистическое обоснование, связанное со статистическими свойствами линейных проекций многомерных случайных величин, Именно при достаточно широких предположениях относительно плотности распределения многомерной случайной величины Х (2!8! распределение случайно выбранной линейной комбинации переменных стремится к нормальному, когда р-+ оо.

На практике это означает, что при достаточно большом числе переменных подавляющее большинство линейных комбинаций исходных переменных будет иметь «почти» нормальное распределение. Поскольку нормальное распределение является некоторым эталоном распределения, не обладающего какой-либо иэ перечисленных в 5 18.1 структур (за исключением структуры типа эллипсондального рассеивания), при поиске этих структур можно выбирать линейные комбинации, распределение которых наиболее сильно отличается от нормального.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее