Главная » Просмотр файлов » Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 61

Файл №1027378 Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика) 61 страницаАйвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378) страница 612017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 61)

Классификационную переменную г можно представить в виде булевой матрицы Х с А столбцами и л строками и такой, что элемент г!~ — — 1, если »-й объект принадлежит !ьму классу Ц-й категории переменной г) и гы = — 0 в противном случае. Такое представление часто используется, например, в регрессионном и дисперсиониом анализе для введения так называемых фиктивных переменных. Столбцы матрицы Х ор- тогональны 319 где матрица 11 = '~' ' Х!,Х!..

У! = 2ю 1]Х, 11! Учитывая известное равенство для квадратичных форм Г;(/Л; = Бр % (Л.ГЯ';)], критерий К' можно представить в более компактной форме К*= Бр (Л(, (12.1(У) где 11 =' (г!ь ! = 1, а, / = 1, л — матрица смежности объектов нз Х, элемент г!!„— — 1/п, если Х! и Х принадлежат одному и тому же 1-му классу, и 0 — в противном случае.

Элементы матрицы л() суть просто завешенные скалярные произведения объектов (столбцов матрицы Х) пил„= ~~ о!л!!!! У~!/а) =Х! ЧХ ! ! где Ч вЂ” диагональная матрица, Ч = Йаи (и!/а!, ..., па/з'). Если перейти к нормированным переменным у = л/а„ то можно записать ли!„= ~" п,у!'!и!!!=У;ЧУ„. ю-! Итак, $3 *= — ХЧХ' = — УЧУ'.

Л Ю (12.11) С другой стороны, непосредственным вычислением легко проверяется, что г.,Ы.,= — "' Х;ЧХ,, (12. 12) а где Х! — вектор средних значений для /-го класса. Следовательно, К'= 9рЧ '(в — "' Х,Ох'ХГ=9рЧ]Ух'Вх, Г ! а (12.13) "20 Используя (12.9), критерий (12.7) после некоторых преобразований можно представить в виде ь М' = ~ — Е.;-()2'.» (12.10) Вт где Ох = Йаа (за!, ..., зр), Вх — матрица межклассового рассеивания. Матрицу же 1рх можно рассматривать как полиую матрицу рассеивания. Рассмотрим два случая выбора весов вз('=-1, р): а) пусть и! — — 1 (Е = 1, р) и о, = 1/з!'. Тогда Ч = !р и Ч = Рх' и критерий примет вид У=ВрПРВх=ВрВ,, где Вг — матрица межклассового разброса для иормированных переменных. В частности, отсюда следует, что еслии использовать нормированные переменные, или, что то же самое, метрику вида х(Е! „(и * р(Хь Х„)= ) ~"' .еию а) как функцию расстояния между объектами, то максимизация Кз эквивалентна максимизации суммы корреляциоииых отношений между фактором г и переменными х!'>..., х!р>; б) пусть о! = в! В этом случае о,' = 1 и К' =- Вр Вх.

Рассмотрим теперь критерий Т (!2.5), определяемый как доля разброса, объясняемая классификацией Т = ВрВхl Вр )эх. Критерий Т отличается от ((' только наличием знаменателя Вр 0х. Отсюда следует, что если в исходной метрике для получения классификации использовать критерий Т, то это эквивалентно максимизации следующей взвешенной суммы корреляционных отношений да =- Ъ р (х<!!, з). Зр ох Ясно, что если дисперсии з,' сильно различаются, то получаемая классификация будет настраиваться иа объясиеиие переменных с большими значениями з .

Однозначно априорно нельзя сказать, хорошо это или плохо. Все зависит от решаемой задачи. В табл. 12.3 суммированы результаты осоотиошеииях между метриками и соответствующими им критериями в терминах сумм корреляционных отношений и матриц рассеивания. ! ! Заказ № 29! 32! Евклидова в исходном коордипатиом пространстве (( (м Р ~цР ( ((! (О)2 ( ! Евклидова с иормированиыми перемеи- Р иымиеа = — ~~~~ (х( !— ! ! — (м!)'(Р7= Р (у((! (г!)2 (=! где у('1=к( !/з!— норчироваииые пере- менные Формуавроока кротсрвк в тсрмкоак коррсаацм- оввмк отвамсява Кк= Хав! ра (х((!. а), где ак — оцеика дис персии признака л((1, р'(к((1, с) — корреля циоииое отиошеии прививка к((!и т Р =~ р'(у((1, г) (=! Таблица 123 Формулировка крите. рия в тормкнок матриц россокоонвя Кт=оРВх или Вр В Т= —, где Ох- — -йап(ктк,...

ко); Вх — матрица мевтклассового рассеива- ния Кс=-Ь~ ()х ! Вх —— =ЬРВу)Р, т=кк Классификация, объясняемая через переменные. Группировку объектов, получаемую на основе максимизации критерия (12.7), можно рассматривать как группировку, которая «объясняет» разброс переменных х<'>,..., х>»> с помощью классификационного признака г. Ниже рассмотрим критерий группировки, который можно интерпретировать как критерий, «объясняющий» получаемую на основе его максимизации группировку, т. е. категории некоторой номинальной переменной г, посредством переменных х«»,..., х<»>.

Будет показано, что прн определенном выборе метрики объясняющая группировка совпадает с объясняемой. Введем критерий вида К> =и,г»(г»>, Х)+ ...+ одг»(гы>, Х), где г» (г>п, Х) =- г>> — квадрат коэффициента множественной корреляции между фиктивной бинарной переменной хг>> (/ — — 1, й) и переменными х»>, ..., х<»>, и> ) Π— весовые коэффициенты. Таким образом, каждая бинарная фиктивная переменная гп> аппроксимируется некоторой линейной комбинацией переменных х« >, ..., хт»>. Будем искать группировку (классификацию) из условия 2= ага>пах К»>, (12.15) где 2=(г»>, ..., гы>)'. Докажем следующее утверждение: если выбрать вес и> — — 1 — илл, то критерий К> эквивалентен критерию >',>» = Вр8 ' В, где $ — матрица ковариаций для Х.

Для этого запишем аналитическое выражение коэффициента множественной корреляции в виде (см. 2 ! 7,2) г»(хы>, Х) = — 2;>Х' (ХХ') > ХЕ>/0х>>> 0г»э = — > (1 — п>/п). л Матрица Х (ХХ') >Х является матричным представлением проекционного оператора Рх, проектирующего и- мерные векторы на подпространство, натянутое на строки матрицы Х. С другой стороны, ХХ'= п$, а Х'Х.т=п>Х>— вектор средних для /-й группы.

Поэтому г* Ы>>, Х) = — ~ Х;. Ь вЂ” » Х~/(1 — пт/и). (12.16) а 323 Учитывая, что Х;$ 'Хт =Бр Ь ~ (ХтХ;.)), получим после подстановки (12.16) в (!2.14) К( =- д, =- Бр Б ' В. В отличие от критерия К' критерий К! афинноинвариантен. В махаланобисовой метрике $ =-! р, н критерий Кэ (объяснякицая группировка) и К1 (объясняемая группировка) совпадают. 12.2.2. Границы значений некоторых критериев классификации.

Дадим две оценки величины критерия К', полезные для целей интерпретации, а именно для получения представления о том, насколько удачным с формальной (критериальной) точки зрения является полученное разбиение. Эти оценки в какой-то степени заменяют статистические критерии, определяющие значимость классификации (отличие ее от случаиной). Граница снизу. Первая граница носит эвристический характер, хотя и является, по-видимому, достаточно точной и измеряет среднее значение критерия К' на множестве всех возможных разбиений объектов на й (я ~ 2) классов. Будем предполагать, что случайным образом многократно генерируется классификационная матрица Х и каждый раэ вычисляется значение критерия К'.

Рассмотрим только случай нормированных переменных, полагая веса и, = 1 (1 = 1,р), Для получения оценки используем представление К' в виде (12.10). Значение квадратичной формы 2'.~ бац можно представить в виде 2.' 1)2,;=р)2.;)х=р где значение Л ы( р,с. Люв„Л,„(„ию — соответственно максимальное (минимальное) собственное число матрицы О. Матрица 0 имеет не более чем р ненулевых положительных собственных чисел, совпадающих с собственными числами матрицы корреляций, и нулевое собственное число кратности не менее чем п — р. Средним значением собственного числа матрицы 0 будет Ляр — — — Ярбlи = р!п. Среднее значение р при многократном случайном выборе 2.~ будет как раз р = Л,р. Аналогичное равейство приближенно верно при любом 1() =1, й). Поэтому имеем приближенно ! ~ вл ~э.~"~"' ма~ и 1~ ~ Й~ ' а г=! где р~=р=Л,р. Более точно —, если — (1; вр вр сс л 1, если — ) 1.

др л мс сср,слус (12.17) 325 Отсюда, в частности, следует, что если получена классификация 2, для которой К' (У) ~ К',р,„„, то ее следует признать неудачной. Такая классификация может получиться как при неправильной настройке алгоритма кластер-анализа (например, выборе начальных центров групп), так и при отсутствии неоднородности в данных. Граница, определяемая разбиением, предполагающим, что центры классов лежат на одной прямой. Граница К,*р „„„ получена при усреднении значений критерия по множеству всех возможных разбиений, в том числе и очень неудачных разбиений, порожденных чисто случайным механизмом, когда точки, удаленные друг от друга, попадают в один кластер и, наоборот, очень близкие точки могут оказаться в разных кластерах.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее