Главная » Просмотр файлов » Уменьшение размерности в данных. Метод главных компонент

Уменьшение размерности в данных. Метод главных компонент (1185332), страница 5

Файл №1185332 Уменьшение размерности в данных. Метод главных компонент (Уменьшение размерности в данных. Метод главных компонент.pdf) 5 страницаУменьшение размерности в данных. Метод главных компонент (1185332) страница 52020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 5)

рис. 9b), 2) восстановление смеси главных компонент сd = 1 (см. рис. 9с) и 3) восстановление смеси диагональных нормальных распределений(см. рис. 9d). Под диагональным нормальным распределением понимается распределение сдиагональной матрицей ковариации. Как видно из рисунков, смесь диагональных нормальныхраспределений показывает не совсем адекватный результат кластеризации, т.к. выборка необразует фрагментов, распределенных вдоль координатных осей.

Смесь главных компоненткластеризует данные так, чтобы каждый кластер был максимально похож на прямую линию.18110.80.80.60.60.40.40.20.200-0.2-0.2-0.4-0.4-0.6-0.6-0.8-0.8-1-102468101214024(a)110.80.60.60.40.40.20.200-0.2-0.2-0.4-0.4-0.6-0.6-0.8-0.8-1-124681012148101214(b)0.8068101214(c)0246(d)Рис. 9: Кластеризация двухмерной выборки (рис. а) на 5 кластеров с помощью трех методов:смесь произвольных нормальных распределений (рис.

b), смесь главных компонент (рис. c)и смесь диагональных нормальных распределений (рис. d). Цветами обозначены объектысоответствующих кластеров. Кроме того, показаны центры и эллипсы рассеивания для каждойкомпоненты смеси.Смесь произвольных нормальных распределений кластеризует данные похожим образом,однако средний кластер имеет отклонения от прямой линии, т.к. на концах кластера имеетсякомпактная группа объектов.Другим возможным применением модели смеси главных компонент является блочноесжатие изображений. Пусть имеется некоторое черно-белое изображение (см.

рис. 10a).Разобьем это изображение на набор непересекающихся блоков размера 8 × 8, и каждыйблок вытянем в вектор длины 64. Таким образом, мы получим некоторую выборку размера<Число_блоков> × 64. Например, для изображения размера 304 × 200 соответствующаявыборка будет иметь размер 950 × 64.

Затем применим к этой выборке методы уменьшенияразмерности в данных для решения задачи сжатия изображения. На рис. 10 приведен примерприменения метода блочного сжатия изображения с помощью вероятностного метода главныхкомпонент с d = 4 (см. рис. 10b) и вероятностной смеси главных компонент с d = 3 и K = 15(см. рис. 10c). В обоих случаях коэффициент сжатия равен 16 (в вероятностной смеси главныхкомпонент помимо проекции на подпространство сохраняется дополнительно номер этогоподпространства). Как видно из рисунка, смесь главных компонент обеспечивает меньшуювеличину ошибки и, соответственно, более высокое качество восстановления изображения.19(a)(b)(c)Рис. 10: Иллюстрация сжатия изображения (рис. а) в 16 раз с помощью метода главныхкомпонент (рис.

b) и смеси главных компонент (рис. c).Стоит отдельно подчеркнуть, что рассмотренный метод является скорее иллюстративнымпримером к вероятностной модели смеси главных компонент, чем реальным методом сжатияизображений, т.к., например, он никак не учитывает специфику предметной области иособенности реалистичных изображений.Еще одним примером применения модели смеси главных компонент является восстановлениеплотности классов при решении задачи классификации.

Пусть имеется задача классификациина K классов. Восстановим по обучающей выборке плотность каждого из классов p(x|k) спомощью вероятностной модели смеси главных компонент. После этого можно воспользоваться20байесовским классификатором и классифицировать объекты по следующему правилу:k̂(x) = arg max p(k|x) = arg max p(x|k)p(k).kkЗдесь p(k) – априорная вероятность появления класса k. Заметим, что решение задачиклассификации с помощью восстановления плотности каждого из классов требует большогообъема обучающей выборки. Как уже было отмечено выше, модель смеси главныхкомпонент задается значительно меньшим числом параметров, чем модель смеси произвольныхнормальных распределений.

В результате для применения модели смеси главных компоненттребуется меньший объем обучающей выборки.3.2Анализ независимых факторовРассмотрим задачу разделения независимых источников, описанную выше. Как уже былоотмечено ранее, метод главных компонент не подходит для решения этой задачи. Ввероятностной формулировке метода в пространстве скрытых переменных t предполагаетсяизотропное нормальное распределение N (t|0, I). Можно утверждать, что нормальностьраспределения в пространстве скрытых переменных является ключевым моментом, непозволяющим решать задачу разделения независимых источников. Одним из основныхсвойств нормального распределения является тот факт, что его любые маргинальныераспределения, а также распределение любой линейной комбинации переменных, являютсянормальными.

Пусть p(x1 , x2 ) является двумерным нормальным распределением. Тогдаp(x1 ), p(x2 ), p(x1 |x2 ), p(x2 |x1 ), p(α1 x1 + α2 x2 ) тоже являются нормальными. Таким образом, еслиисходные сигналы T имеют нормальное распределение, то нет никакой возможности их найтипо наблюдаемым линейнымкомбинациям X. Предположим далее, что выборка является∑Nцентрированной, т.е. n=1 xn = 0 и d = D. Обозначим через ttrue , Wtrue истинные исходныесигналы и матрицу смешивания. Прогноз скрытой переменной с помощью вероятностногометода главных компонент вычисляется какtP CA = (W T W )−1 W T x = (W T W )−1 W T Wtrue ttrue .Если матрица смешивания W совпадает с истинной Wtrue , то тогда tP CA = ttrue .

Еслиматрицы смешивания разные, то тогда прогноз tP CA представляет собой линейную комбинациюнезависимых компонент ttrue с весами, определяемыми матрицей (W T W )−1 W T Wtrue . Поцентральной предельной теореме сумма независимых случайных величин с ограниченнымимоментами стремится к нормальному распределению.

Таким образом, практически при любыхзначениях W величина tP CA стремится к нормальному распределению. Это означает, чтовероятностная модель главных компонент всегда сможет найти такую матрицу W , чтобыраспределение в пространстве t удовлетворяло бы предположениям модели, т.е. было бынормальным. Однако, этот результат будет далек от исходных сигналов T . Таким образом,для решения задачи разделения независимых источников необходим отказ от предположениянормальности в пространстве скрытых переменных.Рассмотрим модель «анализ независимых факторов». В этой модели, как и ранее,предполагается, что наблюдаемые переменные представляют собой зашумленную линейнуюкомбинацию искомых компонент:p(x|t) = N (x|W t, Λ).21121086420-2-3-2-10123456Рис. 11: Иллюстрация смеси нормальных распределений для модели «анализ независимыхфакторов».

Здесь d = 2, K1 = 2, K2 = 3, µ11 = 0, µ12 = 5, s11 = 1, s11 = 0.1, µ21 = 0, µ22 = 5, µ23 = 10,s21 = 0.1, s22 = 1, s23 = 0.1.В отличие от модели главных компонент, здесь матрица ковариации шума Λ предполагаетсяпроизвольной симметричной положительно определенной. Требование независимости скрытыхисточников (факторов) может быть выражено какp(t) = p(t1 )p(t2 ) . . . p(td ).(17)В модели главных компонент p(ti ) = N (ti |0, 1). В модели «анализ независимых факторов»p(ti ) выбирается в параметрическом семействе распределений, способном приблизить с высокойточностью достаточно широкий класс непрерывных распределений, а именно в семействе смесиодномерных гауссиан:ip(t ) =Ki∑πji N (ti |µij , sij ),Ki∑πji = 1, πji ≥ 0.(18)j=1j=1Здесь Ki – количество компонент смеси для i-ого фактора, sij – дисперсия j-ой компонентыдля i-го фактора.

Заметим, что если Ki = 1 ∀i, то модель «анализ независимых факторов»становится практически эквивалентной модели главных компонент. Подставляя (18) в (17),получаем, что распределение p(t) в свою очередь есть смесь нормальных распределений:∑K1 ,...,Kdp(t) =πj11 . . . πjdd N (t|(µ1j1 , . . . , µdjd ), diag(s1j1 , .

. . , sdjd )).(19)j1 ,...,jd =1Данная смесь нормальных распределений имеет сеточную структуру (см. рис. 11). Изменениепараметров µij , sij для одной компоненты распределения p(ti ) влечет за собой изменение всехкомпонент распределения p(t) в одной колонке.Как и ранее при работе со смесями распределений введем набор вспомогательныхпеременных z = (z1 , . .

. , zd ), где zi ∈ {1, . . . , Ki } – номер соответствующей компоненты смеси.22Тогда модель (19) можно эквивалентно переписать следующим образом:p(t|z) = N (t|µz , Vz ), µz = (µ1z1 , . . . , µdzd ), Vz = diag(s1z1 , . . . , sdzd ),p(z) = πz11 πz22 . . . πzdd .Объединяя все вышесказанное, сформулируем модель «анализ независимых факторов»:p(X, T, Z|W, M, S, π) =N∏p(xn |tn )p(tn |z n )p(z n ),n=1p(xn |tn ) = N (xn |W tn , Λ),p(tn |z n ) = N (tn |µzn , Vzn ), µzn = (µ1zn1 , . .

. , µdznd ), Vzn = diag(s1zn1 , . . . , sdznd ),p(z n ) = πz1n1 . . . πzdnd .Здесь переменные X являются наблюдаемыми, переменные (T, Z) – ненаблюдаемыми,ii d,Ki(W, M, S, π) – набор параметров, где M = {µij }d,Ki,j=1 , S = {sj }i,j=1 . Генерация объекта x изэтой модели происходит в три этапа. Сначала с вероятностями, пропорциональными πz11 . . . πzdd ,генерируются номера компонент смеси z1 , . .

. , zd для каждого признака. Затем переменная tгенерируется из нормального распределения, параметры которого задаются z, а объект x всвою очередь генерируется как зашумленная линейная комбинация W t.Поиск параметров модели по принципу максимума правдоподобияp(X|W, M, S, π) → maxW,M,S,πможет быть осуществлен с помощью ЕМ-алгоритма. Е-шаг:p(xn |z n ) = N (xn |W µzn , Λ + W Vzn W T ),p(tn |z n , xn ) = N (tn |Σn (W T Λ−1 xn + Vz−1µzn ), Σn ), Σn = (W T Λ−1 W + Vz−1)−1 ,nn∑p(xn ) =p(xn |z n )p(z n ),znp(xn |z n )p(z n ),p(xn )∑p(tn |xn ) =p(tn |z n , xn )p(z n |xn ).p(z n |xn ) =znЗдесь под суммой∑znпонимается сумма по всем наборам компонент смесей23∑K1 ,...,Kdz1 ,...,zd =1 .Observed signalsInitial signals1.51.5110.50.500-0.5-0.5-1-1-1.50102030405060708090100-1.5010203040(a)506070809010060708090100(b)PCAIFA2.5120.81.50.610.40.50.200-0.5-0.2-1-0.4-1.5-0.6-2-0.8-2.5-101020304050607080901000(c)1020304050(d)Рис.

12: Иллюстрация применения метода главных компонент и анализа независимых факторовдля задачи разделения двух независимых источников. На рис. а показаны исходные сигналы,на рис. b – наблюдаемые сигналы, на рис. c показан результат применения метода главныхкомпонент, а рис. d отражает результат применения анализа независимых факторов.M-шаг:W =(N∑n=1N∑xn Etn |xn tTn)( N∑)−1Etn |xn tn tTn,n=11[xn xTn − 2xn Etn |xn tTn W T + W Etn |xn tn tTn W T ],N n=1∑N ∑n=1{z k }k̸=i Etn |z n (i←j),xn tni p(z n (i ← j)|xn )i,µj =∑N ∑p(z(i←j)|x)knnn=1{z }k̸=i∑N ∑i 2i2n=1{z k }k̸=i p(z n (i ← j)|xn )[Etn |z n (i←j),xn tni − 2Etn |z n (i←j),xn tni µj + (µj ) ]isj =,∑N ∑n=1{z k }k̸=i p(z n (i ← j)|xn )∑N ∑p(z n (i ← j)|xn )n=1{z k }i.πj = ∑Ki ∑N ∑ k̸=ip(z(i←l)|x)knnn=1{z }k̸=il=1Λ=24PCA first component histogramFirst component histogram120IFA first component histogram0.4520.41.81001.60.351.40.3801.20.251600.20.80.15400.60.10.4200.050-1.5-1-0.500.511.50-20.2-1.5-1-0.5(a)00.511.520-1-0.50(b)Second component histogramIFA second component histogram0.74.540.62501(c)PCA second component histogram3000.53.50.520030.42.50.321501001.50.21500-1.50.1-1-0.50(d)0.511.500.5-2-10(e)120-0.6-0.4-0.200.20.40.6(f)Рис.

Характеристики

Тип файла
PDF-файл
Размер
1,28 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее