Главная » Просмотр файлов » Уменьшение размерности в данных. Метод главных компонент

Уменьшение размерности в данных. Метод главных компонент (1185332), страница 4

Файл №1185332 Уменьшение размерности в данных. Метод главных компонент (Уменьшение размерности в данных. Метод главных компонент.pdf) 4 страницаУменьшение размерности в данных. Метод главных компонент (1185332) страница 42020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 4)

Соответственно WKn = {wij }i∈Kn ,j∈{1,...,d} .14Вероятностная модель PPCA с пропусками в данных выглядит следующим образом:p(XK , XU , T |W, σ , µ) =2N∏p(xn,Kn , xn,Un |tn , W, µ, σ 2 )p(tn ),n=1p(xn,Kn , xn,Un |tn , W, µ, σ 2 ) = N ((xn,Kn , xn,Un )|(WKn tn + µKn , WUn tn + µUn ), σ 2 I),p(tn ) = N (tn |0, I).Нетрудно показать, что ЕМ-алгоритм для этой модели состоит в следующем:Е-шаг:2p(XU , T |XK , Wold , σold)=N∏2p((xn,Un , tn )|xn,Kn , Wold , σold),(n=12)p((xn,Un , tn )|xn,Kn , Wold , σold)= N (xn,Un , tn )|mn , Sn ,mn = (WUn M WKT n xn,Kn , M WKT n xn,Kn ),()I + WUn M WUTn −WUn M2Sn = σold,M−M WUTn2M = (WKT n WKn + σoldI)−1 .M-шаг:(Winew =∑n:i∈Kn2σnew=1ND+xni EtTn +N (∑∑n:i∈UnExni tTn)( N∑)−1Etn tTn,n=1xTn,Kn xn,Kn + trExn,Un xTn,Un − 2EtTn WKT n xn,Kn − 2trWUTn Exn,Un tTn +)n=1trWKT n WKn Etn tTn+trWUTn WUn Etn tTn.При этом выборка предварительно центрируется на величину∑Nxniµi = ∑n:i∈Kn.n:i∈Kn 1Заметим, что формулы ЕМ-алгоритма для модели PPCA с пропусками переходят всоответствующие формулы ЕМ-алгоритма для PPCA в том случае, если пропусков в данныхнет.В качестве иллюстративного примера вернемся к задаче выбора признакового пространствадля базы данных рукописных цифр MNIST.

На рис. 8 приведена проекция исходной выборкина первые две главные компоненты (совпадает с рис. 2b), а также аналогичная проекция длявыборки, в которой 30% случайно выбранных значений считаются пропущенными. Как видно,результаты практически совпадают между собой.Рассмотренный метод учета пропусков в данных является адекватным для случая,когда места пропусков в данных определяются случайными факторами и, в частности, независят от истинных значений признаков в местах пропуска.

Если, например, измерительныйдатчик дает сбой только для экстремальных значений измеряемой характеристики, тоздесь необходима модификация вероятностной модели с пропусками, учитывающей модельобразования пропущенных значений.1522’1’’2’’3’0-2-2-4-4-6-6-8-8-10-10-1250’1’’2’’3’0-12-5-5(a)05(b)Рис. 8: Проекция выборки изображений цифр ’1’, ’2’, ’3’ на первые две главные компоненты дляполных данных (a) и для выборки, в которой 30% случайно выбранных значений считаютсяпропущенными.3Обобщения метода главных компонентОтметим ряд ограничений метода главных компонент. Первое ограничение связано слинейностью метода.

В том случае, если выборка данных образует скрытую поверхность,которая является существенно нелинейной, метод главных компонент может приводить кнеадекватным результатам (большая ошибка при восстановлении данных или маленькаяредукция размерности пространства). Простым обобщением метода главных компонент,которое позволяет преодолеть это ограничение, является рассмотрение вероятностной смесиглавных компонент.Другим ограничением метода главных компонент является произвол в выборе базиса впространстве оптимальной гиперплоскости, т.е.

возможность определения скрытых компонентT только с точностью до афинного преобразования. В ряде случаев подобный произволможет приводить к неадекватным результатам. Рассмотрим здесь в качестве примера задачуразделения независимых источников. Пусть имеется набор одномерных сигналов ti (ln ),заданных в моменты времени l1 , . . . , lN . При этом наблюдаются не исходные сигналы, асовокупность их линейных комбинаций, т.е. набор сигналов xj (ln ), где∑xj (ln ) =wij ti (ln ).iЗдесь wij ∈ R – некоторые веса, а количество сигналов X может быть как больше, так и меньше,чем число исходных сигналов T .

Задача состоит в том, чтобы по набору наблюдаемых сигналовX восстановить исходные сигналы T . Практическим примером данной задачи является задачапостроения магнитоэнцефалограммы головного мозга по набору датчиков. Каждый датчиквыдает сигнал, который является комбинацией магнитной активности в данной области мозга, атакже части магнитной активности с соседних датчиков.

В результате возникает необходимостьвыделения собственных сигналов для каждого датчика. Другим практическим примеромявляется восстановление исходных дорожек в музыкальном стерео-сигнале.Будем решать задачу разделения независимых источников с помощью метода главныхкомпонент следующим образом. Будем трактовать наблюдения сигналов как совокупность16независимых точек, т.е.

рассмотрим выборку из N объектов, где n-ый объект состоит изx1 (ln ), x2 (ln ), . . . , xD (ln ). С помощью метода уменьшения размерности найдем совокупностьN объектов вида t1 (ln ), t2 (ln ), . . . , td (ln ). Как уже было отмечено выше, при использованииметода главных компонент результат является произвольным с точностью до афинногопреобразования. Очевидно, что такой подход, вообще говоря, не позволяет выявить исходныекомпоненты сигнала.

Для решения данной задачи можно воспользоваться подходом «Анализнезависимых факторов» (см. [8]), который является обобщением вероятностного методаглавных компонент.3.1Вероятностная смесь главных компонентРассмотрим следующую вероятностную модель:p(x) =K∑πk pk (x|Wk , σk2 , µk )k=1=K∑πk N (x|µk , Wk WkT+σk2 I),k=1K∑πk = 1, πk ≥ 0.k=1Эта модель представляет собой смесь нормальных распределений, в которой матрицыковариации задаются специальным образом. Введем ∑эквивалентную вероятностную модельKпутем добавления скрытых переменных z n ∈ {0, 1} , Kk=1 znk = 1 для каждого объекта xn ,отвечающих за номер компоненты смеси:p(z n ) =K∏πkznk ,k=1p(xn |z n ) =K∏(pk (xn ))znk .k=1Можно показать (см.

[7]), что ЕМ-алгоритм максимизации правдоподобия в этой модели поKпараметрам π, M = {µk }Kk=1 , W = {Wk }k=1 и σ выглядит следующим образом:E-шаг:πk pk (xn |Wk , σk2 , µk )γnk = EZ|X,π,M,W,σ znk = ∑K.2j=1 πj pj (xn |Wj , σj , µj )М-шаг:1 ∑γnk ,N n=1∑Nnewn=1 γnk xn,µk = ∑Nn=1 γnk∑Nγnk (xn − µk )(xn − µk )TSk = n=1.∑Nn=1 γnkNπknew =При этом параметры Wk и σk вычисляются по стандартным формулам для PPCA путемразложения по собственным векторам матрицы Sk .

Альтернативные формулы пересчета этихпараметров без привлечения промежуточной матрицы ковариации Sk можно найти в [7]. Этиформулы также можно легко обобщить на случай наличия пропусков в данных.Заметим, что формулы для γnk , πk и µk полностью совпадают с соответствующимиформулами ЕМ-алгоритма для смеси нормальных распределений, рассмотренных выше.17Восстановление вероятностной смеси главных компонент соответствует построению Kлинейных подпространств, определяемых параметрами Wk , µk , σk . Таким образом, длязаданного объекта xn можно получить проекцию tn на подпространство с номером k поформуле (σk2 I + WkT Wk )−1 WkT (xn − µk ). При этом по аналогии с применением смеси нормальныхраспределений для решения задачи кластеризации, номер подпространства k выбирается какk = arg max γnk .k(16)С точки зрения задачи уменьшения размерности в данных, для каждого объекта xn сохраняетсяномер подпространства k и проекция объекта на это подпространство tn .

Заметим, чтовыбор подпространства с помощью формулы (16), вообще говоря, не соответствует выборуподпространства с наименьшей квадратичной ошибкой восстановления.Применение вероятностной смеси главных компонентМодель смеси главных компонент имеет широкую область применения. Помимо решения задачиуменьшения размерности и сжатия данных, эту модель можно использовать для решениязадачи кластеризации и для восстановления плотности распределения выборки.Рассмотрим применение модели смеси главных компонент для задачи кластеризации.Как уже было отмечено выше, эта модель является частным случаем общей моделисмеси нормальных распределений, в которой матрица ковариации для каждой компонентызадается специальным образом: Ck = Wk WkT + σk2 I. Как и в общем случае, для решениязадачи кластеризации на K кластеров сначала восстанавливаются параметры модели смеси{Wk , µk , σk }Kk=1 с помощью описанного выше ЕМ-алгоритма, а затем номер кластера дляобъекта xn определяется с помощью формулы (16).Матрица ковариации в модели смеси главных компонент требует задания dD + 1 − d(d + 1)/2параметров (величина d(d+1)/2 вычитается, т.к.

матрица ковариации определяется с точностьюдо ортогональной матрицы поворота системы координат в линейном подпространстве).Произвольная симметричная неотрицательно определенная матрица размера D × D задаетсяD(D + 1)/2 параметрами, а диагональная матрица — D параметрами. Таким образом,модель смеси главных компонент имеет смысл применять для решения задачи кластеризациив том случае, когда восстановление смеси произвольных нормальных распределений непредставляется возможным в силу ограниченности выборки (для полной смеси нужноопределить K(D(D + 1)/2 + D + 1) параметров, а для смеси главных компонент толькоK(dD + 1 − d(d + 1)/2 + D + 1) параметров).

Кроме того, при применении смеси произвольныхнормальных распределений кластеры представляют собой компактные шарообразные формы,а то время как в смеси главных компонент кластеры образуют объекты, лежащие в одномлинейном подпространстве заданной размерности.В качестве примера рассмотрим кластеризацию двухмерной выборки данных,представленной на рис. 9a, с помощью трех методов: 1) восстановление смеси произвольныхнормальных распределений (см.

Характеристики

Тип файла
PDF-файл
Размер
1,28 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6505
Авторов
на СтудИзбе
302
Средний доход
с одного платного файла
Обучение Подробнее