Главная » Просмотр файлов » 5 Уменьшение размерности описания данных - метод главных компонент

5 Уменьшение размерности описания данных - метод главных компонент (1162173)

Файл №1162173 5 Уменьшение размерности описания данных - метод главных компонент (Д.П. Веторв, Ю.И. Журавлёв - Лекции)5 Уменьшение размерности описания данных - метод главных компонент (1162173)2019-09-19СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

Конспект лекции«Уменьшение размерности описания данных: метод главных компонент»по курсу «Математические основы теории прогнозирования» 2011Проблема анализа многомерных данныхПри решении различных задач распознавания предполагается, что в наличии имеетсянекоторая выборка объектов, и для каждого объекта вычислен один и тот же наборпризнаков. На практике объекты могут быть представлены сложными многомерными данными,например, изображениями, набором кривых, текстом, ДНК-микрочипами и т.д. (см.

рис. 1).Поэтому возникает задача извлечения из входных многомерных данных набора признаков,информативных с точки зрения дальнейшего решения задачи распознавания.Рис. 1: Примеры многомерных данных.Любые многомерные данные всегда можно представить в виде вектора чисел. В случаеизображений достаточно развернуть матрицу пикселей в вектор. Для текстов можно вычислитьколичество раз, которое встречается каждое слово в тексте, и сформировать вектор чисел,длина которого определяется общим числом слов в словаре. Подобные вектора чисел имеют, какправило, большую длину, а содержащиеся в них признаки, как правило, малоинформативны.Поэтому рассматривается задача сокращения размерности описания данных с целью полученияотносительно компактного множества информативных признаков.Рассмотрим задачу классификации изображений рукописных цифр MNIST1 .

Здесь имеетсянекоторое количество черно-белых изображений, на каждом из которых представлена однацифра (см. рис. 2). Задача состоит в автоматическом определении цифры для входногоизображения (задача классификации на 10 классов).Для того, чтобы применить методы распознавания в данной задаче, необходимопредварительно выбрать пространство признаков, характеризующее изображения цифр. Впростейшей случае в качестве признаков можно взять исходные интенсивности пикселовизображения.

Тогда для изображения размера 28 × 28 получаем 784 признака. Такой способ1Исходные данные можно скачать по адресу http://yann.lecun.com/exdb/mnist/1Рис. 2: Примеры изображений рукописных цифр из базы данных MNIST.формирования признакового пространства обладает рядом существенных недостатков. Вопервых, получается большое количество признаков. Например, для относительно небольшихизображений размера 300 × 200 получается 60000 признаков. Большое количество признаковприводит к высоким временным затратам на обработку данных, большим объемам памяти,требуемой для хранения информации, а также к необходимости сбора большого числапрецедентов для уверенного восстановления скрытых зависимостей в существенно многомерномпространстве.

Другим серьезным недостатком полученного признакового пространстваявляется тот факт, что близкие в пространстве признаков объекты не соответствуют одним итем же классам (см. рис. 3a). Выполнение гипотезы компактности является одним из основныхтребований для большинства методов распознавания. Методы уменьшения размерности вданных позволяют получать представление выборок в маломерных пространствах, обладающихрядом хороших свойств. В частности, для изображений рукописных цифр метод главныхкомпонент позволяет получить существенно более качественное признаковое пространство (см.рис.

3b).1’1’’2’’3’0.92’1’’2’’3’00.8-20.7Feature 3430.6-40.5-60.40.3-80.2-100.1000.20.40.6Feature 3420.8-1215(a)0-5(b)Рис. 3: Проекция выборки изображений цифр ’1’, ’2’ и ’3’ на два признака, соответствующихинтенсивностям пикселов (a) и на два признака, полученных с помощью метода главныхкомпонент (b).DПусть имеется некоторая выборка объектов X = {xn }Nn=1 , xn ∈ R . Задача уменьшенияразмерности состоит в получении представления этой выборки в пространстве меньшей2dразмерности T = {tn }Nn=1 , tn ∈ R .

Здесь d ≪ D, но в частных случаях d может и совпадать сD. Уменьшение размерности в описании данных может преследовать множество целей:• Сокращение вычислительных затрат при обработке данных;• Борьба с переобучением. Чем меньше количество признаков, тем меньше требуетсяобъектов для уверенного восстановления скрытых зависимостей в данных и тем вышекачество восстановления подобных зависимостей;• Сжатие данных для более эффективного хранения информации. В этом случае помимопреобразования X → T требуется иметь возможность осуществлять также обратноепреобразование T → X;• Визуализация данных.

Проектирование выборки на двух-/трехмерное пространствопозволяет графически представить выборку;• Извлечение новых признаков. Новые признаки, полученные в результате преобразованияX → T , могут оказывать значимый вклад при последующем решении задачраспознавания (например, как метод главных компонент в случае рис.

3b);• и др.Заметим, что описанные далее методы уменьшения размерности относятся к классу методовобучения без учителя, т.е. в качестве исходной информации выступает только признаковоеописание объектов X. В частности, в задаче классификации рукописных цифр результат,показанный на рис.

3b, был получен без использования информации о цифрах (метках класса).Метод главных компонентМетод главных компонент (разложение Карунена-Лоева, principal component analysis, PCA)является простейшим методом уменьшения размерности в данных. Идея метода заключаетсяв поиске в исходном пространстве гиперплоскости заданной размерности с последующимпроектированием выборки на данную гиперплоскость. При этом выбирается та гиперплоскость,ошибка проектирования данных на которую является минимальной в смысле суммы квадратовотклонений.Пусть D = 2, d = 1, т.е.

задача состоит в проектировании двухмерных данных на прямую.Предположим далее, что прямая проходит через начало координат, а ее направление задаетсяединичным вектором u, ∥u∥ = 1 (см. рис. 4a). Тогда величина проекции вектора x на этупрямую составляет ∥xpr ∥ = uT x, а сам вектор проекции определяется как xpr = ∥xpr ∥u.

Потеореме Пифагора квадрат ошибки проектирования вычисляется как∥xerr ∥2 = ∥x∥2 − ∥xpr ∥2 = xT x − uT xxT u.Таким образом, критерий средней ошибки проектирования выборки X на прямую,задаваемую единичным вектором u, может быть записан как[]NNN∑∑111 ∑ TJ=(x xn − uT xn xTn u) =xT xn − u Txn xTn u.N n=1 nN n=1 nN n=13Признак 2x^errx^xx^ prxerrxxprmuu00Признак 1(a)(b)Рис. 4: Проекция объекта x на прямую, задаваемую направляющим вектором u и векторомсдвига µ.∑Обозначим через S матрицу (1/N ) n xn xTn . Минимизация критерия J по u эквивалентнаследующей задаче условной максимизации:uT Su → max,(1)uuT u = 1.Записывая функцию Лагранжа L(u, λ) и приравнивая к нулю все ее производные, получимнеобходимое условие экстремума:L(u, λ) = uT Su + λ(1 − uT u),∇u L(u, λ) = 2Su − 2λu = 0,∂L(u, λ) = 1 − uT u = 0,∂λ⇒ Su = λu,(2)⇒ uT u = 1.(3)Условие (2) означает, что оптимальный вектор u является собственным вектором матрицыS, отвечающим некоторому собственному значению λ.

Заметим, что собственный вектор всегдаопределен с точностью до нормы, поэтому условию (3) всегда можно удовлетворить.Условия (2),(3) являются необходимыми условиями экстремума. Для того, чтобы найтиточку глобального условного максимума критерия (1), подставим условие (2) в критерий (1):J = uT Su = λuT u = λ.Таким образом, оптимальный вектор u является собственным вектором матрицы S,отвечающим ее максимальному собственному значению λmax .Теперь рассмотрим случай, когда прямая не проходит через начало координат (см.рис.

4b). Вектор сдвига прямой µ относительно начала координат всегда можно выбратьперпендикулярно прямой, т.е. µT u = 0. Задача поиска прямой с минимальной ошибкойпроектирования может быть сведена к рассмотренной выше задаче путем перехода от объектов4xn к объектам x̂n = xn − µ:N1 ∑J=((xn − µ)T (xn − µ) − uT (xn − µ)(xn − µ)T u) =N n=1[]NNN∑∑1 ∑ T11(x xn − 2µT xn + µT µ − uT xn xTn u) =xT xn − 2µTxn + µT µ − uT Su.N n=1 nN n=1 nN n=1Приравнивая к нулю градиент J по µ, получаем:][NN1 ∑1 ∑∇µ J = −2xn + 2µ = 0 ⇒ µopt =xn .N n=1N n=1После того, как µ и u найдены, осталось спроектировать выборку X на найденную прямую:tn = uT (xn − µ).(4)Сами объекты выборки в исходном пространстве после проектирования можно вычислитьследующим образом:xn,pr = tn u + µ.(5)Теперь пусть d является произвольным.

Следовательно, нам требуется найти вектор сдвигаµ и направляющие векторы гиперплоскости u1 , . . . , ud такие, чтобы ошибка проектированиявыборки на эту гиперплоскость была бы минимальна. Рассуждая аналогично случаю d = 1,легко показать, чтоN1 ∑µ=xn ,N n=1Sui = λi ui , i = 1, . . . , d,λ1 ≥ λ2 ≥ . . . λD .(6)Таким образом, оптимальные ui являются собственными векторами матрицы S, отвечающиеее d наибольшим собственным значениям. Обозначим через U матрицу [u1 , . . . , ud ]. Тогдаредукция X при проектировании на оптимальную гиперплоскость вычисляется какtn = (xn − µ)T U,а сами точки проекции определяются какxn,pr = tTn U + µ.Метод главных компонент через критерий максимизации разброса вданныхНаряду с критерием минимизации ошибки проектирования можно рассмотретьальтернативный критерий поиска гиперплоскости, связанный с максимизацией разбросаспроектированных точек выборки. Рассмотрим снова простейшую ситуацию D = 2, d = 1.Обозначим через ti случайную величину, соответствующую значению i-ого признака55.53524.5413.5302.5−121.5−210.51234−3−35(a)−2−10123(b)Рис.

5: Пример применения метода главных компонент. На рис. a показана исходная выборкав двухмерном пространстве вместе с направлениеми, определяемыми собственными векторамивыборочной матрицы ковариации. На рис. b показан переход к некоррелированным признакам.в редуцированном пространстве Rd . Характеристикой разброса данных в одномерномпространстве является∑ выборочная дисперсия. Предположим, что наша выборка являетсяцентрированной, т.е.

Характеристики

Тип файла
PDF-файл
Размер
880,9 Kb
Тип материала
Высшее учебное заведение

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов лекций

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6510
Авторов
на СтудИзбе
302
Средний доход
с одного платного файла
Обучение Подробнее