Уменьшение размерности в данных. Метод главных компонент (1185332)

Файл №1185332 Уменьшение размерности в данных. Метод главных компонент (Уменьшение размерности в данных. Метод главных компонент.pdf)Уменьшение размерности в данных. Метод главных компонент (1185332)2020-08-252020-08-25СтудИзба

Уменьшение размерности в данных. Метод главных компонент.pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

Материалы к лекции«Уменьшение размерности в данных. Метод главныхкомпонент»по курсу «Математические основы теориипрогнозирования» 2010Рассмотрим задачу классификации изображений рукописных цифр MNIST1 . Пусть имеетсянекоторое количество черно-белых изображений, на каждом из которых представлена однацифра (см. рис.

1). Задача состоит в автоматическом определении цифры для входногоизображения.Рис. 1: Примеры изображений рукописных цифр из базы данных MNIST.Для того, чтобы применить методы распознавания в данной задаче, необходимопредварительно выбрать пространство признаков, характеризующее изображения цифр. Впростейшей случае в качестве признаков можно взять исходные интенсивности пикселовизображения. Тогда для изображения размера 28 × 28 получаем 784 признака.

Такой способформирования признакового пространства обладает рядом существенных недостатков. Вопервых, получается большое количество признаков. Например, для относительно небольшихизображений размера 300 × 200 получается 60000 признаков. Большое количество признаковприводит к высоким временным затратам на обработку данных, большим объемам памяти,требуемой для хранения информации, а также к необходимости сбора большого числапрецедентов для уверенного восстановления скрытых зависимостей в существенно многомерном1Исходные данные можно скачать по адресу http://yann.lecun.com/exdb/mnist/11’1’’2’’3’0.92’1’’2’’3’00.8-20.7Feature 3430.6-40.5-60.40.3-80.2-100.1000.20.40.6Feature 3420.8-1215(a)0-5(b)Рис. 2: Проекция выборки изображений цифр ’1’, ’2’ и ’3’ на два признака, соответствующихинтенсивностям пикселов (a) и на два признака, полученных с помощью метода главныхкомпонент (b).пространстве.

Другим серьезным недостатком полученного признакового пространстваявляется тот факт, что близкие в пространстве признаков объекты не соответствуют одним итем же классам (см. рис. 2a). Выполнение гипотезы компактности является одним из основныхтребований для большинства методов распознавания. Методы уменьшения размерности вданных позволяют получать представление выборок в маломерных пространствах, обладающихрядом хороших свойств. В частности, для изображений рукописных цифр метод главныхкомпонент позволяет получить существенно более качественное признаковое пространство (см.рис.

2b).DПусть имеется некоторая выборка объектов X = {xn }Nn=1 , xn ∈ R . Задача уменьшенияразмерности состоит в получении представления этой выборки в пространстве меньшейdразмерности T = {tn }Nn=1 , tn ∈ R . Здесь d ≪ D, но в частных случаях d может и совпадать сD. Уменьшение размерности в описании данных может преследовать множество целей:• Сокращение вычислительных затрат при обработке данных;• Борьба с переобучением. Чем меньше количество признаков, тем меньше требуетсяобъектов для уверенного восстановления скрытых зависимостей в данных и тем большекачество восстановления подобных зависимостей;• Сжатие данных для более эффективного хранения информации.

В этом случае помимопреобразования X → T требуется иметь возможность осуществлять также обратноепреобразование T → X;• Визуализация данных. Проектирование выборки на двух-/трехмерное пространствопозволяет графически представить выборку;• Извлечение новых признаков. Новые признаки, полученные в результате преобразованияX → T , могут оказывать значимый вклад при последующем решении задачраспознавания (например, как метод главных компонент в случае рис. 2b);2• и др.Заметим, что все описанные далее методы уменьшения размерности относятся к классуметодов обучения без учителя, т.е. в качестве исходной информации выступает толькопризнаковое описание объектов X. В частности, в задаче классификации рукописных цифррезультат, показанный на рис.

2b, был получен без использования информации о цифрах.1Метод главных компонентМетод главных компонент (разложение Карунена-Лоева, principal component analysis,PCA) является простейшим методом уменьшения размерности в данных, идеи котороговысказывались еще в 19 веке [1, 2]. Идея метода заключается в поиске в исходном пространствегиперплоскости заданной размерности с последующим проектированием выборки на даннуюгиперплоскость. При этом выбирается та гиперплоскость, ошибка проектирования данных накоторую является минимальной в смысле суммы квадратов отклонений.Рассмотрим произвольный ортонормированный базис в пространстве RD : w1 , .

. . , wD ,Twi wj = δij , где δij = [i = j] – символ Кронекера. Не ограничивая общности, будем считать,что первые d векторов этого базиса w1 , . . . , wd образуют базис искомой гиперплоскости. Тогдаточки гиперплоскости определяются какx = w1 t1 + · · · + wd td + µ = W t + µ,где t1 , . . . , td – координаты точки x в базисе гиперплоскости, W = (w1 | . .

. |wd ) ∈ RD×d –матрица, столбцы которой представляют собой базисные вектора w1 , . . . , wd , µ ∈ RD –вектор сдвига. Поиск гиперплоскости, обеспечивающей минимальную квадратичную ошибкупроектирования, может быть записан какJ=N∑∥xn − W tn − µ∥2 →n=1minw1 ,...,wd ,t1 ,...,td ,µ.(1)Введем следующие обозначения:x̄ =N1 ∑xn – выборочное среднее,N n=1N1 ∑S=(xn − x̄)(xn − x̄)T – выборочная матрица ковариации.N n=1Рассмотрим собственные вектора и собственные значения матрицы S: S = QΛQT , где Λ =diag(λ1 , . . .

, λD ), Q – ортогональная матрица (QT Q = I), в столбцах которой стоят собственныевектора. Предположим, без ограничения общности, что собственные значения отсортированыпо убыванию, т.е. λ1 ≥ λ2 ≥ · · · ≥ λD . Можно показать [1, 2] (см. Приложение A), что задачаоптимизации (1) имеет следующее аналитическое решение: w1 , . . . , wd – собственные вектораматрицы S, отвечающие d наибольшим собственным значениям λ1 ≥ λ2 ≥ ·∑· · ≥ λd , µ = x̄,tn = W T (xn − x̄). При этом значение критерия J в точке минимума равно Ni=d+1 λi .

Такимобразом, величина ошибки проектирования для оптимальной гиперплоскости составляет суммудисперсий данных по отбрасываемым размерностям, определяемым собственными векторамиwd+1 , . . . , wD .35.53524.5413.5302.5−121.5−210.51234−3−35−2(a)−10123(b)Рис. 3: Пример применения метода главных компонент.

На рис. a показана исходная выборкав двухмерном пространстве вместе с направлениеми, определяемыми собственными векторамивыборочной матрицы ковариации. На рис. b показан переход к некоррелированным признакам.Наряду с критерием минимизации ошибки проектирования можно рассмотретьальтернативный критерий поиска гиперплоскости, связанный с максимизацией разбросаспроектированных точек выборки. Пусть Ŝ – выборочная матрица ковариации дляспроектированных точек выборки. Тогда величину разброса можно определить как tr(Ŝ).В одномерном случае этот критерий совпадает с дисперсией данных.

Можно показать, чторешение задачиtr(Ŝ) →maxw1 ,...,wd ,t1 ,...,td ,µсовпадает с решениемзадачи (1). При этом для оптимальной гиперплоскости величина∑dкритерия tr(Ŝ) = i=1 λi , где, как и раньше, λi – собственные значения выборочной матрицыковариации S для исходной выборки.Итак, метод главных компонент предполагает переход от исходного базиса к базису изсобственных векторов матрицы ковариации S с дальнейшим отбрасыванием проекций выборкина собственные вектора, отвечающие D − d наименьшим собственным значениям.

В базисе изсобственных векторов матрица ковариации S имеет диагональный вид Λ = diag(λ1 , . . . , λD ).Таким образом, признаки, получаемые с помощью метода главных компонент, являютсянекоррелированными. Переход к некоррелированным признакам часто является разумнымметодом предобработки исходных данных. Поэтому метод главных компонент применяется и вслучае d = D.Рассмотрим простой модельный пример применения метода главных компонент. Пустьисходная выборка представляет собой данные в двухмерном пространстве (см. рис. 3a). Прииспользовании метода главных компонент центр координат нового пространства переноситсяв центр выборки, а оси определяются собственными векторами выборочной матрицыковариации (см. рис.

3b). Таким образом, новые признаки являются некоррелированными.В том случае, если d = 1, то дополнительно осуществляется проекция выборкина направление, соответствующее наибольшему собственному значению (направление снаибольшей дисперсией). Для данного примера это координата x.Гиперплоскость, которая находится с помощью метода главных компонент, определенаоднозначно в том случае, если λd > λd+1 . При этом остается произвол в выборе системы4Алгоритм 1 Схема метода главных компонентВход: X ∈ RN ×D – исходная выборка данных, d – размерность редуцированного пространстваВыход: ∑T ∈ RN ×d – представление выборки в редуцированном пространстве// Вычисляем выборочное среднееx̄ = N1 Nn=1 xn ;xn ← xn − x̄; // Переносим начало координат в центр выборкиесли N > D тоS = N1 X T X; // Вычисляем выборочную матрицу ковариацииS = QΛQT , Λ = diag(λ1 , .

. . , λD ), QT Q = I, Q = (q 1 | . . . |q D ); // Находим собственныевектора и собственные значения матрицы ковариацииВыбираем d наибольших собственных значений λ1 ≥ λ2 ≥ . . . λd и соответствующие имсобственные вектора W = (q 1 | . . . |q d );иначеS = N1 XX T ;S = QΛQT , Λ = diag(λ1 , . . . , λD ), QT Q = I, Q = (q 1 | . . .

|q D ); // Находим собственныевектора и собственныезначения() матрицы SQ ← √1N X T Qdiag √1λ1 , . . . , √λ1 D ; // Переходим к нормированным собственным векторамвыборочной матрицы ковариацииВыбираем собственные вектора, соответствующие d наибольшим собственным значениямW = (q 1 | . . . |q d );T = XW ; // Проектируем выборку на выбранные направлениякоординат в линейном пространстве, определяемом гиперплоскостью, т.е. выборе значенийT . Этот выбор не оказывает влияние на величину ошибки при восстановлении данных,которая определяется только самой гиперплоскостью.

Характеристики

Тип файла

PDF-файл

Размер

1,28 Mb

Материал

Уменьшение размерности в данных. Метод главных компонент.pdf

Тип материала

Книга

Предмет

(ММО) Методы машинного обучения

Высшее учебное заведение

МГУ им. Ломоносова

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов книги

umenshenie-razmernosti-v-dannyh.-metod-glavnyh-komponent.pdf.rar

Уменьшение размерности в данных. Метод главных компонент.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.