Лекция (3)
Описание файла
PDF-файл из архива "Лекция (3)", который расположен в категории "". Всё это находится в предмете "(миад) методы интеллектуального анализа данных" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Лекция 3:Тематическое моделирование,метод главных компонентСтатистическое обучение безучителяИногда называют задачей «самоорганизации»Все признаки равнозначны, нет отклика = (1 , … , ), поэтому:Обучение без учителя более «субъективное» (нет единых интуитивнопонятных мер качетсва типа «точности») и менее «автоматизируемо» Сложнее подбирать метапараметры и сравнивать полученные моделиВажность этого направления в Data mining велико:«Истинный data mining» - ищет неизвестные заранее зависимости без«подсказок» эксперта Много важных прикладных задач по сегментации, выявление скрытыххарактеристик, зависимостей между атрибутами и т.д. Для больших данных получить качественно размеченный набор тяжело илиневозможно, часто возникают задачи semisupervised learning, когдаразмечена лишь чатсь набораОсновные задачи обучениябез учителяБольшинство задач сводится к поиску скрытых (латентных)признаков или скрытых структур (групп или зависимостей) вданных:1 = 1 1 , … , , … , = (1 , … , )Основные случаи: z или кластеры, или признаки, иногда как вSOM (сетях Кохонена) по сути и то, и другое.Основные прикладные задачи если z - признаки:Предобработка данных (как правило перед применением регрессионныхмоделей или методов кластеризации) = сокращение пространствапризнаков k<<n, удаление корреляций (или других зависомостей) Тематической моделирование текстовых данных (переход из пространстватермов в пространство тематик) Свертка «транзакционной истории» в вектор признаков, особенно частоиспользуется в рекомендательных системах.Тематическое моделирование текстовИсходная задача:Каждый документ 1 , … , – вектор признаков впрострастве словаря, например созданный по схеме «мешокслов», вес i-го слова в документеКорпус (множество документов) представим в виде матрицыТематическая модель:1 = 1 1 , … , , … , = 1 , … , , где k<<n - скрытыепризнаки документа или веса тематикРекомендательные системыДано:Множество пользователей (клиентов) J Множество продуктов (услуг, ресурсов и т.д.) I Множество транзакций D <время, пользователь, услуга>Задача:Построить модель, которая по истории пользователя будетспособна предсказать какие продукту (услуги или ресурсы) егозаинтересуют.Решение на основе ассоциативных правил:реализовано в узле Link Analysis подставить события из истории пользователя во все правила инайти наиболее достоверное следующее событие.Альтернатива – на основе тематического моделированияРекомендательные системыИсходная задача:Транзакционная история представляется в виде матрицы,где , например, равно числу транзакций пользователя j поиспользованию продукта iТематическая модель:1 = 1 1 , … , , … , = 1 , … , , где k<<n - скрытыепредпочтения пользователя или веса тематикОбщая идея PCACтроится новый базис (линейное преобразование исходногопространства) такой, что:Центр координат совпадает с мат.
ожиданием наблюденийПервый вектор направлен таким образом, что дисперсия вдоль негоD U Vбыла максимальнойКаждый последующий вектор ортогонален предыдущим и направленпо направлению максимальной дисперсииПоследние компоненты – не важны!!!P NФормально:Два эквивалентных подхода:PPSVD разложение матрицы данныхСобственные значения ковариационной матрицыP NN NГеометрическая интерпретацияFirst Eigenvalue=1.94Исходные данныеПодпространствоЦентр данныхГлавные компонентыПроекции данныхSecond Eigenvalue=1.02Поиск собственных значений исобственных векторов ковариационнойРассчитаем (или корреляционую) ковариационную матрицу:Ковариация = 0 – независимы Ковариация > 0 – вместе растути убывают Ковариация < 0 – противофаза 1 , 1⋮C= , 1⋯⋱⋯ 1 , ⋮ , Проблема с.зн.:С*v=λ*vрешение: поиск корней , = [( − ( ))( − ( ))]|С - λ .
I|=0матрица положительно определенная – есть вещественные корниРезультат: λ – дисперсии, с.в. – главные компоненты1 = α11 1 + ⋯ + α1 , … , = α1 1 + ⋯ + α ,α2 = 1∀=1Сингулярное разложение в PCAX=Унитарная матрицаU левых SVTсингулярных векторовfactorsvariablesУнитарная матрица правыхсингулярных векторовfactorsvariablessamplesЕсли тексты:noisesignificantsig.significantnoisefactorsnoisefactorssamplesЕсли рекомендации:X – матрица корпуса документов,samples – документы, variables – термы,factors – тематики, U – представлениедокументов в прстранстве тематик, V –представление тематик в пространстветермов, S – веса тематикX – матрица частот покупок, samples –клиенты, variables – продукты, factors –предпочтения, U – представление клиентовв прстранстве предпочтений, V –представление продуктов в пространствепредпочтений, S – веса предпочтенийSVD разложение и обратная проекцияX nm U nn DnmVmTmSVD разложение матрицы X:SVD приближение (метод главных компонент):отбрасываются с.в., соотв.
наименьшим с.з.остается p-я часть главных с.в., которые характеризуют основныеTзависимости в Xmin X U p D pV pU p , D p ,V pс их помощью приближается исходная матрица:X (l 1) V pV p X (l )TОтбор числа главных компонентПример 1Пример 2ВизуализацияОдно из важнейших применений – проекция множестванаблюдений на пары главных компонентПример использования в SAS EMПример: преобразуем транзакционный набор ASSOC в матрицуклиент-продукт:Применяем метод главных компонент (раздел Modify):Пример использования в SAS EMПример использования в SAS EMРезультаты:Новые признаки продуктов(матрица V)Новые признаки клиентов(матрица U)Веса предпочтений (синг. числа lambda) =>Как узнать купит ли клиент u продукт v?Посчитать скалярное произведение <u,v>*lambdaКластеризация переменныхЗадачи:группировка пременных в иерархические кластеры так, чтобы водном кластере переменные были максимальнокоррелированы, а кластеры между собой нет Затем выбирается либо первая гл.
компонента кластера либолучший представитель кластераСуть алгоритма группировки переменныхНисходящая иерархическая кластеризация, сначала всепеременные в одном кластереЗатем повторяется процесс:••1.2.3.Выбор кластера (группы коррелирующих переменных) дляразбиенияДеление кластера на два с помощью метода гл. комп. свращениемПерераспределение переменных по кластерамШаг разбиенияFirst Eigenvalue=1.94Second Eigenvalue=1.02Поворот главных компонетПерераспределение переменныхX1FirstRCSecondRCX2X3Разбивать ли дальше?IgnoredFirst Eigenvalue=1.95Second Eigenvalue=0.05Варианты остановки (помимо порога на с.зн.):• Задать максимальное число кластеров• Задать минимум описанной вариации (дисперсии)Выбор представителей кластеровX2FirstClusterPC1-R 2own cluster1 – 0.90== 0.10121-R next closest1 – 0.01R2 = 0.90Также можно выбирать неавтоматически:• Эксперт «вручную»• По корреляции с откликомSecondClusterPCR2 = 0.01Пример использования в SAS EMВ разделе Explore узел:Пример использования в SAS EMОтбор переменных:Дополнительноновые координатыНеотрицательная матричнаяфакторизацияA ℝmn, (ai,j ≥ 0)Цель неотрицательной матричной факторизации состоит внахождении матриц Wk ℝmk и Hk ℝkn с неотрицательнымиэлементами, которые минимизируют целевую функцию:f (Wk , H k ) термы1A Wk H k22,kF<< min(m, n) a1,1 a1, 2 a1,n w1,1 w1,k a2,1 a2, 2 ...a2,n ...
...... ... ... ... wm ,1 wm ,k aaa m ,1 m , 2 m ,n AWkдокументытематики h1,1 h1,n ... ...... hk ,1 hk ,n Hkдокументы впространстветематикОртонормированная неотрицательнаяматричная факторизация (ОНМФ)1f (Wk , H k ) A Wk H k2Целевая функция:1.2.2F2W Wk ITk2FW1 ℝmk, H1 ℝkn инициализируются случайныминеотрицательными числамиВ цикле p раз выполняются итерационные формулы длявычисления матриц W и H:Hp 1b, jp 1i ,aWHWpb, jpi ,a((W p )T A) b, j((W p )T W p H p ) b, j, b, j : 1 b k , 1 j n( A( H p 1 )T W p ) i ,a(W p H p1 ( H p1 )T W p (W p )T W p ) i ,a, i, a : 1 i m, 1 a k.