Уменьшение размерности в данных. Метод главных компонент (1185332), страница 6
Текст из файла (страница 6)
13: Гистограммы для эксперимента, показанного на рис. 12. В первой строке представленыгистограммы распределения первой компоненты для истинного сигнала (а), метода главныхкомпонент (b) и анализа независимых факторов (c). Во второй строке представленыаналогичные гистограммы для второй компоненты (d-f).∑Здесь под символом z n (i ← j) понимается такой вектор z n , что zni = j, а под суммой {zk }k̸=i∑Kd∑ 1∑Ki−1 ∑Ki+1понимается сумма по всем компонентам zj кроме i-ой, т.е.
Kzd =1 .z1 =1 · · ·zi−1 =1zi+1 =1 · · ·Рассмотрим модельный пример применения анализа независимых факторов. Пусть имеетсязадача разделения двух независимых источников, где исходные сигналы представлены нарис. 12a. Наблюдаемые сигналы образуются путем смешивания исходных сигналов с матрицей[]0.8 0.3W =0.2 0.7и добавления небольшого гауссовского шума (см. рис. 12b). Использование метода главныхкомпонент приводит к результату, показанному на рис. 12c. Как и следовало ожидать, методглавных компонент не смог выделить исходные независимые сигналы.
Применение анализанезависимых факторов с параметрами K1 = K2 = 5 (см. рис. 12d), напротив, позволилонайти компоненты сигнала, которые совпадают с истинными с точностью до масштаба иумножения на −1. Действительно, уменьшение дисперсии скрытой компоненты t всегдаможет быть скомпенсировано соответствующим увеличением матрицы смешивания W . Поэтомумодель «анализ независимых факторов» не может определить дисперсию истинных скрытыхкомпонент.25Причины различных результатов метода главных компонент и анализа независимыхфакторов для модельной задачи можно проиллюстрировать с помощью гистограмм(см. рис.
13). Видно, что гистограммы истинных сигналов далеки от стандартного нормального.Поэтому метод главных компонент находит матрицу смешивания, отличную от истинной, чтобыобеспечить нормальность распределения своих скрытых компонент (как уже отмечалось выше,это всегда можно сделать).
Анализ независимых факторов благодаря более гибкой модели p(t)успешно справился с задачей и, в частности, обнаружил двумодальность и трехмодальностьдля первой и второй скрытой компоненты соответственно.Список литературы[1] J.J. Sylvester. On the reduction of a bilinear quantic of the nth order to the form of a sum of nproducts by a double orthogonal substitution // Messenger of Mathematics, 19, 1889, pp. 42–46.[2] K. Pearson.
On lines and planes of closest fit to systems of points in space // PhilosophicalMagazine 2, 1901, pp. 559–572.[3] M.E. Tipping, C.M. Bishop. Probabilistic Principal Component Analysis // Journal of the RoyalStatistical Society, B, 61(3), 1999, pp. 611–622.[4] C.M. Bishop. Pattern Recognition and Machine Learning. Springer, 2006.[5] Д.П. Ветров, Д.А. Кропотов, А.А. Осокин. Автоматическое определение количествакомпонент в ЕМ-алгоритме восстановления смеси нормальных распределений // Ж. вычисл.матем.
и матем. физ., 2010, т. 50, № 4, с. 1–14.[6] A. Hyvärinen, J. Karhunen, E. Oja. Independent Component Analysis. Wiley, 2001.[7] M.E. Tipping, C.M. Bishop. Mixtures of Probabilistic Principal Component Analysers // NeuralComputation 11(2), 1999, pp.
443–482.[8] H. Attias. Independent Factor Analysis // Neural Computation 11(4), 1999, pp. 803–851.26.