Лекции-2016 (1126938), страница 14
Текст из файла (страница 14)
числопараметров wt и ✓td слишком велико|D| · |T | + |W | · |T |• PLSA не позволяет управлятьразреженностью– если в начале wt = 0, то в финале wt = 0– если в начале ✓td = 0 , то в финале ✓td = 0• PLSA неверно оценивает вероятностьновых слов: еслиnw = 0тоp̂(w|d) = 0, 8t 2 TОбработка текстовМодель LDA• Пусть распределение тем по документами слов по темам имеет априорноераспределение Дирихле (симметричное) сплотностью вероятностиf (x1 , x2 , . .
. xn ) = Cx↵11⇥ x↵21⇥ · · · ⇥ x↵n1• Чем больше параметр ↵ , тем болеесглаженные распределения будемполучатьОбработка текстовРаспределение Дирихле• Почему именно распределение Дирихле?– Математическое удобство– Порождает как сглаженные, так иразреженные векторы– Неплохо описывает кластерные структуры насимплексеОбработка текстовОтличие LDA от PLSA• В PLSA - несмещенные оценки максимумаправдоподобия:wtnwt=nt✓tdntd=nd• В LDA - сглаженные байесовские оценки:wtnwt +=nt +w0✓tdntd + ↵t=nd + ↵ 0Обработка текстовНедостатки LDA• Слабые лингвистические обоснования“особой роли” распределения Дирихле• В оригинальном методе сложный выводпараметров (требует интегрирования попространству параметров модели)• Сглаживание вместо разреживания• На практике на достаточно большихданных нет значимых различий междуPLSA и LDAОбработка текстовRobust PLSAZdw + ⇡dw + ✏⇡wp(w|d) =1+ +✏Тематическая компонента.
Совпадает сZdw моделью PLSA. Если она плохо объясняетизбыточную частоту слова в документа, тослово относят к фону или шуму⇡dw ⌘ pnoise (w|d)⇡w ⌘ pbgr (w), ✏Шумовая компонента. Слова специфичные дляконкретного документа d, либо редкиетермины, относящиеся к темам, слабопредставленным в данной коллекцииФоновая компонента. Общеупотребительныеслова, в частности, стоп-слова, не отброшенныена стадии предварительной обработкиПараметры, ограничивающие долю слов вкаждой компонентеОбработка текстовРеализации тематическихмоделей• Gensim - реализация для Python• BigARTM - Распределенная реализацияPLSA с аддитивный регуляризацией на C• Topic Modelling в Spark - распределеннаяреализация Robust PLSA с аддитивнойрегуляризацией на фреймворке Spark(https://github.com/akopich/dplsa)Обработка текстовПример LDA на• Википедия, в качестве коллекции• 6 часов 20 минут на MacBook Pro, IntelCore i7 2.3GHz, 16GB DDR3 RAM, OS XОбработка текстовДля дальнейшего изучения• Thomas Hofmann.
Probilistic latent semantic analysis // Proceedingsof the Twenty-Second Annual International SIGIR Conference onResearch and Development in Information Retrieval. 1999.• David M. Blei, Andrew Ng, Michael Jordan. Latent Dirichlet allocation// Journal of Machine Learning Research (3) 2003 pp. 993-1022.• Воронцов К. В., Потапенко А. А. Модификации EM-алгоритмадля вероятностного тематического моделирования // Машинноеобучение и анализ данных. — 2013• Коршунов Антон, Гомзин Андрей Тематическое моделированиетекстов на естественном языке // Труды Институтасистемного программирования РАН : журнал.
— 2012.• Воронцов К. В. Лекции по вероятностным тематическим моделям• Байесовские методы машинного обучения (курс лекций, Д.П.Ветров, Д.А. Кропотов)• machinelearning.ruОбработка текстовЗаключение• Тематические модели являются одним изспособов моделирования языка• Тематические модели являютсягенеративными моделями: каждыйдокумент определяет темы, а каждая темаопределяет слова• Тематическое моделирование можнорассматривать как задачу мягкойкластеризации документов.