Диссертация (1137276), страница 4
Текст из файла (страница 4)
Как правило, задача категоризации текстов решается спомощью методов машинного обучения. Исчерпывающий обзор подходов к решению этой задачи приведен в [16]. В этом обзоре показано, в том числе, чтопредставление коллекции текстов в виде общей матрицы терм–текст делает возможным использование любого метода машинного обучения.
В статьях [17] и[18]. впервые возникает задача классификации текстов по тональности, котораязаключается в том, чтобы определить имеет текст положительную или отрицательную окраску. Чаще всего, речь идет об отзывах на какие-либо товары,фильмы, музыкальные альбомы, продукты и т.д. [21]. В таком случае возникаетпотребность понять, остался ли пользователь доволен или нет. Эта задача тожерешается с помощью методов машинного обучения. На вход методу машинногообучения поступает стандартная матрица терм–текст, при этом, текстам из обучающей выборки приписан либо положительный, либо отрицательный класс.В более поздних работах по классификации текстов по тональности используются вспомогательные ресурсы, такие как WordNet [19].
Согласно [15] методыкластеризации текстов востребованы, в основном, в поисковых системах дляулучшения результатов поиска или сжатого представления найденных по запросу текстов. Обзор методов кластеризации текстов [20] показывает, что чащевсего используются либо методы иерархического кластерного анализа, либо метод -Means и его модификации. На вход этим методам подается стандартнаяматрица терм–текст, по которой и находятся кластеры.Благодаря своей популярности векторная модель получила несколько направлений развития. К ним относятся обобщенная векторная модель(generalized vector space model, GVSM) [21], векторные модели семантики [22—24] и, в некотором смысле, вероятностная модель релевантности [2] и моделискрытых тем [25; 26], которые заслуживают отдельного рассмотрения.
Обобщенная векторная модель [21] позволяет уйти от принципа попарной независимоститермов и учесть попарную корреляцию между векторами, соответствующимитермам, в новом пространстве большей размерности. В исходной формулировке пространство векторной модели имеет размерность равную числу термов17в данной коллекции. В обобщенной векторной модели рассматривается пространство размерности 2 . В этом пространстве базис задается векторами каждый из которых соответствует конъюнктивному одночлену : (11 ) ∩ (22 ) ∩ · · · ∩ ( ),где⎧⎨ ( ) = , = 1 ( ) =⎩ (¯ ) = ¯ , = 0 – множество текстов, содержащих терм , а определяет отрицаниепеременной .
В [21] предложен вычислительный алгоритм построения 2 таких конъюктивных одночленов по матрице смежности термов. Таким образом,в обобщенной векторной модели текст представляется вектором в пространстве,образованном 2 базисными векторами, имеющими смысл связей между термами.Векторные модели семантики основаны на гипотезе, сформулированнойв [8]. Согласно этой гипотезе, слова, встречающиеся в одинаковом контексте,имеют одинаковый смысл. В основе большинства векторных моделей семантикилежит матрица терм-терм, построенная по аналогии с традиционной матрицейтерм-текст [12]. В [23], например, матрица терм-терм строится исключительнодля существительных, встречающихся рядом друг с другом в окне ± 2 слова.Для построения такой матрицы необходимо, во-первых, извлечь все существительные из текста в том порядке, в котором они встречаются в тексте, во-вторых, расположить их в этом же порядке по строкам и столбцам матрицы, в третьих, убрать все стоп-слова из текста (под стоп-словами понимаются предлоги,артикли и местоимения).
К значению в клетке матрицы добавляется единица,если слов по строке встречается среди двух слов справа или слева от словапо столбцу в тексте, очищенном от стоп-слов. Далее такая матрица используется для поиска синонимов: согласно косинусной мере, которая будет описананиже, определяются пары близких друг другу векторов – столбцов матрицы,соответствующих разным словам. В [23] этот алгоритм был протестирован наматериалах экзамена TOEFL. В результате применения этого алгоритма синонимов было найдено порядка 90% пар синонимичных пар слов из заданий напоиск синонимов.
Анализу таких матриц посвящены работы [24] и [22]. В пер18вой работе используются ансамбли классификаторов, а во второй – собственный метод кластеризации, названый «Комитеты кластеризации» (“ClusteringBy Committee”) для выделения групп синонимов. Таким образом, в этом случаевекторная модель используется для представления смысла слова вектором других слов. Некоторым упрощением векторной модели является бинарная модельнезависимости (“Binary Independent Model”), разработанная авторами векторной модели [27].
Ее основное отличие от исходной модели заключается в том,что значения матрицы терм-текст являются бинарными и показывают, встречается ли терм в тексте или нет. Это отличие оказывается существенным ипозволяет использовать Байесовский принцип для определения релевантностистроки тексту (которая будет описана ниже в Главе 2).На векторной модели представления текста основана и вероятностная модель релевантности, предложенная в [2]. Эта модель релевантности используется, в основном, в задаче поиска по запросу. Согласно этой модели слова в текстене независимы, а распределены по смеси Пуассоновских распределений.
Тем неменее, и запрос, и текст, следуя векторной модели, представляется векторомчастот в пространстве слов.1.3Языковая модель представления текстаЯзыковая модель (language model) [3] позволяет оценить вероятность появления последовательности слов в тексте.
В отличии от векторной и вероятностных моделей, языковая модель является генеративной [6; 7], то есть, позволяет генерировать текст. В этой модели текст представляется с помощью цепейМаркова, где каждому узлу соответствует одно слово, а на ребрах – вероятности того, что одно слово встретится после другого. Модель считается генеративной, поскольку позволяет сгенерировать искусственный текст. Обратимсяк двум наиболее востребованным видам языковых моделей: модели униграм(одиночных слов) и модели биграм (последовательных пар слов).При использовании языковых моделей нет необходимости в формальномпреставлении всего текста.
Говорят о вероятности текста, или о вероятности появления его фрагмента – последовательности слов. Так же как и векторная модель, модель униграм основана на предположении о независимости появления19слова в тексте от предыдущего слова. Согласно модели униграм, текст 1, – этопоследовательный набор слов из слов , = 1,, причем вероятность всеготекста равна произведению (1, ) = (1 ,2 , .
. . , ) =∏︁ ( ),то есть, произведению вероятностей появления каждого слова по отдельности. В модели биграм вероятность появления слова зависит от вероятностипоявления предшествующего слова: ( |1 , 2 , . . . −1 ) ≈ ( |−1 ). Таким образом в модели биграм учитывается локальный контекст слова. Тогда вероятностьвсего текста: (1, ) = (1 ,2 , . . . , ) = (1 ) ×∏︁ ( |−1 ).=2Следуя принципу максимального правдоподобия, такая вероятность мо−1 , )жет быть оценена как ( |−1 ) = ((−1 ) , где (−1 , ) – частота пары слов−1 , в тексте, а (−1 ) – частота слова −1 .Аналогичным образом можно сформулировать языковую модель на буквенных последовательностях: вместо вероятности одного слова вычисляем вероятность одной буквы.
[3]В последнее время, языковые модели вновь стали популярны и востребованы среди исследователей благодаря обощению на непрерывный случай ипоявлению эффективных методов глубинного обучения для оценки параметровтаких моделей [28; 29].Языковые модели используются в тех случаях, когда важно сохранить короткие семантические связи: в задачах машинного перевода [30], распознаванияречи [31], исправлении опечаток [32]. Данная работа посвящена задачам другого рода, поэтому мы не будем в дальнейшем заострять внимание на языковыхмоделях.1.4Представление текста на основе моделей скрытых темТематические модели – это класс моделей, объеденный общим предположением о существовании скрытых (латентных) тем. Допустим, есть коллекция20текстов.
В этих текстах отражено некоторое количество тем. Темы представляются набором слов, а текст – набором тем. Каждый текст характеризуется вектором, составленным из оценок степени принадлежности текста к различнымтемам. Каждая тема представляет собой вектор, состоящий из оценок степенипринадлежности слова к данной теме. Одна из первых тематических моделей –это латентно-семантический анализ (или латентно-семантическая индексация)[25]. Главное новшество латентно-семантического анализа заключается не столько в математических построениях, сколько в интерпретации получаемых результатов. Латентно-семантический анализ основан на следующем принципе: слова,похожие по смыслу, встречаются в похожих контекстах. Похожесть контекстовможет быть установлена с помощью сингулярного разложения матриц. Пусть – матрица слово (или любая его модификация, терм) – текст.
Строки в этойматрице соответствует термам, столбцы – текстам. Значения матрицы показывают, как часто встречается терм в тексте. Заметим, что иногда в матрицузаписывают не частоты, а − веса термов. В этом случае справедливо такназываемое сингулярное разложение, представляющее матрицу как произведение трех матриц:× = × Σ× ×,где –число термов, – число текстов, = min(,), rank() = ,Σ = diag(1 , . . . , ), матрицы , ортогональны.
Матрицы представляеттермы, матрица представляет тексты, диагональная матрица Σ – сингулярные значения. Сингулярные числа подчиняются следующем принципу: > 0,если 1 ≤ ≤ , = 0, если >≥ + 1. Сингулярное разложение матрицыпозволяет получить приближенное представление ранга исходной матрицы:ˆ× = × Σ× ×.ˆ слова и тексты представлены векторами размерноВ новой матрице сти значительно меньшей, чем исходная. Этот факт позволяет интерпретировать столбцы матрицы как группы близких по смыслу слов, т.е. скрытыетемы, а строки матрицы – как представления текстов в новом семантическомпространстве [25]. Модель латентного семантического анализа относят к классувекторных моделей, однако другие модели скрытых тем имеют более сложнуюструктуру и уходят от векторного представления текстов [6; 7].21К таким моделям относится модель вероятностного латентного семантического анализа [33].