49531 (Выделение ключевых слов в текстовых документах), страница 2
Описание файла
Документ из архива "Выделение ключевых слов в текстовых документах", который расположен в категории "". Всё это находится в предмете "информатика" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "информатика, программирование" в общих файлах.
Онлайн просмотр документа "49531"
Текст 2 страницы из документа "49531"
Слово «мама» же вообще можно не учитывать в векторном представлении. Так как оно встречается во всех предложениях коллекции, его значение TF*IDF всегда будет равно нулю.
Заметим, что все слова примера мы приводим к нормальной форме (лематизируем). Существуют противоречивые мнения относительно полезности данного шага в текстовой категоризации. Некоторые исследования (Baker, McCallum) отмечают снижение эффективности при использовании морфологической обработки, хотя в основном многие прибегают к ней, поскольку это способствует значительному сокращению размерности пространства.
Еще одним способом к сокращению словаря является возможный учет синонимии, так что слова – синонимы, объявляются одним термином словаря
Конечно, при данном подходе есть вероятность попадания в ключевые слова случайных специальных терминов, редких слов и имен собственных и другого «шума». Поэтому необходимо в предобработку текста включать алгоритмы повышающее качество отбора. Эвристики такого отбора чаще зависят от конкретно взятого случая.
Модель TF*IDF является, пожалуй, наиболее популярной. Однако используются и другие индексирующие функции, включая вероятные способы индексирования [3] и методики индексирования структурированных документов [4]. Иные функции индексации могут потребоваться в тех случаях, когда изначально обучающее множество не дано и документную частоту не удаётся посчитать. В этих случая TF*IDF меняют на эмпирические функции [2].
3. Экспериментальная оценка статистического анализа текста по модели TF*IDF
Для оценки выделения ключевых слов с помощью модели TF*IDF был разработан модуль, реализующий данный алгоритм. Целью эксперимента является оценка алгоритма.
В качестве входных примеров было использованы две коллекции документов. Коллекция COMPUTER включает в себя 450 статей по общекомпьютерной тематике (материал из электронной версии журнала «Компьютера»), коллекция ANIMAL включает 190 статей о животных (материал из Википедии).
Название | Количество документов | Суммарный объем |
COMPUTER | 450 | 12,6 Мб |
ANIMAL | 190 | 4,1 Мб |
Для каждого документа строилась векторная модель, в качестве ключевых брались 20 слов, набравших наибольший вес.
По каждому документу из коллекции проводилась экспертная оценка от 0 до 10 баллов (0 – ни одно из слов не может являться ключевым, 10 – все слова ключевые для данного документа). Данные по каждой коллекции усреднялись.
Эксперимент проходил в две стадии.
В первой стадии, для каждого документа коллекции была произведена следующая предварительная обработка.
-
лематизация – приведение слова к нормальной форме (проводилась с помощью парсера mystem от компании Yandex);
-
удаление стоповых слов (союзы, предлоги, некоторые наречия, одиночные буквы и цифры).
В ходе эксперимента были получены следующие результаты.
COMPUTER | ||
Балл | Количество оценок | Количество, в процентах |
0–2 | 0 | 0 |
3–5 | 77 | 17,11 |
6–8 | 324 | 72,00 |
9–10 | 49 | 10,89 |
Средняя оценка | 6,73 |
ANIMAL | ||
Балл | Количество оценок | Количество, в процентах |
0–2 | 0 | 0 |
3–5 | 6 | 3,16 |
6–8 | 132 | 69,47 |
9–10 | 52 | 27,37 |
Средняя оценка | 7,87 |
На второй стадии, помимо предобработки, проводившейся на первой стадии, были произведены дополнительные меры. Список стоповых слов был расширен некоторыми словами, не несущими смысловой нагрузки (например: глаголы быть, мочь), не входивших в первоначальный список.
Также была отделена некоторая часть слов, согласно законам Ципфа. Для каждого документа был построен вектор статистики входящих в него слов, и убирались слова с низкой оценкой. Параметры сокращения выбирались эмпирически и составили примерно 5%. Слова с высокой оценкой не убирались, так как слова не несущие смысловой нагрузки, но часто встречающиеся в документе, в большинстве своем отделились на этапе удаления стоповых слов.
На втором этапе получены следующие результаты.
COMPUTER | ||
Балл | Количество оценок | Количество, в процентах |
0–2 | 0 | 0 |
3–5 | 64 | 14,22 |
6–8 | 338 | 75,11 |
9–10 | 48 | 10,67 |
Средняя оценка | 6,8 |
ANIMAL | ||
Балл | Количество оценок | Количество, в процентах |
0–2 | 0 | 0 |
3–5 | 0 | 0 |
6–8 | 135 | 71,05 |
9–10 | 55 | 28,95 |
Средняя оценка | 8,07 |
Сводные диаграммы по обоим этапам (рисунки 3.1, 3.2).
Полученные результаты показывают, что метод вполне справляется с отделением ключевых слов. Однако часто высокие позиции занимают слова, не являющиеся основными для документа.
Предобработка документов, снижение уровня «шума» в документе привела к повышению качества выделения ключевых слов.
Заключение
Законы Ципфа описывают любой текст на основе частотного анализа вхождения слов в текст. Однако этого явно недостаточно для оценки документа в коллекции. Модель TF*IDF позволяет перейти к математической, векторной модели текста, выделить список ключевых слов.
В ходе проведенного эксперимента показана возможность применения модели на реальных примерах. Найдены некоторые эвристические приемы, позволяющие улучшить выделение ключевых слов: расширение списка стоповых слов, статистическое отделение незначащих слов.
Из преимуществ метода следует отметить высокую производительность, гибкость к данным.
Однако у этого метода есть существенный недостаток: при построении вектора не учитывается порядок слов, контекст, то есть важная семантическая составляющая текста.
Из возможных перспективных улучшений метода отметим:
-
автоматизация выбора эвристик для расширения стоп-листа;
-
автоматизация выбора параметра при отбрасывании не несущих смысловой нагрузки слов по законам Ципфа;
-
при построении учитывать расположение слов в документе;
-
объединение, разбиение текста для возможно более качественного построения векторного представления.
Библиографический список
-
Apte, C., Damerau, F.J., Weiss, S.M., Automated learning of decision rules for text categorization. ACM Transactions on Information Systems 12, 3, 233–251., 1994
-
Dagan, I., Karov, Y., Roth, D., Mistake-driven learning in text categorization. In Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing (Providence, US, 1997), pp. 55–63., 1997
-
Fuhr, N., Govert, N., Lalmas, M., and Sebastiani, F., Categorisation tool: Final prototype. Deliverable 4.3, Project LE4–8303 «EUROSEARCH», Commission of the European Communities, 1998
-
Larkey, L.S., Croft, W.B., Combining classifiers in text categorization. In Proceedings of SIGIR‑96, 19th ACM International Conference on Research and Developmentin Information Retrieval (Zurich, CH, 1996), pp. 289–297., 1996
-
Lewis, D.D., An evaluation of phrasal and clustered representations on a text categorization task. In Proceedings of SIGIR‑92, 15th ACM International Conference on Researchand Development in Information Retrieval (Kobenhavn, DK, 1992), pp. 37–50., 1992
-
Salton, G. and McGill, M.J. Introduction to modern information retrieval. McGraw-Hill, 1983.
-
T. Joachims A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization In Proc. of the ICML'97, 143–151, 1997.
-
Андреев А.М. Березкин Д.В. Сюзев В.В., Шабанов В.И. Модели и методы автоматической классификации текстовых документов // Вестн. МГТУ. Сер. Приборостроение. М.: Изд-во МГТУ. – 2003. – №3.
-
Андреев А.М., Березкин Д.В., Морозов В.В., Симаков К.В. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа НПЦ «ИНТЕЛЛЕКТ ПЛЮС»