Для студентов МГТУ им. Н.Э.Баумана по предмету АвтоматизацияАвтоматическое определение стилистической принадлежности текстов по их статистическим параметрамАвтоматическое определение стилистической принадлежности текстов по их статистическим параметрам
2024-05-252024-05-25СтудИзба
ВКР: Автоматическое определение стилистической принадлежности текстов по их статистическим параметрам
Описание
3.5. Инструмент автоматического определения стилистической
принадлежности текстов........................................................................ 47
3.5.1. Описание алгоритма стилистической принадлежности текстов.. 47
3.5.2. Оценка качества работы модуля автоматического определения
стилистической принадлежности текстов............................................. 50
ЗАКЛЮЧЕНИЕ........................................................................................ 53
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ....................................... 55
ПРИЛОЖЕНИЕ А. Код программы автоматического определения
стилистической принадлежности текстов.................................................. 63
ПРИЛОЖЕНИЕ Б. Перечень текстов, использованных при создании
корпусов.................................................................................................. 69
2
ВВЕДЕНИЕ
- последние годы очень быстрыми темпами развивается область обработки естественных языков (англ. Natural Language Processing, NLP). Во многом это связано с тем, что с каждым годом объём текстовой информации,
используемой человечеством, увеличивается, и растёт потребность в более эффективных алгоритмах обработки и анализа документов, написанных на естественных языках. Особо важную роль играет возможность классифицировать получаемую информацию, используя компьютерные инструменты.
Таким образом, актуальность выбранной темы обусловлена необходимостью разработки новых методов автоматической обработки текстов и востребованностью новых методов классификации текстовой информации при помощи компьютеров.
Материалом исследования послужили данные четырёх корпусов текстов, представляющих различные функциональные стили русского языка (художественный, научный, деловой и публицистический). Объём каждого корпуса – 500 тыс. словоупотреблений.
Целью настоящего исследования является разработка компьютерного инструмента автоматического определения стилистической принадлежности текстов.
В соответствии с поставленной целью работы сформулированы следующие задачиисследования:
проанализировать ряд теоретических вопросов, связанных с выделением функциональных стилей текстов современного русского языка;
выделить отличительные квантитативные характеристики для каждого стиля;
сравнить собранные корпуса текстов, опираясь на выделенные характеристики;
3
проанализировать различные методы классификации текстовой информации;
создать авторский компьютерный инструмент определения
стилистической принадлежности для текстов на русском языке;
использовать разработанный компьютерный инструмент для обработки сформированных корпусов;
оценить возможность автоматического определения стилистической принадлежности текстов по выделенным
характеристикам.
Методы исследования, использованные в работе, включают стилистический и статистический анализ корпусов текстов русского языка.
Программное обеспечение, необходимое для проведения исследования, было подготовлено на языке python версии 2.7.13 и представляет собой реализацию алгоритма статистической обработки текста
и определения его стилистической принадлежности. Всем
Характеристики ВКР
Предмет
Учебное заведение
Семестр
Просмотров
1
Размер
763 Kb
Список файлов
Автоматическое определение стилистической принадлежности текстов по их статистическим параметрам.doc