Для студентов МГТУ им. Н.Э.Баумана по предмету АвтоматизацияАвтоматическое выявление полезной обратной связи из комментариев к обучающим материалам платформы "JetBrains Academy"Автоматическое выявление полезной обратной связи из комментариев к обучающим материалам платформы "JetBrains Academy"
2024-05-252024-05-25СтудИзба
ВКР: Автоматическое выявление полезной обратной связи из комментариев к обучающим материалам платформы "JetBrains Academy"
Описание
Аннотация
"JetBrains Academy". Алгоритм возвращает только полезную обратную связь
Ключевые слова: Python, естественный язык, датасет, машинное обучение с учителем, классификация, векторизация, n-граммы, регулярные выражения
The paper investigates the text classification methods that combine natural language and code blocks written in Python programming language. The study focuses on a Python program which automatically sorts feedback comments from students of the online educational platform "JetBrains Academy". The algorithm returns only the insightful feedback on the educational content published on the company website, which can later be used to improve the theoretical section as well as practical assignments. The program utilizes one the the four supervised machine learning methods described in the theoretical chapter, along with an additional check for the presence of certain n-grams in the texts, indicating the relevance of the comment. The paper also contains the detailed description of the
2
tagged dataset cleaning, the preprocessing of comments in it, and the vectorization of textual data.
Keywords: Python, natural language, dataset, supervised learning, classification, vectorization, n-gramms, regular expressions
3
Оглавление
Введение........................................................................................... 5
Глава 1. Обработка естественного языка........................................ 7
1.1 Язык как данные................................................................................. 7
1.2 Машинное обучение как метод обработки данных............................. 14
1.3 Классификация в текстовом анализе.................................................. 18
1.4 Обзор классификаторов на основе машинного обучения.................... 24
1.4.1 Логистическая регрессия............................................................. 24
1.4.2 Метод k-ближайших соседей....................................................... 30
1.4.3 Обучение на основе деревьев решений......................................... 34
1.4.4 XGBoost...................................................................................... 40
Глава 2. Программа для классификации комментариев на.......... 44
платформе "JetBrains Academy".................................................... 44
Комментарии на платформе "JetBrains Academy"..................................... 44
Предварительная обработка текстовых комментариев............................. 45
Векторизация текстовых комментариев................................................... 49
Решеточный поиск................................................................................. 51
Оценка работы моделей.......................................................................... 52
Словарь n-грамм.................................................................................... 55
Окончательный вариант алгоритма......................................................... 56
Заключение.................................................................................... 59
Список источников........................................................................ 61
Приложение 1.................................................................................. 65
Приложение 2.................................................................................. 66
Приложение 3.................................................................................. 66
Приложение 4.................................................................................. 67
Приложение 5.................................................................................. 67
Приложение 6.................................................................................. 68
4
Введение
Просматривать сообщения, оставленные пользователями необходимо,
так как на их основе можно сделать вывод о качестве теоретического материала или понятности практических заданий. Проделывать эту операцию вручную затратно по ресурсам, поэтому и появляется необходимость автоматическим образом осуществить сортировку комментариев так, чтобы с высокой точностью отбрасывать тексты, не несущие полезной информации для создателей обучающего контента, и сохранять большую часть актуальной обратной связи, которая поможет усовершенствовать качество подаваемого материала.
Целью данной выпускной квалификационной работы является разработка алгоритма для автоматического выявления полезной обратной связи из комментариев к обучающим материалам платформы "JetBrains Academy".
Для достижения поставленной цели необходимо решить следующие задачи:
выполняющие классификацию данных.
2. Выполнить предобработку корпуса комментариев, предоставленного компанией.
- работе исследуются методы классификации текстов, совмещающих в себе естественный язык и части кода на языке программирования Python. В практической части рассматривается реализация программы для автоматической сортировки комментариев студентов обучающей платформы
"JetBrains Academy". Алгоритм возвращает только полезную обратную связь
- обучающим материалам на сайте компании, на основе которых можно внести улучшения в теорию и практические задания. В программе использует один из четырех методов машинного обучения с учителем, описанных в теоретической главе, в сочетании с дополнительной проверкой на наличие в текстах определенных n-грамм, указывающих на релевантность комментария. Также в работе подробно описывается очистка исходного размеченного датасета, предобработка комментариев в нем и векторизация текстовых данных.
Ключевые слова: Python, естественный язык, датасет, машинное обучение с учителем, классификация, векторизация, n-граммы, регулярные выражения
The paper investigates the text classification methods that combine natural language and code blocks written in Python programming language. The study focuses on a Python program which automatically sorts feedback comments from students of the online educational platform "JetBrains Academy". The algorithm returns only the insightful feedback on the educational content published on the company website, which can later be used to improve the theoretical section as well as practical assignments. The program utilizes one the the four supervised machine learning methods described in the theoretical chapter, along with an additional check for the presence of certain n-grams in the texts, indicating the relevance of the comment. The paper also contains the detailed description of the
2
tagged dataset cleaning, the preprocessing of comments in it, and the vectorization of textual data.
Keywords: Python, natural language, dataset, supervised learning, classification, vectorization, n-gramms, regular expressions
3
Оглавление
Введение........................................................................................... 5
Глава 1. Обработка естественного языка........................................ 7
1.1 Язык как данные................................................................................. 7
1.2 Машинное обучение как метод обработки данных............................. 14
1.3 Классификация в текстовом анализе.................................................. 18
1.4 Обзор классификаторов на основе машинного обучения.................... 24
1.4.1 Логистическая регрессия............................................................. 24
1.4.2 Метод k-ближайших соседей....................................................... 30
1.4.3 Обучение на основе деревьев решений......................................... 34
1.4.4 XGBoost...................................................................................... 40
Глава 2. Программа для классификации комментариев на.......... 44
платформе "JetBrains Academy".................................................... 44
Комментарии на платформе "JetBrains Academy"..................................... 44
Предварительная обработка текстовых комментариев............................. 45
Векторизация текстовых комментариев................................................... 49
Решеточный поиск................................................................................. 51
Оценка работы моделей.......................................................................... 52
Словарь n-грамм.................................................................................... 55
Окончательный вариант алгоритма......................................................... 56
Заключение.................................................................................... 59
Список источников........................................................................ 61
Приложение 1.................................................................................. 65
Приложение 2.................................................................................. 66
Приложение 3.................................................................................. 66
Приложение 4.................................................................................. 67
Приложение 5.................................................................................. 67
Приложение 6.................................................................................. 68
4
Введение
- современном деловом мире одной из важных задач является получение обратной связи от потребителя. Если таких комментариев получается слишком много, возникает задача их автоматической сортировки.
- данной работе по заказу компании "JetBrains Academy" предпринята попытка автоматического выявления полезных комментариев к обучающим материалам по программированию.
Просматривать сообщения, оставленные пользователями необходимо,
так как на их основе можно сделать вывод о качестве теоретического материала или понятности практических заданий. Проделывать эту операцию вручную затратно по ресурсам, поэтому и появляется необходимость автоматическим образом осуществить сортировку комментариев так, чтобы с высокой точностью отбрасывать тексты, не несущие полезной информации для создателей обучающего контента, и сохранять большую часть актуальной обратной связи, которая поможет усовершенствовать качество подаваемого материала.
Целью данной выпускной квалификационной работы является разработка алгоритма для автоматического выявления полезной обратной связи из комментариев к обучающим материалам платформы "JetBrains Academy".
Для достижения поставленной цели необходимо решить следующие задачи:
- Изучить современные алгоритмы машинного обучения,
выполняющие классификацию данных.
2. Выполнить предобработку корпуса комментариев, предоставленного компанией.
- Преобразовать комментарии в векторный формат.
Характеристики ВКР
Предмет
Учебное заведение
Семестр
Просмотров
1
Размер
2,38 Mb
Список файлов
Автоматическое выявление полезной обратной связи из комментариев к обучающим материалам платформы %22JetBrains Academy%22.doc