Для студентов ПНИПУ по предмету ДругиеАнализ эмоциональной окраски текста на примере комментариев видеохостинга YouTubeАнализ эмоциональной окраски текста на примере комментариев видеохостинга YouTube
2024-05-242024-05-24СтудИзба
ВКР: Анализ эмоциональной окраски текста на примере комментариев видеохостинга YouTube
Описание
Аннотация
Объектом исследования в настоящей работе является анализ эмоциональной окраски текста комментариев на английском языке. Цель работы заключается в исследовании и описании подходов к автоматическому определению тональности текстов комментариев и последующей разработки алгоритма машинного обучения и использования словарей для лексического анализа. Работа выполнена на материале комментариев видеохостинга YouTube. Результатами исследования являются описание лингвистических и структурных особенностей комментариев, а также разработанные алгоритмы их векторизации.
2
Оглавление
Введение.................................................................................................... 4
Глава 1. Анализ тональности текстов........................................................... 6
1.1. Особенности и проблематика анализа текста................................... 6
1.2 Особенности видеохостинга YouTube.............................................. 9
1.3 Тональность текста и её особенности............................................. 10
1.4. SentiStrength................................................................................. 11
1.5. Выводы........................................................................................ 12
Глава 2. Разработанные методы анализа эмоциональной окраски текста..... 13
2.1 Методы машинного обучения........................................................ 14
2.1.1 Представление текста в векторном виде....................................... 15
2.2 Методы классификации................................................................. 17
2.3 Мера качества............................................................................... 20
2.4. Выводы........................................................................................ 21
Глава 3. Реализация алгоритмов оценки тональности комментариев
видеохостинга YouTube на Python............................................................. 22
3.1 Используемые модули................................................................... 22
3.2 Предобработка данных.................................................................. 23
3.3 Используемые функции................................................................. 26
3.4 Использованные модели................................................................ 27
3.5 Результаты.................................................................................... 29
3.6 Выводы......................................................................................... 31
Заключение.............................................................................................. 33
Список использованных источников.......................................................... 34
Приложение 1. Код программы................................................................. 37
3
Введение
Появление Интернета привело к быстрому росту количества разнообразных текстов: публицистических, научных, специальных и др. Отдельного внимания заслуживает особый вид текстовых данных, которые стали распространены в последние десятилетия благодаря онлайн-коммуникации. По различным оценкам, большая часть мировых данных не структурированы, что затрудняет работу с ними. Тексты социальных сетей не являются исключением. Они, как правило, представляют сложности для работы с ними без предварительного анализа. Поэтому необходимо разработать алгоритмы для обработки подобных данных. YouTube является примером популярной системы, которая насчитывает сотни миллионов пользователей по всему миру. Комментарии, которыми сопровождаются видеоролики, являются ценным материалом для исследования.
Цель работы заключается в анализе эмоциональной окраски комментариев на примере видеохостинга YouTube. В ходе выполнения работы будут решены следующие задачи:
Актуальность работы обусловлена тем, что системы анализа тональности позволяют организациям, компаниям
Объектом исследования в настоящей работе является анализ эмоциональной окраски текста комментариев на английском языке. Цель работы заключается в исследовании и описании подходов к автоматическому определению тональности текстов комментариев и последующей разработки алгоритма машинного обучения и использования словарей для лексического анализа. Работа выполнена на материале комментариев видеохостинга YouTube. Результатами исследования являются описание лингвистических и структурных особенностей комментариев, а также разработанные алгоритмы их векторизации.
2
Оглавление
Введение.................................................................................................... 4
Глава 1. Анализ тональности текстов........................................................... 6
1.1. Особенности и проблематика анализа текста................................... 6
1.2 Особенности видеохостинга YouTube.............................................. 9
1.3 Тональность текста и её особенности............................................. 10
1.4. SentiStrength................................................................................. 11
1.5. Выводы........................................................................................ 12
Глава 2. Разработанные методы анализа эмоциональной окраски текста..... 13
2.1 Методы машинного обучения........................................................ 14
2.1.1 Представление текста в векторном виде....................................... 15
2.2 Методы классификации................................................................. 17
2.3 Мера качества............................................................................... 20
2.4. Выводы........................................................................................ 21
Глава 3. Реализация алгоритмов оценки тональности комментариев
видеохостинга YouTube на Python............................................................. 22
3.1 Используемые модули................................................................... 22
3.2 Предобработка данных.................................................................. 23
3.3 Используемые функции................................................................. 26
3.4 Использованные модели................................................................ 27
3.5 Результаты.................................................................................... 29
3.6 Выводы......................................................................................... 31
Заключение.............................................................................................. 33
Список использованных источников.......................................................... 34
Приложение 1. Код программы................................................................. 37
3
Введение
Появление Интернета привело к быстрому росту количества разнообразных текстов: публицистических, научных, специальных и др. Отдельного внимания заслуживает особый вид текстовых данных, которые стали распространены в последние десятилетия благодаря онлайн-коммуникации. По различным оценкам, большая часть мировых данных не структурированы, что затрудняет работу с ними. Тексты социальных сетей не являются исключением. Они, как правило, представляют сложности для работы с ними без предварительного анализа. Поэтому необходимо разработать алгоритмы для обработки подобных данных. YouTube является примером популярной системы, которая насчитывает сотни миллионов пользователей по всему миру. Комментарии, которыми сопровождаются видеоролики, являются ценным материалом для исследования.
Цель работы заключается в анализе эмоциональной окраски комментариев на примере видеохостинга YouTube. В ходе выполнения работы будут решены следующие задачи:
- создание корпуса комментариев;
- анализ комментариев;
- разметка данных;
- разработка алгоритма, позволяющего оценивать комментарии как положительные или отрицательные.
Актуальность работы обусловлена тем, что системы анализа тональности позволяют организациям, компаниям
Характеристики ВКР
Предмет
Учебное заведение
Семестр
Просмотров
1
Размер
1,18 Mb
Список файлов
Анализ эмоциональной окраски текста на примере комментариев видеохостинга YouTube.doc