Курсовая работа: Анализ тональности текстов новостных источников по отношению к заданному объекту
Описание
Оглавление
Введение........................................................................................................................................ 3
Постановка задачи........................................................................................................................ 6
Обзор литературы......................................................................................................................... 7
Глава 1. Предварительная обработка текста............................................................................ 13
Глава 2. Построение векторной модели текста....................................................................... 14
2.1. Метод Word2Vec.............................................................................................................. 14
2.2. Метод Bag Of Words........................................................................................................ 18
Глава 3. Определение тональности текста с помощью алгоритмов машинного обучения . 20
3.1. Наивный Байесовский классификатор.......................................................................... 25
3.2. Метод опорных векторов................................................................................................ 25
3.3. Алгоритм градиентного бустинга.................................................................................. 25
Глава 4. Практическая реализация и результаты.................................................................... 30
4.1. Формулировка задачи...................................................................................................... 30
4.2. Сбор данных с web-ресурса............................................................................................ 31
4.3.Чистка данных и создание словаря................................................................................. 34
4.4. Алгоритмы преобразования текстовой информации в векторную............................. 35
4.5. Применение градиентного бустинга.............................................................................. 36
Выводы........................................................................................................................................ 40
Заключение.................................................................................................................................. 41
Введение
- настоящее время, чтобы стать лидером в своей отрасли, компаниям необходимо не просто производить качественные товары, оказывать большой спектр услуг, но и постоянно собирать обратную связь с потребителей, знать,
что они думают о товаре, какие отзывы оставляют на специализированных ресурсах, оценивать общую удовлетворенность людей от продукта. В свою очередь любой человек, совершающий покупку или делающий выбор в пользу коммерческих предложений, сталкивается с необходимостью получения независимой оценки этих товаров. Он хочет узнать опыт других людей, понять какое впечатление на них произвел тот или иной производитель услуг. Важность этой информации повышается в разы, когда речь заходит о выборе банковских продуктов, в частности, кредита, ипотеки или ведения счетов ИП.
- условиях стремительного роста пользовательских текстов в Интернете автоматическое извлечение полезной информации из многочисленных документов вызывает интерес у исследователей во многих областях, в
частности в области обработки естественного языка (Natural Language Processing).
Анализ мнений (opinion mining) или анализ тональности текстов
(Sentiment Analysis)– это область компьютерной лингвистики, которая занимается автоматизированным выявлением и изучением эмоционально окрашенной лексики и эмоциональной оценки авторов по отношению к объектам, о которых идет речь в тексте. Данное научное направление зародилось в начале этого столетия и постепенно стало активно развиваться в связи большим количеством практических применений в различных областях, например, анализ ценообразования [1] ,мониторинг бренда [2], прогнозирование рынка [3] и др. Анализ тональности позволяет извлечь из текста мнение автора в отношении заданного объекта. Отношение может выражать суждение, мнение или оценку автора, его эмоциональное состояние.
В настоящее время рост популярности социальных сетей, интернет-магазинов и ресурсов с онлайн-обзорами различных продуктов и услуг
предоставляет большое количество материалов, которые могут быть использованы для принятия решения в пользу того или иного объекта.