Курсовая работа: Анализ эмоциональной окраски сообщений в микроблогах с помощью вероятностных моделей
Описание
Оглавление
Введение | | 5 | ||
1. | Существующие подходы | 9 | ||
| 1.1. | Конкретизациязадачи................................ | 9 | |
| 1.2. | Методы обучения без учителя для задачи анализа мнений . . . . . . . . . . . . | 9 | |
| 1.3. | Методы обучения с учителем для задачи анализа мнений . . . . . . . . . . . . | 11 | |
| | 1.3.1. Общаяформулировка............................ | 11 | |
| | 1.3.2. Наивный байесовский классификатор . . . . . . . . . . . . . . . . . . . | 11 | |
| | 1.3.3. | Классификация методом опорных векторов . . . . . . . . . . . . . . . | 11 |
| | 1.3.4. | Методмаксимальнойэнтропии . . . . . . . . . . . . . . . . . . . . . . | 12 |
| | 1.3.5. | Сравнение работы методов на данных из Твиттера . . . . . . . . . . . | 13 |
| 1.4. | Связанныеидеи ................................... | 15 | |
| | 1.4.1. Анализграфовслов............................. | 15 | |
| | 1.4.2. | Использованиеонтологий ......................... | 15 |
| | 1.4.3. | Расширениемоделитемами ........................ | 16 |
2. Особенности задачи для данных из микроблогов | 17 | |||
| 2.1. | Основныехарактеристикиданных . . . . . . . . . . . . . . . . . . . . . . . . . | 17 | |
| 2.2. | Особенноститекстов ................................ | 17 | |
| | 2.2.1. Смайлы.................................... | 17 | |
| | 2.2.2. | Хештеги ................................... | 19 |
| | 2.2.3. Сокращения, пролонгирования и пунктуация . . . . . . . . . . . . . . . | 20 | |
| 2.3. | Использование особенностей текстов для предобработки . . . . . . . . . . . . | 21 | |
3. | Модель классификатора | 22 | ||
| 3.1. | Наивный байесовский классификатор . . . . . . . . . . . . . . . . . . . . . . . | 22 | |
| | 3.1.1. | Описаниеклассификатора ......................... | 22 |
| | 3.1.2. Обучениеипредсказание.......................... | 22 | |
| | 3.1.3. | Проблемыподхода ............................. | 23 |
| 3.2. | Вероятностная модель нового метода . . . . . . . . . . . . . . . . . . . . . . . | 24 | |
| | 3.2.1. | Переходкбайесовскомуподходу . . . . . . . . . . . . . . . . . . . . . | 24 |
3
| | 3.2.2. Использование n-грамм для измерения признаков . . . . . . . . . . . . | 26 |
4. | Реализация | 28 | |
| 4.1. | Онтологии для замены неизвестных слов . . . . . . . . . . . . . . . . . . . . . | 28 |
| 4.2. | Алгоритмы подготовки данных, предсказывания и обучения . . . . . . . . . . | 28 |
5. | Количественная оценка метода | 31 | |
Заключение | 33 | ||
4
Введение
Не так давно грань между потребителями и создателями информации в Интернете ис-чезла: на смену статическим страницам у всех пользователей появилась возможность пуб-ликовать свою информацию. Сейчас мы наблюдаем огромное количество видов создавае-мых материалов: это может быть запись в блоге или на форуме, фотография или видеоза-пись на соответствующем ресурсе, отзыв в Интернет-магазине, «статус» в социальной сети
- многое другое. Совершенная простота размещения текстов от разных людей в одном месте в Интернете стала поводом для появления всевозможных веб-сайтов, собирающих мнения
пользователей, например, о книгах, фильмах, товарах, и вот некоторые из них: Epinions1, Rotten Tomatoes 2, Amazon3, Яндекс.Маркет4. Прежде, чем что-то приобрести, покупатель ищет отзывы о серии необходимых товаров в Интернете, читает десятки мнений различных людей, на основании этих мнений делает вывод о том, какой же продукт ему действительно подходит, и только после этого что-то покупает. Со временем текстов стало так много, что обработать их все за разумное время человеку просто не по силам. Именно такая ситуация стала причиной возникновения задачи анализа мнений: появилась необходимость в созда-
нии системы для автоматического поиска, классификации и представления точек зрения. Анализ мнений — одно из направлений области обработки текстов на естественных
языках. Саму задачу можно определить как вычислительное выявление субъективности в текстах и отношения авторов этих текстов к некоторым объектам. Изначально в качестве ис-следуемых данных использовались большие записи, состоящие из нескольких предложений,
РЭУ им. Плеханова
Tortuga













