Лабораторная работа: Первый практикум
Описание
Характеристики лабораторной работы
Список файлов
- Первый практикум
- discussions.json 75,06 Mb
- manifest.pdf 76,27 Kb
- rules.pdf 1,34 Mb
- solve
- __init__.py 54 b
- description.txt 1,39 Kb
- insult_detector.py 9,46 Kb
- template
- __init__.py 24 b
- description.txt 191 b
- insult_detector.py 1,02 Kb
- Прочти меня!!!.txt 136 b
Асирян Александр Камоевич, 428 группа
Из списка дискуссий рекурсивно выделяются все сообщения с соответсвующими им полями 'insult' (для тренировки, если поля 'insult' нет, то сообщение не добавляется).
Далее с помощью TextStats и двух CountVectorizer'ов выделяются признаки.
TextStats выделяет уровень вложенности сообщения, количество предложений и количество тех слов, которые скорее всего встретились бы в оскорблении и не оскорблении(dirphr+indirphr/notins).
Далее признаки подаются на вход TfidfTransformer'у.
Классификатор - Passive Aggressive. Были рассмотрены как другие классификаторы, так и другие параметры выбранного. С помощью GridSearchCV и cross_validation(StratifiedKFold(n_folds =10)) был выбран лучший из них.
Предсказания так же рекурсивно помещаются в неразмеченные дискуссии.
http://scikit-learn.org/stable/modules/g enerated/sklearn.linear_model.PassiveAgg ressiveClassifier.html
Архив содержит шаблон для решения практического задания по курсу "Основы обработки текстов" (осень 2015).
Файл скачан с сайта StudIzba.com
При копировании или цитировании материалов на других сайтах обязательно используйте ссылку на источник
Начать зарабатывать