rules (Первый практикум)

PDF-файл rules (Первый практикум) Основы обработки текстов (39190): Лабораторная работа - 5 семестрrules (Первый практикум) - PDF (39190) - СтудИзба2019-05-11СтудИзба

Описание файла

Файл "rules" внутри архива находится в папке "Первый практикум". PDF-файл из архива "Первый практикум", который расположен в категории "". Всё это находится в предмете "основы обработки текстов" из 5 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст из PDF

Практическое задание по курсу"Обработка текстов". Осень 2015Практическое задание включает решение двух задач:Выявление личных оскорблений в дискуссиях пользователей Livejournal.Определение демографических атрибутов пользователей (образование и политическиевзгляды) по их сообщениям.Данный документ содержит описание первой задачи и общих требований. Описание второйзадачи появится позднее.Постановка задачиЦелью задания является создание системы, позволяющей выявлять оскорбления в русскоязычныхкомментариях пользователей livejournal.Система должнавыявлять оскорбления в адрес других участников дискуссии,определять сообщения, не содержащие оскорбления и оскорбления не в адрес участниковдискуссии как не оскорбления.Пример:Ну судя по тому, какую чушь ты пишешь у тебя должно быть родовая травма головыбыла...Ответ системы: ОскорблениеПример:Кличко-младший - [censored].

Это факты, а не фантазии.Ответ системы: Не оскорбление (т.к. не затрагивает участников дискуссии)Пример:Отличные фотографии, спасибо.Ответ системы: Не оскорблениеРешение задачиПрактические аспектыРешения должны быть написаны на языке Python 3.5. Можно использовать все стандартныебиблиотеки, а такжеNLTK - инструменты для обработки текстовscikit-learn - алгоритмы машинного обученияnumpy - работа с многомерными массивамиДоступ в Интернет на проверяющей машине закрыт. По требованию может быть предоставлендоступ к https://api.ispras.ruТеоретические аспектыПредполагается использование алгоритмов машинного обучения.

Для обучения алгоритматребуется придумать признаки и дать ему на вход правильные примеры - обучающий корпус.Разметка обучающего корпусаСчитается, что чем больше обучающий корпус, тем лучше работает алгоритм. Однако созданиебольшого обучающего корпуса - довольно трудоемкая задача, непосильная одному человеку.Поэтому предлагается создать его с помощью коллективной работы.Для определения оскорблений полезно знать контекст, поэтому предполагается размечатьдискуссии целиком (дискуссия состоит из блог-поста и комментариев к нему).Чтобы облегчить работу по разметке сообщений был сделан сайт:http://discussions.at.ispras.ru. Каждому из вас предстоит разметить 30 дискуссий.Для разметки корпуса необходимо зарегистрироваться на сайтеhttp://discussions.at.ispras.ru.

Пожалуйста, вводите правильные личные данные, так как они будутиспользоваться при выставлении зачетов. Вне рамок практикума эти данные использоваться небудут.После регистрации появится окно разметки.При нажатии на комментарий (за исключением первого поста) он меняет цвет.Белый - не размечено (или нет уверенности в типе)Зеленый - не оскорблениеКрасный - оскорблениеВ дискуссии вам необходимо отметить красным комментарии — оскорбления в адрес участниковдискуссии и зелёным комментарии, не являющиеся оскорблениями в адрес участниковдискуссии. Для повышения надёжности разметки каждая дискуссия будет размечена более чемодним чем одним человеком.Для того, чтобы сделать разметку более однозначной и сделать более однозначнымпонятие оскорбление был создан манифест по разметке.После окончания разметки поста, необходимо нажать кнопку "Submit".Во вкладке "History" можно посмотреть размеченные посты и скорректировать разметку.Тренировочный корпусТренировочный корпус будет доступен для скачивания в формате json.

Для извлечениеинформации из этого файла рекомендуется использовать стандартную библиотеку Python содноименным названием.Для синхронизации обучения и тестирования в течении недели, корпус будет состоять издискуссий, размеченных автором классификатора, плюс все дискуссии, размеченные в течениипредшествующей недели.Кроме того, возможно использование любых внешних данных для обучения. Об использованиитаких данных необходимо сообщить письмом и прислать их вместе с решением.ТестированиеВместе с кнопкой скачивания тренировочного корпуса появится ссылка на форму для загрузкифайла и личную страницу со статистикой.

На личной странице находится статистика со всемирезультатами в т.ч. результатами последнего тестирования (дата, описание, достоверность).Загрузка решения. Загружаемый файл должен представлять собой zip архив с любым именем.Архив должен обязательно содержать:классификатор в файле InsultDetector.py. В файле должен содержаться класс InsultDetector. Вклассе должны присутствовать методыo train(self, discussions).

На вход метод train получает список размеченных дискуссий (смописание формата дискуссии). Метод train ничего не возвращает. Внимание: методtrain будет вызываться отдельно, так что не стоит вызывать его в конструкторе класса.o classify (self, discussions), который получает на вход список неразмеченных дискуссий.Метод classify должен для каждого сообщения в дискуссии (кроме корня)o определить является ли сообщение оскорблением. Метод classify должен вернутьсписок размеченных дискуссий. Полученные на вход дискуссии можно изменять.(Пустой) файл __init__.py в корне архива. (Требования к пакетам Python).Описание применяемых алгоритмов в файле description.txtВсе файлы должны быть в кодировке UTF-8все используемые внешние библиотеки, кроме библиотек пакетов NLTK, scikit-learn и numpy(они доступны автоматически).Описание дискуссииДискуссия представленна в виде dictionary вида{"root": корень дискуссии}.Корень дискуссии в свою очередь является dictionary вида{"id": уникальная для каждого сообщения строка,"text": текст cообщения,"children": список ответов на сообщение}В свою очередь children это тоже dictionary вида{"id": уникальная для каждого сообщения строка,"text": текст cообщения,"insult": True если сообщение является оскорблением, False инач,"children": список ответов на сообщение (если на сообщение были ответы)}Проверка решенияРезультаты тестирования появятся на личной странице, как только закончится обучение итестирование.

При загрузке нового классификатора обучение будет производится на корпусе,размеченном автором классификатора, плюс все дискуссии, размеченные в течениипредшествующей загрузке недели.В течении недели студенты не видят прогресс своих коллег и могут посмотреть только свойрезультат. В конце каждой недели (каждый вторник в 23.59.59) будет производится переобучениепоследнего присланного решения от каждого студента на новом корпусе, а результатытестирования будут показаны в сводной таблице.Ограничения1.

каждую неделю можно послать только 10 версий программы (внимание! Итоговоетестирование будет проводится на последнем загруженном решении)2. размер архива не может превышать 15МбВ связи с первым ограничением, для тестирования на локальной машине рекомендуетсяиспользовать метод перекрестной проверки (http://en.wikipedia.org/wiki/Crossvalidation_(statistics)).

В библиотеке scikit-learn есть функции, которые могут помочь виспользовании этого метода (например, KFold()).Оценка качестваДля оценки качества используются F1-мера, в качестве положительного класса выбран классinsult.Описание в документации к библиотеке scikit-learn: http://scikitlearn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_scoreBaselineBaseline 1. В качестве классификатора используется наивный байесовский классификатор. Вкачестве признаков используются униграммы слов.Baseline 2.

В качестве второй, более сложной нижней границы используется один из стандартныхалгоритмов классификации с N-граммами в качестве признаков.Оба классификатора будут тренироваться на том же корпусе, что и присланные алгоритмы, а также на специальном корпусе. Достоверность будет меняться соответственно.Подсчет очковКак было сказано выше, в конце каждой недели вы сможете посмотреть, насколько хорошийклассификатор вы сделали по сравнению с другими предложенными решениями.

Эти результатынужны только для понимания текущей ситуации.В течении семестра будет три дедлайна, когда текущие результаты преобразуются в очки, которыеповлияют на итоговую оценку за курс.Расписание дедлайнов:1. 4 ноября (учитываются все решения, присланные до 23:59:59 3 ноября)2. 9 декабряПри наступлении дедлайнов, так же как и в конце обычной недели производится обучение итестирование всех присланных решений. Далее производится ранжирование результатов (по F1мере) и начисляются очки: за 1 место – 10 очков, 2-9 и т.д.

Все программы выше лучшего baselineполучают по 2 очка, выше худшего - по одному очку. После этого результаты становятся доступнывсем на главной странице.Первое задание можно сдавать до второго дедлайна, однако количество полученных очковуменьшается в два раза с округлением в большую сторону. За задание выставляетсямаксимальный из полученных баллов.Второе задание будет выдано в начале ноября. Поэтому актуален только второй дедлайн.Выставление оценокПосле 8 декабря будут выставляться итоговые оценки.Для получения отметки "Отлично" - необходимо набрать минимум 2 балла за каждоезадание и не менее 5 баллов в сумме (решения лучше baseline 2 и хотя бы раз (вовремя)попали в top-8)."Хорошо" ставится за 3-4 балла, минимум 1 балл за задание (надо вовремя побить baseline2 для одного из заданий и baseline 1 для другого).Для получения отметки "Удовлетворительно" необходимо набрать минимум по 1 баллу зазадание (побить baseline 1 для обоих заданий).Оценка "Неудовлетворительно" ставится, если хотя бы одно задание на сдано.Внимание! Оценку "неудовлетворительно" изменить нельзя никаким образом!ЭкзаменЭкзамен будет проходить во второй половине декабря.

Оценка за практикум не влияет на оценкуза экзамен, за исключением оценки "неудовлетворительно". Не сдавшие практикум к экзаменуне допускаются! (Можете считать, что есть ступенчатая функция от оценки за практикум, которая всумме с оценкой за экзамен дает либо саму оценку (если практикум сдан), либо"неудовлетворительно", если практикум не сдан).Для студентов ФКН ВШЭИтоговая оценка за курс (по 10-бальной шкале) является суммой оценок (по 5-бальной шкале) запрактическую часть и за экзамен.Оценка "неудовлетворительно" за любую часть является блокирующей, то есть итоговая оценкатоже будет "неудовлетворительно".Дополнительные вопросыВсе вопросы, кроме технических, задавайте на сайте http://tpc.at.ispras.ru, либо пишите наturdakov@ispras.ruВсе технические вопросы относительно проверки заданий просьба присылать наlaguta@ispras.ru либо спрашивать в разделе сайта, посвященном практикуму.Для установки внешних модулей (NLTK, scikit-learn, BeautifulSoup) рекомендуетсяиспользовать easy_install из пакета setuptools.Вспомогательная литератураТоби Сегаран, “Программируем коллективный разум” (Книга про прикладное применениенекоторых технологий искусственного интеллекта, включая машинное обучение, в Web 2.0с огромным количеством примеров на Python).Steven Bird, Ewan Klein, and Edward Loper.

Natural Language Processing with Python(Книгапро обработку текста с помощью библиотеки NLTK для языка Python. Доступна на сайтеNLTK)Daniel Jurafsky, James H. Martin. Speech and language processing: an introduction to naturallanguage processing, computational linguistics, and speech recognition (Одна из лучших книгпро обработку текстов)Christopher D. Manning, Hinrich Schütze. Foundations of Statistical Natural LanguageProcessing (Книга содержит хорошие примеры применения машинного обучения дляобработки текстов).

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5259
Авторов
на СтудИзбе
421
Средний доход
с одного платного файла
Обучение Подробнее