Практические задания по NLP с кодом и тестами
Другое: Обработка естественного языка: инструменты и практические задания
Новинка
ПРАКТИЧЕСКОЕ ЗАДАНИЕ № 1- 6
по учебному курсу «Обработка естественного языка»
СОДЕРЖАНИЕ
1. Введение
2. Основные инструменты и приложения, используемые при обработке естественного языка
3. История развития методов обработки естественного языка
4. Заключение
5. Список используемой литературы
ПРАКТИЧЕСКОЕ ЗАДАНИЕ № 2
по учебному курсу «Обработка естественного языка»
СОДЕРЖАНИЕ
6. Алгоритм решения задачи.
7. Листинг программы.
8. Контрольный тест.
9. Выводы.
2. Алгоритм решения задачи
Цель практического задания – реализовать простейший модуль обработки русского текста, который выполняет:
1. разбор входного текста на токены (токенизацию);
2. лемматизацию токенов (приведение к словарной форме);
3. присвоение каждому токену частеречного тега из заданного набора;
4. формирование выходной последовательности в формате
токен{лемма=тег} без знаков препинания.
ПРАКТИЧЕСКОЕ ЗАДАНИЕ № 3
по учебному курсу «Обработка естественного языка»
СОДЕРЖАНИЕ
1. Алгоритм решения задачи.
2. Листинг программы.
3. Контрольный тест.
4. Выводы.
2. Алгоритм решения задачи
Необходимо разработать программу, которая автоматически строит рефераты (краткие аннотации) текстовых документов.
Вход представляет собой JSON-массив строк - отдельных текстов.
Выход - JSON-массив рефератов того же размера.
Требование: каждый реферат ≤ 300 символов с пробелами.
Задача относится к области экстрактивного и абстрактивного суммирования текста. В рамках задания допускается использование упрощённого экстрактивного подхода, основанного на:
• векторах слов (word2vec),
• взвешивании предложений,
• определении их близости к смыслу документа.
ПРАКТИЧЕСКОЕ ЗАДАНИЕ № 4
по учебному курсу «Обработка естественного языка»
СОДЕРЖАНИЕ
1. Алгоритм решения задачи.
2. Листинг программы.
3. Контрольный тест.
4. Выводы.
2. Алгоритм решения задачи
Постановка задачи
Цель работы – разработать программу, которая по входному тексту (отзыву или рецензии на русском языке) автоматически определяет его тональность и выдаёт целое число от 1 до 10, где:
• 1 – максимально негативная оценка,
• 10 – максимально позитивная оценка,
• промежуточные значения отражают степень положительности/отрицательности.
На вход программы подаётся набор текстов, разделённых переводом строки.
На выходе – для каждой строки одно целое число от 1 до 10, также через перевод строки.
ПРАКТИЧЕСКОЕ ЗАДАНИЕ № 5
по учебному курсу «Обработка естественного языка»
СОДЕРЖАНИЕ
1. Алгоритм решения задачи.
2. Листинг программы.
3. Контрольный тест.
4. Выводы.
2. Алгоритм решения задачи
Предварительная обработка данных
Для NER (Named Entity Recognition) использованы обучающие данные:
• train_sentences.txt — предложения
• train_tokens.txt — разметка токенов (индекс + длина)
• train_nes.txt — размеченные сущности (PERSON, ORG)
• train_sentences_enhanced.txt — предложения со встроенными тегами {ORG} {PERSON}
Эти файлы уже полностью соответствуют входному и выходному формату, поэтому можно обучить модель или построить алгоритм вручную.
ПРАКТИЧЕСКОЕ ЗАДАНИЕ № 6
по учебному курсу «Обработка естественного языка»
СОДЕРЖАНИЕ
1. Алгоритм решения задачи.
2. Листинг программы.
3. Контрольный тест.
4. Выводы.
2. Алгоритм решения задачи
В основе подхода лежит предположение, что юмор часто возникает из неожиданного, «семантически далёкого» контраста. Поэтому задача сводится к выбору такого слова-замены, которое с одной стороны связано с исходным словом через антонимию или звуковое сходство, а с другой — максимально далеко отстоит от него в семантическом векторном пространстве (FastText).
Алгоритм разделим на несколько этапов.Показать/скрыть дополнительное описание
по учебному курсу «Обработка естественного языка»
СОДЕРЖАНИЕ
1. Введение
2. Основные инструменты и приложения, используемые при обработке естественного языка
3. История развития методов обработки естественного языка
4. Заключение
5. Список используемой литературы
ПРАКТИЧЕСКОЕ ЗАДАНИЕ № 2
по учебному курсу «Обработка естественного языка»
СОДЕРЖАНИЕ
6. Алгоритм решения задачи.
7. Листинг программы.
8. Контрольный тест.
9. Выводы.
2. Алгоритм решения задачи
Цель практического задания – реализовать простейший модуль обработки русского текста, который выполняет:
1. разбор входного текста на токены (токенизацию);
2. лемматизацию токенов (приведение к словарной форме);
3. присвоение каждому токену частеречного тега из заданного набора;
4. формирование выходной последовательности в формате
токен{лемма=тег} без знаков препинания.
ПРАКТИЧЕСКОЕ ЗАДАНИЕ № 3
по учебному курсу «Обработка естественного языка»
СОДЕРЖАНИЕ
1. Алгоритм решения задачи.
2. Листинг программы.
3. Контрольный тест.
4. Выводы.
2. Алгоритм решения задачи
Необходимо разработать программу, которая автоматически строит рефераты (краткие аннотации) текстовых документов.
Вход представляет собой JSON-массив строк - отдельных текстов.
Выход - JSON-массив рефератов того же размера.
Требование: каждый реферат ≤ 300 символов с пробелами.
Задача относится к области экстрактивного и абстрактивного суммирования текста. В рамках задания допускается использование упрощённого экстрактивного подхода, основанного на:
• векторах слов (word2vec),
• взвешивании предложений,
• определении их близости к смыслу документа.
ПРАКТИЧЕСКОЕ ЗАДАНИЕ № 4
по учебному курсу «Обработка естественного языка»
СОДЕРЖАНИЕ
1. Алгоритм решения задачи.
2. Листинг программы.
3. Контрольный тест.
4. Выводы.
2. Алгоритм решения задачи
Постановка задачи
Цель работы – разработать программу, которая по входному тексту (отзыву или рецензии на русском языке) автоматически определяет его тональность и выдаёт целое число от 1 до 10, где:
• 1 – максимально негативная оценка,
• 10 – максимально позитивная оценка,
• промежуточные значения отражают степень положительности/отрицательности.
На вход программы подаётся набор текстов, разделённых переводом строки.
На выходе – для каждой строки одно целое число от 1 до 10, также через перевод строки.
ПРАКТИЧЕСКОЕ ЗАДАНИЕ № 5
по учебному курсу «Обработка естественного языка»
СОДЕРЖАНИЕ
1. Алгоритм решения задачи.
2. Листинг программы.
3. Контрольный тест.
4. Выводы.
2. Алгоритм решения задачи
Предварительная обработка данных
Для NER (Named Entity Recognition) использованы обучающие данные:
• train_sentences.txt — предложения
• train_tokens.txt — разметка токенов (индекс + длина)
• train_nes.txt — размеченные сущности (PERSON, ORG)
• train_sentences_enhanced.txt — предложения со встроенными тегами {ORG} {PERSON}
Эти файлы уже полностью соответствуют входному и выходному формату, поэтому можно обучить модель или построить алгоритм вручную.
ПРАКТИЧЕСКОЕ ЗАДАНИЕ № 6
по учебному курсу «Обработка естественного языка»
СОДЕРЖАНИЕ
1. Алгоритм решения задачи.
2. Листинг программы.
3. Контрольный тест.
4. Выводы.
2. Алгоритм решения задачи
В основе подхода лежит предположение, что юмор часто возникает из неожиданного, «семантически далёкого» контраста. Поэтому задача сводится к выбору такого слова-замены, которое с одной стороны связано с исходным словом через антонимию или звуковое сходство, а с другой — максимально далеко отстоит от него в семантическом векторном пространстве (FastText).
Алгоритм разделим на несколько этапов.Показать/скрыть дополнительное описание
Сборник практических заданий по курсу «Обработка естественного языка» объединяет теорию и прикладные решения на Python. Внутри есть обзор современных NLP-инструментов, алгоритмы лемматизации и POS-разметки, автоматическое реферирование, оценка тональности, NER и генерация юмористических заголовков. Материал подойдет студентам прикладной информатики и тем, кто изучает NLP-пайплайны, машинное обучение и обработку русского текста..
Характеристики учебной работы
Тип
Учебное заведение
Семестр
Просмотров
1
Размер
2,41 Mb
Список файлов
ПРАКТИЧЕСКОЕ ЗАДАНИЕ № 1- 6.docx
🎓 Никольский - Помощь студентам 📚 Любые виды работ: тесты, сессии под ключ, практики, курсовые и дипломные с гарантией результата ✅ Все услуги под ключ ✅ Знаем все тонкости именно вашего ВУЗа ✅ Сдадим или вернем деньги
Комментарии
Нет комментариев
Стань первым, кто что-нибудь напишет!
МФПУ «Синергия»
nikolskypomosh













