Для студентов РЭУ им. Плеханова по предмету ДругиеАвтоматическая классификация текстов (на базе корпуса школьных учебников по физике)Автоматическая классификация текстов (на базе корпуса школьных учебников по физике)
2025-02-052025-02-05СтудИзба
ВКР: Автоматическая классификация текстов (на базе корпуса школьных учебников по физике)
Описание
ОГЛАВЛЕНИЕ
3
Введение
Актуальность исследования. Обработка естественного языка как область на стыке лингвистики, информационных технологий и математики активно развивается и предлагает различные решения на базе методов классического машинного обучения и нейросетей. Автоматический анализ текстов также входит
Зачастую, формирование дидактического материала учителем основано на персональном опыте, что противоречит принципам научного познания, которые базируются на учете повторяющихся закономерностей. С данной позиции, определение релевантности текста на основе формальных признаков является научно обоснованным, поэтому автоматическая классификация текстов на базе утвержденных ФГОС учебных текстов может позволить разработать программное средство, целью которого является предоставление набора признаков текста, способных научно обосновать решение о конкретном тексте на основе его формальных признаков.
Исходя из вышеизложенного, проблема исследования была определена следующим образом: какими методами и средствами, и с помощью каких информационных инструментов возможно создать приложение для определения релевантности использования учебного текста по школьному предмету «Физика» на основе принятых ФГОС учебных текстов как эталонного дидактического материала?
Введение………………………………………………………………............. | 3 |
Глава 1. Теоретические и технологические аспекты автоматической | |
классификации текстов…………………………………………….…………. | 7 |
1.1. Корпусная лингвистика как самостоятельная отрасль языкознания.. | 7 |
1.1.1. Методология корпусной лингвистики………………………… | 7 |
1.1.2. Основные принципы построения лингвистических корпусов... | 12 |
1.1.3. Типы и виды языковых корпусов……………………………….. | 17 |
1.2. Методологические аспекты классификации текстов……………….. | 22 |
1.2.1. Классические методы машинного обучения…………………... | 22 |
1.2.2. Нейросетевые методы классификации………………………… | 27 |
1.2.3. Методы предварительной обработки и векторизации текстов. | 33 |
1.2.4. Метрики качества для методов классификации текстов…...… | 40 |
1.3. Python-средства обработки естественного языка…………………….. | 43 |
1.3.1. Инструменты предварительной обработки текстов…………... | 43 |
1.3.2. Библиотеки машинного обучения……………………………… | 50 |
1.3.3. Средства конструирования web-приложений…………………. | 55 |
Выводы по главе 1………………………………………………………….. | 59 |
Глава 2. Реализация методов автоматической классификации текстов……. | 63 |
2.1. Сбор и подготовка корпуса учебников по физике…………………… | 66 |
2.2. Реализация классических методов машинного обучения…………… | 77 |
2.3. Реализация нейросетевых методов машинного обучения………….. | 86 |
2.4. Конструирование web-приложения с функцией анализа текста…… | 977 |
Выводы по главе 2………………………………………………………….. | 105 |
Заключение………..………………………………………………………….... | 108 |
Список литературы………………….………………………………...………. | 114 |
Приложения: «Характеристика корпуса учебников по физике»…………... | 124 |
3
Введение
Актуальность исследования. Обработка естественного языка как область на стыке лингвистики, информационных технологий и математики активно развивается и предлагает различные решения на базе методов классического машинного обучения и нейросетей. Автоматический анализ текстов также входит
- спектр задач, стоящих перед данной областью исследований. На сегодняшний день существуют различные автоматические анализаторы текстов (TextInspector, RuLingva и т.д.), основная цель которых – выявить сложность, читабельность текста, а также ряд других признаков, позволяющих исследовать текст на их основе и выявлять закономерности в них. В частности, текстовый анализатор RuLingva ставит ряд задач по исследованию сложности учебных текстов и формированию инструментов, которые могут помочь принять решение о релевантности использования текста как учебного на определенном уровне обучения. Так, методы автоматической классификации текста могут быть полезными при определении целесообразности внедрения текста в учебный процесс.
Зачастую, формирование дидактического материала учителем основано на персональном опыте, что противоречит принципам научного познания, которые базируются на учете повторяющихся закономерностей. С данной позиции, определение релевантности текста на основе формальных признаков является научно обоснованным, поэтому автоматическая классификация текстов на базе утвержденных ФГОС учебных текстов может позволить разработать программное средство, целью которого является предоставление набора признаков текста, способных научно обосновать решение о конкретном тексте на основе его формальных признаков.
Исходя из вышеизложенного, проблема исследования была определена следующим образом: какими методами и средствами, и с помощью каких информационных инструментов возможно создать приложение для определения релевантности использования учебного текста по школьному предмету «Физика» на основе принятых ФГОС учебных текстов как эталонного дидактического материала?
Характеристики ВКР
Предмет
Учебное заведение
Семестр
Просмотров
1
Размер
2,54 Mb
Список файлов
24.doc