Для студентов КГТУ по предмету ДругиеСоздание системы для автоматизации сбора и обработки данных для машинного обученияСоздание системы для автоматизации сбора и обработки данных для машинного обучения
2024-08-182024-08-18СтудИзба
Курсовая работа: Создание системы для автоматизации сбора и обработки данных для машинного обучения
Описание
Содержание
2
3
Введение
Сбор и накопление размеченных данных зачастую является узким ме-стом в научных исследованиях или же в практических задачах, связанных
применением машинного обучения. Как правило, процесс разметки дан-ных требует кропотливой ручной работы множества экспертов, при котором возникают проблема человеческого фактора – принятие человеком неверных решений – и, как следствие, проблема снижения качества получаемых в резуль-тате работы экспертов данных. Стоит добавить, что процесс ручной разметки является крайне трудоемким, а объемы данных, которые необходимо разме-тить могут достигать сотни тысяч элементов. По указанным выше причинам, многие исследовательские
Введение................................... | 4 | ||
Списоктерминов.............................. | 6 | ||
Постановказадачи............................. | 7 | ||
Обзорлитературы ............................. | 8 | ||
Глава 1. | Обзор инструментов для разметки данных . . . . . . . . . | 12 | |
1.1. | Amazon Mechanical Turk . . . . . . . . . . . . . . . . . . . . | 12 | |
1.2. | Yandex Toloka . . . . . . . . . . . . . . . . . . . . . . . . . . | 12 | |
1.3. | LabelMe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . | 12 | |
1.4. | CVAT............................... | 13 | |
1.5. | Amazon SageMaker Ground Truth . . . . . . . . . . . . . . . . | 13 | |
Глава 2. | Сбортребований......................... | 15 | |
2.1. | Бизнес-требования ....................... | 15 | |
2.2. | Требования пользователей . . . . . . . . . . . . . . . . . . . | 15 | |
2.3. | Функциональные требования . . . . . . . . . . . . . . . . . . | 16 | |
2.4. | Нефункциональные требования . . . . . . . . . . . . . . . . | 18 | |
Глава 3. | Программная архитектура приложения . . . . . . . . . . . | 20 | |
3.1. | Общее описание архитектуры . . . . . . . . . . . . . . . . . | 20 | |
3.2. | Компонентыприложения.................... | 21 | |
3.3. | Сценарии взаимодействия микросервисов . . . . . . . . . . | 27 | |
3.3.1 | Сценарий ручной разметки . . . . . . . . . . . . . . . . | 28 | |
3.3.2 | Сценарий обучения модели . . . . . . . . . . . . . . . . | 30 | |
3.3.3 | Сценарий автоматической разметки . . . . . . . . . . . | 32 | |
3.4. | Отказоустойчивость приложения . . . . . . . . . . . . . . . | 34 | |
Глава 4. | Разработкапрототипа ..................... | 36 | |
4.1. | Ограниченияпрототипа..................... | 36 | |
4.2. | Технологическийстек...................... | 37 | |
4.3. | Протоколыкоммуникации . . . . . . . . . . . . . . . . . . . | 39 | |
4.4. | Алгоритм назначения заданий . . . . . . . . . . . . . . . . . | 39 | |
4.5. | Агрегацияразметки....................... | 42 | |
4.6. | Автоматическаяразметка . . . . . . . . . . . . . . . . . . . | 45 | |
| | | |
2
4.7. | Демонстрация разработанного приложения . . . . . . . . . . | 46 |
Глава 5. | Анализ разработанного прототипа . . . . . . . . . . . . . . | 47 |
5.1. | Теоретическая оценка ускорения процесса ручной разметки | 47 |
5.2. | Тестированиеприложения . . . . . . . . . . . . . . . . . . . | 51 |
Вывод..................................... | 52 | |
Заключение................................. | 54 | |
Списоклитературы ............................ | 55 | |
Приложение 1. Примеры методов API . . . . . . . . . . . . . . . . . . | 58 | |
Приложение 2. Примеры сообщений . . . . . . . . . . . . . . . . . . . | 61 | |
Приложение 3. Демонстрация приложения . . . . . . . . . . . . . . . | 63 |
3
Введение
- последние годы машинное обучение нашло свое применения во многих отраслях человеческой деятельности, в том числе и в научных исследованиях. Обучение с учителем, как частный случай машинного обучения, является одним из популярных подходов для решения множества практических и исследовательских задач. Однако успех применения алгоритмов обучения
- учителем зависит от количества и качества имеющихся данных. Данные, необходимые для обучения с учителем, должны быть размечены, то есть каждый элемент данных должен быть снабжен некоторой меткой, которую впоследствии алгоритм будет предсказывать. Отсутствие размеченных данных, их малый объем или низкое качество могут стать серьезной проблемой для использования алгоритмов машинного обучения.
Сбор и накопление размеченных данных зачастую является узким ме-стом в научных исследованиях или же в практических задачах, связанных
применением машинного обучения. Как правило, процесс разметки дан-ных требует кропотливой ручной работы множества экспертов, при котором возникают проблема человеческого фактора – принятие человеком неверных решений – и, как следствие, проблема снижения качества получаемых в резуль-тате работы экспертов данных. Стоит добавить, что процесс ручной разметки является крайне трудоемким, а объемы данных, которые необходимо разме-тить могут достигать сотни тысяч элементов. По указанным выше причинам, многие исследовательские
Характеристики курсовой работы
Список файлов
Создание системы для автоматизации сбора и обработки данных для машинного обучения.doc