Для студентов МГИМО по предмету Любой или несколько предметовМетоды машинного обучения в задаче распознавания аудиосигналаМетоды машинного обучения в задаче распознавания аудиосигнала
4,9551049
2024-07-142024-07-14СтудИзба
Курсовая работа: Методы машинного обучения в задаче распознавания аудиосигнала
Описание
Оглавление
1. Введение
Автоматическое распознавание речи (Automatic speech recognition - ASR) – сфера, которая активно исследуется последние пять десятилетий, эта тема считается важным пунктом улучшения взаимодействия в сценариях человек - человек и человек-машина. Однако, в недалёком прошлом речь не являлась ключевым инструментом во взаимодей ствии человека и машины. Отчасти это связано с тем, что инструменты распознавания речи в то время были недостаточно хороши, чтобы преодолеть необходимый уровень точности и использоваться в реальных условиях. В то же время, альтернативные спо собы взаимодействия, например клавиатура и мышь, значительно превосходили речь по эффективности, ограничениям и точности.
Таким образом, объектом данного исследования является:задача ASR, предметом исследования является: использование актуальных архитектур нейронных сетей для задачи автоматического распознавания речи и сравнение их между собой.
| 1. | Введение..................................... | 2 | |
| 1.1. | Постановказадачи. .......................... | 3 | |
| 2. | Обзорсуществующихметодов. ........................ | 4 | |
| 2.1. | Предобработказвука. ......................... | 4 | |
| Подготовказвука............................ | 4 | ||
| Созданиеспектограммы........................ | 4 | ||
| 2.2. | Сверточная нейронная сеть (CNN) . . . . . . . . . . . . . . . . . . | 6 | |
| 2.3. | Рекуррентная нейронная сеть (RNN) . . . . . . . . . . . . . . . . | 6 | |
| 2.4. | Сети с долгой кратковременной памятью (LSTM) . . . . . . . . . | 7 | |
| 2.5. | Закрытый рекуррентный блок GRU . . . . . . . . . . . . . . . . . | 9 | |
| 2.6. | DeepSpeech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . | 10 | |
| 2.7. | DeepSpeech 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . | 11 | |
| 2.8. | QuartzNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . | 14 | |
- Эксперименты по обучению моделей. . . . . . . . . . . . . . . . . . . . . . 17
| 3.1. | Данные для распознавания речи LJ Speech Dataset. . . . . . . . . | 17 |
| 3.2. | Функцияошибки. ........................... | 17 |
| 3.3. | Тестирование и сравнение моделей. . . . . . . . . . . . . . . . . . | 18 |
| 3.4. | Возможные улучшения полученных результатов . . . . . . . . . . | 19 |
- Результаты. ................................... 20
- Списоклитературы. .............................. 21
- Приложение................................... 23
1. Введение
Автоматическое распознавание речи (Automatic speech recognition - ASR) – сфера, которая активно исследуется последние пять десятилетий, эта тема считается важным пунктом улучшения взаимодействия в сценариях человек - человек и человек-машина. Однако, в недалёком прошлом речь не являлась ключевым инструментом во взаимодей ствии человека и машины. Отчасти это связано с тем, что инструменты распознавания речи в то время были недостаточно хороши, чтобы преодолеть необходимый уровень точности и использоваться в реальных условиях. В то же время, альтернативные спо собы взаимодействия, например клавиатура и мышь, значительно превосходили речь по эффективности, ограничениям и точности.
- последние несколько лет наблюдается новый всплеск интереса к ASR. Это может быть связано с повышением требований к задаче автоматического распознавания речи
- мобильных устройствах и успех новых виртуальных речевых помощников (напри мер, Apple’s Siri, Google Now и Microsoft’s Cortana). Не менее важным пунктом являет ся развитие методов глубокого обучения и увеличение вычислительных возможностей. Комбинированное использование методов глубокого обучения позволило уменьшить ко эффициент ошибок в распознавании речи больше чем на треть относительно известных раннее классических методов GMM-HMM. Например, на данный момент точность рас познавания слова для Английского языка достигает 95% и более.
Таким образом, объектом данного исследования является:задача ASR, предметом исследования является: использование актуальных архитектур нейронных сетей для задачи автоматического распознавания речи и сравнение их между собой.
Характеристики курсовой работы
Учебное заведение
Семестр
Просмотров
1
Размер
719 Kb
Список файлов
Методы машинного обучения в задаче распознавания аудиосигнала.doc
Комментарии
Нет комментариев
Стань первым, кто что-нибудь напишет!
МГИМО
Tortuga













