Для студентов МАИ по предмету ДругиеАнализ аудиоданных и распознавание событий для систем безопасностиАнализ аудиоданных и распознавание событий для систем безопасности
2024-05-252024-05-25СтудИзба
Курсовая работа: Анализ аудиоданных и распознавание событий для систем безопасности
Описание
Содержание
Введение......................................................................................................................... 3
Постановка задачи....................................................................................................... 7
Обзор литературы....................................................................................................... 11
Глава 1. Подготовка данных................................................................................... 13
1.1. Наборы данных....................................................................................... 13
1.2. Скачивание данных............................................................................... 15
Глава 2. Характеристики аудио............................................................................. 18
2.1. Характеристики, связанные со временем....................................... 18
2.2. Спектральные характеристики.......................................................... 20
2.3. Извлечение характеристик.................................................................. 25
Глава 3. Классификация........................................................................................... 30
3.1. Предыдущие результаты...................................................................... 30
3.2. Используемые методы........................................................................... 31
3.3. Data Augmentation................................................................................... 32
3.4. Batch Normalization................................................................................ 34
3.5. Dropout........................................................................................................ 35
3.6. Transfer Learning..................................................................................... 35
3.7. Архитектура сети.................................................................................... 36
Глава 4. Тестирование и результаты.................................................................... 40
Заключение................................................................................................................... 45
Список литературы.................................................................................................... 47
2
Введение
Современные методы обработки информации сделали большой шаг вперёд
в различных задачах обработки и анализа данных. В этом постоянно возрастающем объёме цифровой информации особую роль играет аудио, так как около 20% информации человек получает через слух [1]. Существует огромное количество различных стриминговых платформ и сервисов, которые предоставляют доступ к мультимедийному контенту в разных формах.
Всё это привело к тому, что появляется необходимость в разработке различных методов и систем для автоматического анализа такого контента. Новые техники и подходы помогают решать большой спектр задач: распознавание речи, поиск информации на основе аудиофайлов, мультимодальный анализ, классификация аудиофайлов, сегментация, распознавание событий для систем безопасности и автоматизации процессов и т.д.
Ранние работы на тему извлечения музыкальной информации использовали символьные представления или нотации, такие как MIDI файлы [2].
С символьными представлениями было довольно легко работать, так как они не требуют высоких производительных мощностей. Это привело к разработке
инструментовдлясинтаксическогоанализатакихпредставлений.
Монофонические и полифонические транскрипции помогали работать с аудио, используя анализ символьных представлений. Однако распространяемая цифровым путём музыка в основном имеют форму неструктурированных аудиофайлов.
Различные исследования показали, что слушатели обращают внимание не на отдельные ноты, а на другие аспекты звука, которые пропадают из поля зрения автоматических систем, делающих упор на музыкальную теорию [3]. Ни одна из
3
Введение......................................................................................................................... 3
Постановка задачи....................................................................................................... 7
Обзор литературы....................................................................................................... 11
Глава 1. Подготовка данных................................................................................... 13
1.1. Наборы данных....................................................................................... 13
1.2. Скачивание данных............................................................................... 15
Глава 2. Характеристики аудио............................................................................. 18
2.1. Характеристики, связанные со временем....................................... 18
2.2. Спектральные характеристики.......................................................... 20
2.3. Извлечение характеристик.................................................................. 25
Глава 3. Классификация........................................................................................... 30
3.1. Предыдущие результаты...................................................................... 30
3.2. Используемые методы........................................................................... 31
3.3. Data Augmentation................................................................................... 32
3.4. Batch Normalization................................................................................ 34
3.5. Dropout........................................................................................................ 35
3.6. Transfer Learning..................................................................................... 35
3.7. Архитектура сети.................................................................................... 36
Глава 4. Тестирование и результаты.................................................................... 40
Заключение................................................................................................................... 45
Список литературы.................................................................................................... 47
2
Введение
Современные методы обработки информации сделали большой шаг вперёд
в различных задачах обработки и анализа данных. В этом постоянно возрастающем объёме цифровой информации особую роль играет аудио, так как около 20% информации человек получает через слух [1]. Существует огромное количество различных стриминговых платформ и сервисов, которые предоставляют доступ к мультимедийному контенту в разных формах.
Всё это привело к тому, что появляется необходимость в разработке различных методов и систем для автоматического анализа такого контента. Новые техники и подходы помогают решать большой спектр задач: распознавание речи, поиск информации на основе аудиофайлов, мультимодальный анализ, классификация аудиофайлов, сегментация, распознавание событий для систем безопасности и автоматизации процессов и т.д.
Ранние работы на тему извлечения музыкальной информации использовали символьные представления или нотации, такие как MIDI файлы [2].
С символьными представлениями было довольно легко работать, так как они не требуют высоких производительных мощностей. Это привело к разработке
инструментовдлясинтаксическогоанализатакихпредставлений.
Монофонические и полифонические транскрипции помогали работать с аудио, используя анализ символьных представлений. Однако распространяемая цифровым путём музыка в основном имеют форму неструктурированных аудиофайлов.
Различные исследования показали, что слушатели обращают внимание не на отдельные ноты, а на другие аспекты звука, которые пропадают из поля зрения автоматических систем, делающих упор на музыкальную теорию [3]. Ни одна из
3
Характеристики курсовой работы
Список файлов
Анализ аудиоданных и распознавание событий для систем безопасности.doc