Лесных (1219169)
Текст из файла
Министерство транспорта Российской Федерации
Федеральное агентство железнодорожного транспорта
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
«ДАЛЬНЕВОСТОЧНЫЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ПУТЕЙ СООБЩЕНИЯ»
Кафедра «Высшая математика»
К защите допустить
зав. кафедрой,
д-р физ.-мат. наук, профессор
__________________П.В. Виноградова
_________________ 2015 г.
АНАЛИЗ ЗВУКОВЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ НА ПРИМЕРЕ МУЗЫКАЛЬНЫХ ПРОИЗВЕДЕНИЙ
Бакалаврская работа
ВКР 010400.62.942
Студент 942 гр. _____________________ Е.А. Лесных
Руководитель
старший преподаватель _____________________ С.В. Макогонов
Нормоконтроль _____________________ Е.П. Суляндзига
Хабаровск – 2015
Министерство транспорта Российской Федерации
Федеральное агентство железнодорожного транспорта
федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«Дальневосточный государственный университет путей сообщения»
(ДВГУПС)
__________________________________Кафедра _____________________
(наименование УСП) (название кафедры (ПЦК))
Специальность 01050165 – Прикладная математика и информатика
УТВЕРЖДАЮ
Зав. кафедрой
«_____» _____ 20____г.
ЗАДАНИЕ
на выпускную квалификационную работу студента
Лесных Евгений Анатольевич
Тема ВКР: АНАЛИЗ ЗВУКОВЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ НА ПРИМЕРЕ МУЗЫКАЛЬНЫХ ПРОИЗВЕДЕНИЙ
1. Утверждена приказом по университету от «04» июня 2015г. №525а
2. Срок сдачи студентом законченной ВКР «_____»__________ 2015
3. Исходные данные к работе
1) Литературные источники по теме исследования
4.Содержание расчетно-пояснительной записки (перечень подлежащих разработке вопросов):
1) исследование предметной области;
2) разработка алгоритма анализа и распознавания звуковых последовательностей;
3) разработка программной реализации алгоритма.
5. Консультант по ВКР
Консультант | Подпись, дата | |
Макогонов С.В. | Задание выдал | Задание принял |
6. Дата выдачи задания________________________________________
Руководитель ________________
(подпись)
Задание принял к исполнению________________
(подпись)
ANNOTATION
The thesis is devoted to the problem of analysis of sound sequences. The purpose of the work is to develop a method of analysis and recognition of short sound samples. The purpose of the analysis is to identify the peaks of the spectrograms using the fast Fourier transform. As a result of has developed a program which implements the method of recognition of short sound samples. Also provided are methods of improving the method.
РЕФЕРАТ
Выпускная квалификационная работа содержит 47 с., 12 рис., 1 табл., 12 источников
АНАЛИЗ ЗВУКОВЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ, РАСПОЗНАВАНИЕ ЗВУКОВЫХ ОБРАЗОВ, ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ, ДИСКРЕТНОЕ ПРЕОБРАЗОВАНИЕ ФУРЬЕ, СПЕКТРОГРАММА
Настоящая работа посвящена разработке метода распознавания звуковых образов с помощью анализа звуковых последовательностей.
Цель работы – провести исследование предметной области, разработать метод распознавания и создать программную реализацию разработанного метода.
В результате исследования детально описаны методы анализа и распознавания звуковых последовательностей. Разработана программа, реализующая разработанный алгоритм на примере музыкальных произведений. Также предложены варианты улучшения данного метода.
СОДЕРЖАНИЕ
ВВЕДЕНИЕ 8
1 Постановка задачи распознавания 11
1.1 Обзор и теоретические основы распознавания образов 11
1.2 Основные понятия 13
1.3 Методы распознавания образов 15
1.4 Постановка задачи 17
2 Цифровая обработка сигналов 18
2.1 Дискретные и цифровые сигналы 18
2.2 Выбор частоты дискретизации 21
2.3 Дискретное преобразование Фурье 22
2.4 Быстрое преобразование Фурье 25
3 Разработка программного средства 33
3.1 Режимы работы 33
3.2 Режим Settings 33
3.3 Режим Create Base 34
3.4 Режим Change the sampling frequency 34
3.5 Режим Recognition 34
3.6 Результаты предварительных тестов 34
3.7 Быстрое комбинаторно хэширование 36
ЗАКЛЮЧЕНИЕ 46
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 47
ВВЕДЕНИЕ
В последние годы распознавание образов находит все большее применение. Распознавание речи, печатного и рукописного текста, различных изображений значительно упрощает взаимодействие человека с компьютером, создает предпосылки для применения различных систем искусственного интеллекта.
Способность восприятия внешнего мира в форме образов позволяет с определенной достоверностью узнавать бесконечное число объектов на основании ознакомления с конечным их числом, а объективный характер позволяет моделировать процесс их распознавания.
Уже сейчас распознавание образов плотно вошло в повседневную жизнь и является одним из самых насущных знаний современного инженера. В медицине распознавание образов помогает врачам ставить более точные диагнозы, на заводах оно используется для прогноза брака в партиях товаров. Системы биометрической идентификации личности в качестве своего алгоритмического ядра так же основаны на результатах этой дисциплины. Дальнейшее развитие искусственного интеллекта, в частности проектирование компьютеров пятого поколения, способных к более непосредственному общению с человеком на естественных для людей языках и посредством речи, немыслимы без распознавания речи, рукописного текста и изображений.
Задача распознавания звуковых образов получила за последние годы интенсивную разработку; она сопряжена с одной из самых увлекательных и важных проблем новой техники, с осуществлением устной речевой связи человека с машиной. Однако теория распознавания звуковых образов разработана недостаточно, и иногда для этого применяются методы распознавания зрительных образов. Кроме того, проблема распознавания звуковых образов замкнулась на распознавании звуков речи: другие приложения развивались мало.
Хоть проблема распознавания речи не получила полного решения, можно применять уже достигнутые результаты в других задачах. Например, в энергетике, где с помощью методов распознавания, может быть реализован автоматический контроль (по характеру шума) работы генераторов, двигателей, энергосистем. Не меньшее значение имеют вопросы распознавания звуковых последовательностей в навигации, на транспорте, в медицине и т.д. [1].
Настоящая работа посвящена анализу звуковых последовательностей на примере музыкальных произведений. Эта задача стала особенно актуальна после принятия законов о защите авторских прав и необходимости платить за использование тех или иных музыкальных фрагментов, тем или произведений. Также целью данной работы является создание программных средств распознавания музыкальных образов, которые могут быть использованы, например, для контроля соблюдения авторских прав.
Для достижения данной цели необходимо решить следующие задачи:
а) провести исследование предметной области;
б) проанализировать существующие методики создания программных средств и выбрать наиболее подходящую;
в) разработать программное средство по распознаванию музыкальных образов.
Сущность разработанного алгоритма заключается в следующем. У каждого аудиофайла берётся "отпечаток”. Оба звуковых файла "в базе данных" и "образец" подвергаются одинаковому анализу. Отпечатки от неизвестного образца сравнивается с большим набором отпечатков, полученных из музыкальной базы данных. Алгоритм распознавания должен быть в состоянии распознать короткий звуковой образец музыки, который был передан. Алгоритм также должен был выполнять быстрое распознавание по большой базе данных музыки с почти 2 млн. треков и кроме того иметь низкое количество ложных срабатываний, имея высокий уровень вероятности распознавания.
Разработанный алгоритм можно будет использовать и в различных задачах распознавания звуковых последовательностей.
1 Постановка задачи распознавания
1.1 Обзор и теоретические основы распознавания образов
Первые исследования с вычислительной техникой в основном следовали классической схеме математического моделирования - математическая модель, алгоритм и расчет. Таковыми были задачи моделирования процессов происходящих при взрывах атомных бомб, расчета баллистических траекторий, экономических процессов и т.д. Однако помимо классических идей, возникали и методы, основанные на совершенно иной природе, и как показывала практика решения некоторых задач, они зачастую давали лучший результат, нежели решения, основанные на переусложненных математических моделях. Их идея заключалась в отказе от стремления создать исчерпывающую математическую модель изучаемого объекта (которую зачастую было построить достаточно сложно), а вместо этого удовлетвориться ответом лишь на конкретные интересующие нас вопросы, причем эти ответы искать из общих для широкого класса задач соображений. К исследованиям такого рода относились распознавание зрительных образов, прогнозирование урожайности, уровня рек, задача различения нефтеносных и водоносных пластов по косвенным геофизическим данным и т. д. Конкретный ответ в этих задачах требовался в довольно простой форме, как например, принадлежность объекта одному из заранее фиксированных классов. А исходные данные этих задач, как правило, задавались в виде обрывочных сведений об изучаемых объектах, например в виде набора заранее расклассифицированных признаков. С математической точки зрения это означает, что распознавание образов (а так и был назван в нашей стране этот класс задач) представляет собой далеко идущее обобщение идеи экстраполяции функции [2].
Важность такой постановки для технических наук не вызывает никаких сомнений и уже это само по себе оправдывает многочисленные исследования в этой области. Однако задача распознавания образов имеет и более широкий аспект. В контекст данной науки органично вошли и поставленные еще древними философами вопросы о природе нашего познания, нашей способности распознавать образы, закономерности, ситуации окружающего мира. В действительности, можно практически не сомневаться в том, что механизмы распознавания простейших образов, типа образов приближающегося опасного хищника или еды, сформировались значительно ранее, чем возник элементарный язык и формально-логический аппарат. И не вызывает никаких сомнений, что такие механизмы достаточно развиты и у высших животных, которым так же в жизнедеятельности крайне необходима способность различения достаточно сложной системы знаков природы. Таким образом, в природе мы видим, что феномен мышления и сознания явно базируется на способностях к распознаванию образов и дальнейший прогресс науки об интеллекте непосредственно связан с глубиной понимания фундаментальных законов распознавания. Понимая тот факт, что вышеперечисленные вопросы выходят далеко за рамки стандартного определения распознавания образов, необходимо так же понимать, что они имеют глубокие связи с этим относительно узким (но все еще далеко неисчерпанным) направлением.
Уже сейчас распознавание образов плотно вошло в повседневную жизнь и является одним из самых насущных знаний современного инженера. В медицине распознавание образов помогает врачам ставить более точные диагнозы, на заводах оно используется для прогноза брака в партиях товаров. Системы биометрической идентификации личности в качестве своего алгоритмического ядра так же основаны на результатах этой дисциплины. Дальнейшее развитие искусственного интеллекта, в частности проектирование компьютеров пятого поколения, способных к более непосредственному общению с человеком на естественных для людей языках и посредством речи, немыслимы без решения задач распознавания.
1.2 Основные понятия распознавания образов
Распознавание образов, как методология принятия решений на основе результатов наблюдений за объектами и процессами окружающего мира, возникло значительно раньше современных компьютерных систем и технологий. Первые методы распознавания разрабатывались для электронных аналоговых систем и рассматривались в рамках теории обработки сигналов. В процессе развития вычислительной техники и информационных технологий эта дисциплина претерпела значительные изменения и продолжает развиваться [3].
Сейчас трудно строго определить класс задач, который относится исключительно к распознаванию образов, равно как и дать строгое определение самого предмета изучения.
В обыденном понимании образ включает целую совокупность наших индивидуальных ощущений, представлений и умозаключений. Распознавание образов - повседневная неотъемлемая составляющая деятельности человеческого мозга. Поэтому в спектре компьютерных дисциплин задачи распознавания относятся к проблематике искусственного интеллекта. В самом общем случае в качестве образа может рассматриваться любая информационная модель объекта или процесса абстрактного или реального мира. Отличительная особенность такой модели в задаче распознавания – это использование только того подмножества характеристик объектов исследования, которое обеспечивает выделение одной или нескольких групп объектов совершенно определенного типа. Целью процедуры распознавания является ответ на вопрос: относится ли объект, описанный заданными характеристиками, к интересующим нас категориям и если относится, то к какой именно.
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.