Диссертация (Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде)
Описание файла
Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде". PDF-файл из архива "Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
ОглавлениеВведение ................................................................................................................... 5Глава 1 . Обзор методов распознавания речи и ассоциативных сред.............. 131.1. Речевой сигнал и его описание. .............................................................. 131.2. Общая структура системы автоматического распознавания речи ...... 171.2.1.
Построение блока выделения признаков. Выбор метода выделенияпризнаков ......................................................................................................... 181.2.2. Способы построения блока распознавания. Выбор методараспознавания .................................................................................................. 221.3. Выбор типа ассоциативной среды для реализации блокараспознавания речи ............................................................................................ 27Выводы ................................................................................................................
30Глава 2 . Предварительная обработка речевого сигнала .................................. 322.1. Нормализация входного сигнала ............................................................ 322.2. Выделение участков с речью................................................................... 342.2.1. Нахождение значений кратковременной энергии и частотыпроходов через ноль. ...................................................................................... 342.2.2. Метод выделения участков с речью на основе распределениялокальных экстремумов .................................................................................
362.3. Выделение признаков речевого сигнала ................................................ 432.3.1. Акустическая модель образования речи .......................................... 432.3.2. Мел-кепстральные коэффициенты ................................................... 442.4.
Векторное квантование ............................................................................ 49Выводы ................................................................................................................ 53Глава 3 . Методы и алгоритмы распознавания речи в ассоциативнойосцилляторной среде............................................................................................. 553.1. Метод скрытых Марковских моделей в распознавании речи ............. 553.2.
Разработка блока распознавания на элементах ассоциативнойосцилляторной среды......................................................................................... 633.3. Модификация алгоритма распознавания и разработка реализации наэлементах ассоциативной осцилляторной среды ...........................................
743.4. Метод и алгоритм распознавания без учета порядка следованиязвуков в речи ....................................................................................................... 81Выводы ................................................................................................................ 86Глава 4 . Моделирование распознавания речи в ассоциативнойосцилляторной среде. Оценка результатов ........................................................ 884.1. Описание программного комплекса ....................................................... 884.2. Формирование экспериментальной речевой базы ................................
954.3. Распознавание русских слов и оценка результатов ............................ 101Выводы .............................................................................................................. 108Глава 5 . Аппаратная реализация блока распознавания речи на ПЛИС ....... 1095.1. Аппаратная реализация метода распознавания без учета порядказвуков.................................................................................................................
1095.2. Обзор типов программируемых пользователем микросхем. ............. 1215.3. Упаковка разработанной аппаратной реализации в ПЛИС. Анализаппаратных затрат и выбор ПЛИС для аппаратной реализации блокараспознавания ................................................................................................... 124Выводы .............................................................................................................. 125Заключение ..........................................................................................................
126Список литературы ............................................................................................. 128Приложение 1. Словарь разработанной системы распознавания речи ......... 137Приложение 2. Исходный код разработанного программного комплекса ... 1403Приложение 3. VHDL-описания компонентов разработанной аппаратнойреализации блока распознавания....................................................................... 144Приложение 4. Акты об использовании результатов диссертационной работы...............................................................................................................................
1464ВведениеАктуальность темы. Вопросы человеко-машинного взаимодействияявляются одними из важнейших при создании новых компьютеров. Наиболееэффективными средствами взаимодействия человека с машиной были бы те,которые являются естественными для него: через визуальные образы и речь.Создание речевых интерфейсов могло бы найти применение в системахсамого различного назначения [1]: голосовое управление для людей сограниченными возможностями, надежное управление боевыми машинами,«понимающими» только голос командира, автоответчики, обрабатывающие вавтоматическом режиме сотни тысяч звонков в сутки (например, в системепродажи авиабилетов) и т.д.
При этом, речевой интерфейс должен включатьв себя два компонента: систему автоматического распознавания речи дляприема речевого сигнала и преобразования его в текст или команду, исистему синтеза речи, выполняющего противоположную функцию –конвертацию сообщения от машины в речь.Однако, не смотря на стремительно возрастающие вычислительныемощности, создание систем распознавания речи остается чрезвычайносложной проблемой.
Это обуславливается как ее междисциплинарнымхарактером (необходимо обладать знаниями в филологии, лингвистике,цифровой обработке сигналов, акустике, статистике, распознавании образови т.д.), так и высокой вычислительной сложностью разработанныхалгоритмов. Последнее накладывает существенные ограничения на системыавтоматического распознавания речи – на объем обрабатываемого словаря,скорость получения ответа и его точность.
Нельзя также не упомянуть о том,что возможности дальнейшего увеличения быстродействия ЭВМ за счетсовершенствования интегральной технологии рано или поздно будутисчерпаны, а все возрастающая разница между быстродействиями памяти ипроцессора только усугубляет проблему.5Существуютобластиприменениясистемавтоматическогораспознавания речи, где описанные проблемы проявляются особенно остроиз-за жестко ограниченных вычислительных ресурсов, например, намобильных устройствах [2]. Производители мобильных телефонов ипланшетов нашли выход в переносе ресурсоемких вычислений с устройствпользователей на серверы в облаке, где, фактически, и производитсяраспознавание. Пользовательское приложение только отправляет тударечевые запросы и принимает ответы, используя подключение к интернету.По этой схеме успешно работают системы Siri от Apple и Google Voice Searchот Google [3, 4].
Однако, для такой реализация необходимы определенныеусловия, например, непрерывный доступ к интернету, которые в ряде случаевнедостижимы, и требуется создать компактное и надежное самостоятельноеустройство, эксплуатирующее только доступные «на месте» вычислительныемощности. Описанные трудности возникают при создании интеллектуальныхустройств как в военной сфере, так и в гражданской. Примером такихустройствможетконцерномIsraelслужитьAerospaceроботREX,Industriesразработанный[5].REXизраильскимпредназначендлятранспортировки боеприпасов, продуктов питания и другой амуниции, чтопозволяет разгрузить солдата. При этом робот способен следовать заведущим его человеком, а управляется он полностью голосовыми командами.Другим примером активного использования технологий распознавания речив боевых комплексах является внедрение модулей голосового управления(или прямого голосового ввода – Direct Voice Control) в кокпитысовременных истребителей, таких, как Eurofighter Typhoon1, Dassault Rafale2,JAS 39 Gripen [6].
Это позволило значительно разгрузить пилота для того,чтобы он мог сосредоточиться только на выполнении задания. В невоеннойсфере распознавание речи широко внедряется в автомобилестроении(например, BMW, Ford), когда часть функционала машины, для которого12URL: http://www.eurofighter.com/the-aircraftURL: http://www.dassault-aviation.com/wp-content/blogs.dir/1/files/2012/08/Fox_Three_nr_1.pdf6ошибка распознавания не приведет к аварийным ситуациям (климатконтроль, навигация, мультимедиа и проч.), контролируется с помощьюголоса 3 . Как и в случае применения голосового управления в военныхсамолетах, эта технология дала возможность снять часть нагрузки с водителя,чтобы он мог сосредоточить внимание только на дороге.
Наконец,необходимо отметить актуальность реализации речевого интерфейса длялюдей с ограниченными физическими возможностями, например, винвалидных креслах [7].Все описанные выше примеры объединяет необходимость созданиякомпактного,надежного,самостоятельногоимаксимальнобыстродействующего устройства. Над решением обозначенной задачиработает множество специалистов.
Можно выделить следующие направленияисследований и разработок в области повышения быстродействия иреализации самостоятельных модулей распознавания речи:1.Внедрениеобработкииаппаратнойподдержкиалгоритмоввыделенияпризнаков(например,предварительнойреализациявпрограммируемых логических микросхемах (ПЛИС) блока нахождения мелкепстральных коэффициентов) [8, 9];2.Аппаратная реализация алгоритмов распознавания.Последнее направление представлено множеством работ. При этомзаметна общая тенденция в разработках аппаратных реализаций блокараспознавания:программируемаяво-первых,впользователемкачествелогикамикросхемиз-заихиспользуютсядоступностииуниверсальности, во-вторых, все они сфокусированы на введении аппаратнойподдержки алгоритмов скрытых Марковских моделей – алгоритма прямогохода и алгоритма Витерби.