Диссертация (Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде), страница 13
Описание файла
Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде". PDF-файл из архива "Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 13 страницы из PDF
Каждыйучасток помещается в отдельный файл: производится нарезание цепочки наотдельные экземпляры (каждый помещается в отельный файл), =1, … , .нормализация и получение , для = 1, … , .5.НормализацияСпектральнаяочисткаНарезаниеНормализацияРис. 49. Процесс добавления одного класса в речевую базу.Помимо обучения и тестирования САРР, созданная речевая базаиспользовалась для формирования словаря кодовых слов векторногоквантования.1004.3.Распознавание русских слов и оценка результатовСоставленная речевая база русских слов была использована длятестирования разработанной системы.
Эксперимент включал следующиешаги:1.формирование СММ для каждого класса – этап обучения;2.распознаваниенатестовойвыборкевыбраннымметодомраспознавания.Использование аппарата скрытых Марковских моделей предполагаетподборбольшогоколичествапараметровраспознавания:количествосостояний СММ, начальные значения матриц и , типа СММ (лево-правая,полносвязная и т.д.) и многих других. К сожалению, не существуетформализованной процедуры по выбору этих параметров, которой можнобыло бы пользоваться при разработке систем распознавания; подборпараметровосуществляетсяэкспериментальноиисходяизопытаразработчика.
В данной работе были подобраны следующие параметры,идентичные для всех моделей слов:количество состояний равно семи;тип модели – лево-правый, с диагональной матрицей переходов: = 0.5, для = и = + 1, , = 1,2, … , ;разрядность векторного квантования равна 8, так что количествокодовых слов = 256;Как было описано в разделе 4.2, все содержимое базы было разделенона тестовую и обучающую выборки пополам. Полученные в процессеобучения СММ использовались для распознавания всеми рассматриваемымив работе методами.Рассмотрим на примере обработки произнесения слова «день» работуподсистемыраспознавания,спомощьюкоторойпроизводиласьэкспериментальная проверка работы распознавания в АОС (рис. 50):1.Выделениепризнаковдляпроизнесения–последовательностиквантованных MFCC-коэффициентов.
Эта процедура выполняется в два101этапа: нахождение непрерывного 12-мерного MFCC-вектора, затем егоквантование, в результате которого возвращается 8-битный индекс наиболееблизкого слова из VQ-словаря. Такой обработке подвергается каждоекратковременное окно произнесения длительностью 32 мс. Таким образом,на выходе снимается последовательность из 28 8-битных целых чисел –наблюдаемая последовательность для СММ;2.Выставление «очков» для каждой из моделей (например, логарифмавероятности породить наблюдаемую последовательность без учета порядкаследования звуков log , как это изображено на рис.
50). Каждыйблок вычисления «очков» хранит СММ моделируемого слова;3.Выбор той модели , которая набрала максимальное количество«очков». На выходе блока распознавания снимается индекс распознанногослова из словаря (индекс «победившей» СММ).Результат распознавания оценивался с помощью традиционных длязадач классификации метрик [76]: точность (Precision), полнота (Recall) и 1 метрика. Пусть ∗ () – предсказанный классификатором класс дляпроизнесения ∈ (где – множество тестовых примеров), а () –истинный класс , так что ∗ : → и : → . Для оценки результатовклассификации строится матрица ошибок (confusion matrix) = для, = 1, … , , в которой каждый элемент представляет собой количествопредсказаний того, что принадлежит классу , в то время, как его истиннымклассом является 12:( ∗ = ) ∙ ( = ) ==112В формуле (4.1) использована индикаторная функция =1021, если истинно.0, если ложно(4.1)103Рис 50.
Пример работы подсистемы распознавания при обработке произнесения слова «день».Таким образом, диагональные элементы матрицы ошибок содержатколичество верных предсказаний для каждого класса, в то время, какостальные элементы содержат количество ошибочных предсказаний. Удобновыполнить нормализацию матрицы ошибок числом тестовых примеров длякаждого класса, так что было бы условной вероятностью предсказаниякласса ∗ = при условии, что истинным классом является = :(4.2)Диагональные значения нормализованной матрицы ошибок содержат = ( ∗ = | = ) =значения метрики полноты для каждого класса .
Метрика полноты –это вероятность верного предсказания при условии, что истинным классом является :(4.3) = ( ∗ = | = ) = Другой метрикой для оценки работы классификатора является точность для класса . Точность – это вероятность того, что истинным классом является при условии, что был предсказан класс ∗ = : =() =1 (4.4)Наконец, 1 -метрика для каждого класса – это комбинация метрикточности и полноты, которую можно интерпретировать как их взвешенноесреднее: ∙ (4.5) + Учитывая хорошую сбалансированность набора тестовых примеров()1=2∙(одинаковое количество примеров для каждого класса), описанные вышеметрики позволяют получить исчерпывающую оценку производительностиклассификатора.Для каждого метода распознавания, реализованного программно и впрограммной модели АОС, были подсчитаны описанные выше метрики и ихсредние значения (Таблица 8).
Видно, что предлагаемые в работе методыраспознавания продемонстрировали такой же результат, как и традиционный104алгоритм прямого хода, обладая меньшей по сравнению с алгоритмомпрямогоходавычислительной()классификатор дает = = 1сложностью(приэтомидеальный= 1 для = 1, … , ). Интересно, что напрограммной модели осцилляторной среды наилучшую производительностьпродемонстрировал предлагаемый метод без учета порядка следованиязвуков. Это связано с его вычислительной простой: чем меньше операцийвыполняется над потоками спайков, тем меньше искажений вносится взначения интенсивностей, которые они несут.
Учитывая результатыпрограммного эксперимента, дальнейшее моделирование и аппаратнаяреализация были сосредоточены именно на этом методе.Помимо итогового значения точности, интерес представляли такжеследующие зависимости точности:1.от количества классов = () (рис. 51)2.от длины потока спайков = () (рис. 52);Рис. 51. Зависимость точности распознавания от количества классов.1051060.9750 ± 0.0112Без учета порядкаследования звуков0.9773 ± 0.00990.9773 ± 0.00990.9773 ± 0.0099Метрикаточности0.9749 ± 0.00880.9749 ± 0.00880.9749 ± 0.0088 -метрика0.9470 ± 0.01780.6820 ± 0.0396–Метрикаполноты0.9510 ± 0.01330.7202 ± 0.0350–Метрикаточности0.9460 ± 0.01280.6790 ± 0.0312– -метрикаРеализация на программной модели АОСТаблица 8.
Результаты распознавания русских слов всеми рассмотренными методами (95% доверительный интервал длясреднего значения).0.9750 ± 0.01120.9750 ± 0.0112МетрикаполнотыМодифицированный алгоритмпрямого ходаP(O|λ)хода, P(O|λ)алгоритм прямогоИсходныйСпособраспознаванияПрограммная реализацияКак видно из графика на рисунке 51, хотя точность распознаванияуменьшаетсясростомразмерасловаря,онаостаетсянауровне(0.9510 ± 0.0133) для словаря в 100 слов.
Обычно, с дальнейшимувеличением словаря распознавания точность только уменьшается. Однако,нужно отметить, что словарь в 100 слов является достаточным для множествасистем распознавания голосовых команд, поэтому использование метода безучета следования звуков на АОС допустимо в реальных приложениях.На рисунке 52 изображена зависимость точности распознавания отдлины потока спайков = () для метода без учета следования звуков наАОС.Рис. 52. Зависимость точности распознавания от длины потока спайков.По рисунку 52 можно судить, что начиная с длины цепочки в 500спайков, точность достигает своего предельного значения, так чтодальнейшееувеличениедлиныпоследовательностирезультатов не приведет.107кулучшениюВыводыЧетвертая глава посвящена описанию программного комплекса иэкспериментальной проверке предложенных методов распознавания речи вассоциативной осцилляторной среде. В ней:1.рассмотрен разработанный программный комплекс, включающийсредства для формирования экспериментальной речевой базы, а такжеобучения и тестирования САРР.
Разобраны алгоритмы составления СММ иработы программной модели методов распознавания на АОС;2.описаны цели и задачи, возникающие при составлении речевойбазы, а также ее основные характеристики. В соответствии с целью работы, спомощью разработанного программного комплекса была сформированасобственная экспериментальная речевая база, структура и состав которойподробно рассмотрены;3.описана экспериментальная проверка предложенных методовраспознавания речи в АОС на примере распознавания 2000 русских слов.Дана оценка работы предложенных в работе методов распознавания,произведеносравнение с традиционным алгоритмом прямогохода.Исследованы зависимость точности распознавания от количества тестовыхпримеров и классов распознавания; от длины последовательности спайков.108Глава 5 .
Аппаратная реализация блока распознавания речи наПЛИС5.1. Аппаратная реализация метода распознавания без учета порядказвуковДля аппаратной реализации наилучшим образом подходитпредложенный метод распознавания без учета порядка следования звуков,потому что:его вычислительная сложность линейно зависит от длины наблюдаемойпоследовательности T;благодаря тому, что хранится только один вектор ( ) , расходыпамяти наименьшие по сравнению со всеми рассмотренными подходами.Анализинформационныхпроцессоввразработанномметодераспознавания без учета порядка звуков в осцилляторной среде показал, чтодля каждой СММ необходимо составить модуль вычисления вероятностиlog . Все модули работают параллельно, за одинаковоеколичество тактов выдают результат на клеточный ансамбль дифференциал,который выбирает поток с наибольшей интенсивностью (рис.