Диссертация (Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала), страница 2
Описание файла
Файл "Диссертация" внутри архива находится в папке "Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала". PDF-файл из архива "Быстрые алгоритмы оценки параметров полигармонической модели голосового сигнала", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Как правило, мужчины имеют низкий голос с большей гортанью посравнению с высоким голосом женщин с маленькой гортанью. Голосовые связки служат длясинтеза звонких и глухих звуков. Существуют различные виды звуков, называемые фонемами. Для каждой из фонем голосовые связки открываются или закрываются в различныхсостояниях, чтобы пропустить воздух через себя в верхнюю часть голосового тракта. Воздух, покинув голосовые связки, входит в глотку, полость рта и носа, которые, резонируя,усиливают некоторые из частот и ослабляют другие.
Остальные органы в полости рта, такиекак нёбо, зубы, язык, губы, изменяют свою форму и двигаются, обеспечивая возможностьпропускать или блокировать воздушный поток, выходящий из рта и носа. Тем самым онимодулируют звук, чтобы придать необходимую форму и задать амплитуду. Из-за разницы вразмерах и форме речевых органов речь человека уникальна. Красота системы артикуляциизаключается в том, что даже такая сложная система способна очень быстро реагировать иизменять параметры речи.5пять00.20.4четыре0.60.81один1.21.41.600.050.10.150.2время, сек0.30.250.35Рисунок 1 — Осциллограмма речевого сигнала для фразы «пять четыре один»Синтез речитекстфонемы,произношениеартикуляционныедвижениявозбуждение,формантыФормулировкасообщенияЯзыковойкодМышечноеуправлениеВокальныйтрактдискретно50 bps200 bpsречевойсигналнепрерывно2000 bps64-700 KbpsКаналпередачискорость передачи информациисемантикафонемы, слова,предложенияизвлечениепризнаковспектральныйанализОсмыслениесообщенияЯзыковаяинтерпретацияНейроннаятрансдукцияКолебаниябазилярноймембраныдискретноречевойсигналнепрерывноВосприятие речиРисунок 2 — Речевая цепь: от формулировки до восприятия6В свою очередь, восприятие речи происходит следующим образом.
На первом шаге припомощи внутреннего уха и мембраны звук преобразуется в своё частотное представление.Так называемая базилярная мембрана работает как спектральный анализатор. Волоски наней колеблются при поступлении звукового сигнала и генерируют нервные импульсы.
Стоитотметить, что такое преобразование напоминает принцип действия преобразования Фурье.Последующие шаги обеспечивают преобразование входящих нервных импульсов в осмысленное предложение.Изучение синтеза и механизма восприятия речевых сигналов необходимо в задачахраспознавания речи, коррекции речи, синтеза речи и прочих.0.1Кодирование речевого сигналаВозможно, самое распространённое применение алгоритмов обработки речевых сигналов наблюдается в области цифровой передачи голосовых сигналов и их хранении. Основнаязадача там — сжатие информации. Этот процесс принято называть кодированием речевогосигнала, или сжатием.голосовойсигналАналого-цифровойпреобразовательотсчётыАнализкодированиеданныеКаналпередачидекодированныйсигналЦифро-аналоговыйпреобразовательотсчётыСинтездекодированиеданныеРисунок 3 — Диаграмма процесса кодирования / декодирования речиРис. 3 демонстрирует общую схему работы голосового кодера/декодера.
В начале аналоговый сигнал конвертируется в цифровой при помощи специализированного конвертора.Цифровой сигнал анализируется и кодируется специальными алгоритмами, после чего получившийся сжатый сигнал можно передать через канал связи. Декодирование сигнала происходит в обратном порядке.Речевые кодеры используются в множестве прикладных задач: проводная и беспроводная связь, сотовая связь, интернет-каналы, защита и шифрование голосовой информации.Большинство кодеров используют в своей работе характерные свойства речевых сигналов, и поэтому не могут применяться для звукового сигнала в общем случае. Универсальныекодеры, которые используют только общую информацию о звуке не достигают качества работы специализированных версий.70.2ФонемыОбычно, люди говорят на языке своего региона, своего окружения.
Дети начинаютучиться говорить уже к первому году своей жизни. Любые языковые выражения могут бытьпроизнесены с использованием символов, называемых фонемами. Все слова в любом языкеможно произносить, используя минимальный набор фонем. Любой из языков, на которомговорят в мире, содержит от 20 до 60 фонем [2; 3].
В английском языке любая вербальнаяинформация может быть выражена с использованием всего 40 фонем [4].Фонетика любого языка содержит два типа фонем: гласные и согласные. Гласные всегда озвучивают звонкие звуки, в то время как согласные могут быть звонкими и глухими.Звонкие звуки возникают, когда голосовые связки вибрируют почти периодически при прохождении воздуха через них.
Воздух, проходя через связки, формируется в звук с некоторойосновной частотой, около 110 Гц для мужчин, 200 Гц для женщин и 300 Гц для детей. Помимо основной частоты, артикуляционные движения органов порождают резонансные частотыв зависимости от фонемы. Эти N резонансных частот, F1 , F2 , ..., Fn называют формантами.Нормальный диапазон формант для взрослых мужчин F1 = 180 − 800 Гц, F2 = 600 − 2500Гц, F3 = 1200 − 3500 Гц, и F4 = 2300 − 4000 Гц. Глухой звук, с другой стороны, имеет полностью случайный характер. При синтезе глухого звука голосовые связки полностью открыты,полностью закрыты или частично открыты.Самый популярный и широко используемый формат фонем для американского англий-ского языка в ASCII кодировке называется ARPAbet [5].
Эти звуки представлены наборомиз 39 фонем.Как уже упоминалось ранее, в широком смысле речевой сигнал делится на две категории, звонкий и глухой. Звонкие речевые сигналы носят периодический характер, тогда какглухие выглядят как случайный сигнал. Эти два типа речевых сигналов показаны на рис.
5и 6.При проведении анализа, речевые сигналы могут быть представлены в различных формах, таких как представление во временной области, в частотной области, спектрограммы ипр.. Пример спектрограммы сигнала приведён на рис. 4.0.3Первые попыткиПервую попытку выделения гармоник из сигнала совершил в 1860 году Гельмгольц спомощью резонаторов [6; 7]. Резонатор выглядел как сфера с вытянутым вверх горлышком,см. рис. 7. В зависимости от размера и формы такое устройство резонирует на определённых частотах. В негармоническом звуковом поле такой прибор реагирует только на колебания с частотой fH , амплитуда возникающих колебаний во много раз превышает амплитуду8×1041.510.5012345Время (сек)6Рисунок 4 — Спектрограмма сигнала0.30.250.20.15АмплитудаЧастота (Гц)20.10.050-0.05-0.1-0.15-0.25.885.895.95.91Время (сек)5.92Рисунок 5 — Звонкий звук5.93789×10−386Амплитуда420-2-4-6-8-105.585.595.65.625.61Время (сек)5.635.645.65Рисунок 6 — Глухой звукРисунок 7 — Модель резонатора Гельмгольцазвукового поля.
Поэтому набор резонаторов с различными собственными частотами можетприменяться для анализа звука.Собственная частота резонатора вычисляется по формулеvfH =2πrS,V0 Lгде fH — частота резонанса, Гц, v — скорость звука в воздухе (340 м/с), S — сечение отверстия, м2 , L — длина отверстия, м, V0 — объем резонатора, м3 . С помощью резонаторовГельмгольц доказал, что сложные сигналы состоят из набора различных гармоник.0.4Высота звукаВысота звука является одним из основных параметров звукового сигнала. В голосовомсигнале высота позволяет определить пол говорящего [8] (чем выше звук, тем вероятнее мыслышим женский голос), передаёт интонацию фразы (в вопросительной интонации наблюдается увеличение высоты звука).
Так же высота отвечает за эмоциональный окрас речи [9](возбуждение характеризуется повышенной высотой звука с большим диапазоном, когда как10грусть описывается пониженной высотой звучания и её низкой вариативностю). В музыкевысота звука напрямую связана с понятием нот.Задача оценки высоты звука встречается в различных прикладных областях: музыка,голосовая связь, лингвистика. В музыке, одним из основных приложений являются системыавтоматической транскрипции музыки [10]. Часто встречается, что для музыкального произведения не существует нотной транскрипции. Существуют инструменты, которые позволяютв автоматическом режиме формировать нотное описание для музыкальных произведений.Ещё одним примером в музыке являются системы автоматического поиска мелодий [11].Когда человек слышит песню, но не знает её названия и автора, он может воспользоватьсясервисами поиска музыки по её звучанию.
Для этого достаточно записать фрагмент искомоймелодии и произвести поиск по базе данных.В системах связи, высота звука используется для кодирования голосовых сигналов [12].Некоторые системы кодирования основаны на моделях, которые представляются как комбинация исходного звукового сигнала, образуемого связками, и линейного фильтра, которыйпредставляет собой модель голосового тракта [13].Определение высоты звука применяется в лингвистике для поиска шаблонов в интонации. Этот процесс может быть полезен в системах изучения иностранных языков [14].Имеются приложения в медицине, позволяющие определять расстройства в речевой системечеловека, определяя зашумленность речи [15].0.4.1Величина высоты звукаКоличественная оценка высоты звука производится на слух.
Участнику экспериментадают прослушать сигнал и соотнести его с одной из чистых гармоник. Собирается статистика, на её основе строятся распределения ответов участников. По этим распределениямпринимается решение о выборе значения частоты для высоты звука. Средняя частота гармоник и будет определять высоту звука.Тепрь попытаемся ввести определение высоты звука и введём определение частотыосновного тона.0.4.2Высота звука и частота основного тонаПриведем неформальные определения, которые даются для высоты звука. Американская ассоциация стандартов приводит следующее определение (ASA, 1960):11Рисунок 8 — Зависимость уровня громкости от звукового давления и частоты. Кривыеравной громкости. [17]”Высота звука это тот атрибут слухового восприятия, согласно которому звуки могутбыть упорядочены человеком.”Позже, американский национальный институт стандартов пишет (ANSI, 1994):”Высота звука это такая характеристика звука, в соответствии с которой звуки можноупорядочить на шкале от низкой до высокой.
Высота зависит главным образом от содержащихся в звуке частот, а так же от звукового давления и осциллограммы сигнала.” И ещёнекоторые определения:”Высота звука — как качество звука, определяемое человеком субъективно на слух изависящее в основном от его частоты, т. е. от числа колебаний в секунду”. С ростом частоты высота звука повышается. В небольших пределах высота звука изменяется также взависимости от громкости звука и от его тембра.”Высота звука — субъективное качество слухового ощущения, наряду с громкостью итембром, позволяющее располагать все звуки по шкале от низких к высоким.” Для чистоготона высота зависит главным образом от частоты (с ростом частоты высота звука повышается), но при субъективном восприятии также и от его интенсивности — при возрастанииинтенсивности высота звука кажется ниже.