Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 207
Текст из файла (страница 207)
Акустическая модель является гораздо более сложной. В ее основе Глава 15. Вероятностные рассуждения во времени 759 Таблипа 15.1. Фонетический алфавит ПАКРЛ, или дпрльос, в котором перечислены все фонемы, ис- пользуемые в американском диалекте английского ~зыка. Существует также несколько альтернатив- ных систем обозначения фонем, включая международный фонетический алфавит (1п[егпанопа! РЬопеис А1рьаЬег — 1РЛ), который описывает фонемы всех известных нзыков Согласные  — и Согласные Р— Х Гласные Пример Фонема Пример Фонема Пример Фонема [зу1 [1Ь] [Ь] [сЬ] [с)] 11] [д) [ЬЬ) [Ьо) [и] [7) [а) Ьеаг Ьег Я~с] йс[а (аг йсг [еЬ] [ае) [вЬ) [с] [сЬ] айос Ьаг [аЬ] Ьйг 1еп асг Ьаг [ап] )Ь[сх ьдйвЬ1 Ьраг [ом] [с)Ь] Ь]аЬ [зЬ] [)с] [пЬ1 [с)х) )сс Ьсс]с [сг Ьойег [еу1 [ех) ьа)1 ус] [и] Вегг нег [ау] [е1) нЬ]сп Ьоп)с [оу] [у] [7] [ 7Ь] Хсг ( ахт) [ею) сй наг Ьоггйш аоо [ан) [п) [еп) с)яип Всг Ьо [гав гпеааогс [ах] аЬощ [з.х] [пд] [епд) 5)ай ГО5Я5 [аа] сгаз)ппа сог отсутствие звука Благодаря существованию фонем появляется возможность разделить акустическую модель на две части.
Первая часть касается 'св произношения и задает для каждого слова распределение вероятностей по возможным последовательностям фонем. Например, слово "се)!]ой*' произносится как [в Ьу 1 1)з пд]; или иногда как [в Ьу 1 Ьх пд], а иногда даже как [в Ту 1 еп]. Фонемы не являются непо- лежит важное открытие, сделанное в области ск фонологии (науки о звуках устной речи), согласно которому во всех человеческих языках используется ограниченный набор звуков, называемых Ж фонемами, количество которых находится в пределах от 40 до 50. Грубо говоря, фонема — это звук, который соответствует одной гласной или согласной букве, но существуют некоторые сложности; например, некоторые сочетания букв, такие как "[Ь" и "пй", в английском языке соответствуют единственным фонемам, а некоторые буквы произносятся как разные фонемы в различных контекстах (в качестве примера можно указать букву "а" в словах "га1" и "га1е").
В табл. 15.1 перечислены фонемы, используемые в английском языке, с примером для каждой из них. Итак, 'пь фонема — это наименьший фрагмент звукового сигнала, который имеет различимый смысл для людей, говорящих на конкретном языке. Например, в английском языке фонема "1" в слове "51]с]с" является той же самой, что и фонема "1" в слове "1)с)с", но в тайском языке они различаются как лве отдельные фонемы. 760 Часть Ч.
Неопределенные знания и рассуждения в условиях неопределенности средственно наблюдаемыми, поэтому, грубо говоря, речь может быть представлена как скрытая марковская модель, переменная состояния которой, х„, определяет, какая фонема произносится в момент времени е. Вторая часть акустической модели относится к тому способу, с помошью которого фонемы реализуются в виде акустических сигналов. Другими словами, переменная свидетельства я, для скрытой марковской модели задает наблюдаемые характеристики акустического сигнала в момент времени е, а акустическая модель опрелеляет вероятность Р(е, ~ х,), где х, — текушая фонема. Эта модель позволяет также учитывать ударение, скорость и громкость речи и основана на методах из области 'в.обработки сигналов, позволяющих создавать описания сигналов, которые являются достаточно устойчивыми по отношению ко всем указанным влияниям.
В оставшейся части данного раздела приведено описание указанных моделей и алгоритмов, которое построено от нижнего уровня к верхнему, начиная от акустических сигналов и фонем, проходя через отдельные слона и заканчивая целыми предложениями. В заключение будет показано, как происходит обучение всех этих моделей и насколько хорошо работают результируюшие системы. Звуки речи Звуковые волны представляют собой периодические изменения давления, которые распространяются через воздух.
Звук может быть измерен микрофоном, диафрагма которого смещается под воздействием изменений давления и вырабатывает непрерывно изменяющийся ток. Аналогово-цифровой преобразователь измеряет величину тока (которая соответствует текущей амплитуде звуковой волны) через дискретные интервалы, определяемые 'в.
частотой дискретизации. Для обработки речи, как правило, применяется частота дискретизации от 8 до 16 кГц (т.е. от 8 до 16 тысяч раз в секунду). (Дискретизация высококачественных музыкальных записей осушествляется с частотой 44 кГц или больше.) Точность каждого измерения определяется Ж коэффициентом квантования; в системах распознавания речи обычно применяется от 8 ло 12 битов. Это означает, что в системах низкого класса дискретизация происходит с частотой 8 кГц н с квантованием 8 битами, а это требует для передачи фрагмента речи, занимающего одну минуту, примерно половины мегабайта. Было бы практически невозможно создавать и манипулировать распределениямИ вероятностей р(эзопа) ~ р)золе) с таким большим объемом воспринимаемой информации, поэтомуу необходимо разработать более краткие описания акустического сигнала.
Прежде всего необходимо отметить следуюшее: хотя звуковые частоты в речи могут достигать нескольких килогерц, изменения в содержимом этого сигнала происходят гораздо менее часто, возможно, с частотой не больше ! 00 Гц. Поэтому в системах распознавания речи суммируются свойства сигнала за более продолжительные интервалы, называемые Ъ.
фреймами. Длина фрейма равна приблизительно 10 миллисекундам (т.е. соответствует 80 выборкам на частоте 8 кГц); это означает, что она достаточно мала, чтобы обеспечить исключение с помошью процесса суммирования некоторых помех, отличаюшихся меньшей продолжительностью. В пределах каждого фрейма происходящее в нем представляется с помощью вектора 'а. акустических характеристик. Например, во фрейме можно охарактеризовать количество энергии в каждом из нескольких частотных диапазонов. К другим важным характеристикам относится общее количество энергии во фрейме 761 Глава 15.
Вероятностные рассуждения во времени и его отличие от предыдущего фрейма. Извлечение характеристик из речевого сигнала можно сравнить с прослушиванием выступления оркестра и определением того, что "теперь валторны звучат громко, а скрипки — тихо". На рис.
15.14 показано, как происходят преобразования из непосредственно измеряемого звука в последовательность фреймов. Обратите внимание на то, что фреймы перекрываются; это позволяет предотвратить потерю информации, которая могла бы произойти, если бы важное акустическое событие случайно совпало с границей одного из фреймов. Аналоговый акустический сигнал Дискрегизированный и квангифинированный нифровой сигнал Рис. 15.14. Преобразование акустического сигнала в последовительность фреймов; для описания каждого фрейма применяются значения трех акустических характеристик В данном случае показаны фреймы только с тремя характеристиками.
В реальных системах используются десятки или даже сотни характеристик. Если применяется и характеристик и каждая из них имеет, скажем, 256 возможных значений, то любой фрейм представляется в виде точки в п-мерном пространстве и существует 256' возможных фреймов. При п>2 была бы практически неосуществимой попытка представить распрелеление вероятностей Р( беасцхев) рЛоле) в виде явно заданной таблицы, поэтому требуется дальнейшее сжатие.
Ниже описаны два возможных подхода к решению этой задачи. ° В методе сы векторного квантования, или сокращенно ЧО (Чес(ог анап()ха()оп), все п-мерное пространство подразделяется, допустим, на 256 областей, обозначенных метками от С! до С256. В таком случае появляется возможность представить каждый фрейм с помощью одной метки, а не вектора из и чисел. Поэтому в табулированном распределении Р((го) руопе) имеется 256 вероятностей, заданных для каждой фонемы. Но метод векторного квантования больше не находит широкого применения в крупномасштабных системах. ° Вместо дискретизации пространства характеристик для описания распределе- НИЯ Р(беаецхев) р7гопе) может использоваться параметризованное непрерывное распределение.
Например, дня каждой фонемы может применяться гауссово распределение с различным средними и матрицами ковариаций. Такой метод становится приемлемым, если акустические реализации каждой фонемы кластеризованы в отдельной области пространства характеристик, Но на практике звуки могут распределяться по некоторым областям, поэтому приходится использовать сочетание гауссовых распределений.
Такое сочетание представляет собой взвецгенную сумму )с отдельных распределений, поэтому в распределении Р( ген сцхеэ) рйопе) имеется )с весов, )с векторов средних 762 Часть Ч. Неопределенные знания и рассуждения в условиях неопределенности с размером п и К матриц ковариации с размером и', т.е. для представления каждой фонемы применяется О [Кп') параметров. Очевидно, что при переходе от полного речевого сигнала к метке НЯ или к множеству параметров сочетания распределений некоторая информация теряется. Весь секрет успешной обработки сигналов заключается в том, что характеристики и области (или гауссовы распределения) должны быть выбраны так, чтобы потери полезной информации свелись к минимуму.
Любой конкретный звук речи может быть произнесен с помощью слишком многих способов: громко или тихо, быстро или медленно, с высоким или низким ударением, на фоне тишины или шума, а также любым из миллионов разных говорящих людей, каждый из которых имеет свой акцент и обладает разными характеристиками речевого тракта. Обработка сигналов должна осуществляться таким образом, чтобы были устранены все эти вариации и вместе с тем сохранилось то общее, чем характеризуется воспринимаемый звук'. В простую модель, описанную выше, необходимо внести еше лва уточнения. Первое из них относится к временной структуре фонем.