material (Информационный критерий оценки фонетической неопределенности)
Описание файла
Документ из архива "Информационный критерий оценки фонетической неопределенности", который расположен в категории "". Всё это находится в предмете "информатика" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "информатика, программирование" в общих файлах.
Онлайн просмотр документа "material"
Текст из документа "material"
2.2.2. Информационный критерий оценки фонетической неопределенности. При распознавании устной речи необходимо стремиться к тому, чтобы все фонемы классифицировались правильно, поэтому нас интересует распознавание полной последовательности фонетических единиц, составляющих высказывание. При этом основным источником неопределенности при распознавании речи является сам акустический сигнал. Еще большую неопределенность представляет параметрическое описание речевой волны. Рассмотрим неопределенности акустического сигнала и приведем меру оценки фонетической неопределенности. Используя эти мерь, можно оценить лексическую и фразеологическую неопределенности. Слитная речь расчленяется на последовательность сегментов по признакам способа образования звуков. К этим признакам добавляются признаки места образования, которые изменяются непрерывно как внутри сегментов, так и через их границы [91,97]. С некоторыми дискретными единицами-звуками речи - фонемами или квазифонемами сегменты связаны таким образом, что смысловые единицы речи (слова) представляются цепочкой фонем.
Большинство систем автоматического распознавания речи [79] преобразует речевой сигнал в такую фонемную цепочку, которая затем сравнивается с ожидаемыми в слове звуками. Процесс преобразования речевого сигнала в последовательность фонем включает нахождение признаков, сегментацию и маркировку сегментов.
Опишем модель фонетической неопределенности, позволяющую оценивать результаты неправильного распознавания фонем. Далее будем использовать матрицу ошибок распознавания фонем и фонетическую структуру слов словаря при оценке лексической неопределенности.
Лексическая неопределенность будет иметь место тогда, когда слова неверно классифицируются из-за близости их фонетической структуры, т.е. последовательности параметров, определяющих эту структуру, на конкурирующих словах. Например, в словах "слезать" и "срезать" первичные параметры звуков, входящих в эти слова, сходны. Когда оба эти слова входят в один и тот же словарь, их точная классификация затруднена, поэтому их можно считать лексически неопределенными. В реальных системах, если позволяет задача, следует подбирать слова, чтобы такой ситуации не возникло. Приведем критерии сложности словаря для того, чтобы можно было оценить степень различимости словарей [63].
Рассмотрим распознавание речи как процесс передачи речевой информации через канал с шумом и оценим информацию, теряющуюся в канале. Потерянная информация является мерой неопределенности или сложности распознавания фонем. В идеальном канале число входных идеальных, полученных после сегментации высказывания экспертами-фонетистами, и выходных фонетических единиц должно быть одинаковым, а последовательность фонем на выходе должна соответствовать входной последовательности. Если же это условие не соблюдается, в канале теряется информация, и в зависимости от величины потерь можно говорить о большей или меньшей неопределенности классификации фонем. При практической оценке фонетической неопределенности в данной работе использовались система признаков [73] и алгоритм сегментации речи на семь типов сегментов:
V - гласный, Т - переходный, М - сонорный, L - низкочастотный, Н - высокочастотный, R - шумный, П - пауза. Затем алгоритм маркировки ставил в соответствие каждому сегменту некоторый фонетический символ, используя априорно полученные гистограммы параметров. От надежности маркировки сегментов во многом зависит точность работы CPP.
Так как СРР рассматривается здесь как канал передачи информации, предположим, что имеются R возможных входных символов алфавита А и s возможных выходов алфавита В . Таким образом, СРР описывается канальной матрицей.
Канал передачи информации, используемой для описания системы распознавания речи, представленной цепочкой фонем, преобразует не зашумленную последовательность звуков в выходную последовательность "машинных " фонем, содержащую ошибки пропуска, вставки слияния и замены звуков.
Пусть элемента входного фонетического алфавита {Ai} появляются на входе с некоторой априорной вероятностью p(A1 ),р(A2 ),.,p(Ar), а элементы алфавита {Bj} на выходе - с вероятностью P(B1,), p(B2),..., р(Bs). Как отмечено ранее, работу канала передачи входного алфавита {Ai} характеризует канальная матрица, поэтому
P{Bj}=∑ri=1P(Ai)*P(Bj/Ai)
Символ | А | О | И |
А | 0,89 | 0,1 | 0,01 |
O | 0,15 | 0,75 | 0,1 |
И | 0,01 | 0,1 | 0,89 |
2.2 Пример матрицы условных вероятностей распознавания изолированных звуков(2.2)
Информация I(Ai,Bj), получаемая от канала, когда на его вход поступила фонема Ai , а на выходе распознавалась как Bj, , определяется [91]
I(Ai,Bj)=LOG(P(Ai/Bj)/P(Ai)) (2.3)
Средняя информация, получаемая на выходе канала с потерями при передаче (распознавании) входного алфавита фонем A(Ai), который распознается как алфавит B=(Bj) , будет
I(A, B)=∑A, BP(Ai,Bj)*I(Ai,Bj)= ∑A, BP(Ai,Bj)*LOG2 (P(Ai/Bj)/P(Ai)=
=-∑A, BP(Ai,Bj)*LOG2 P(Ai)+ ∑A, BP(Ai,Bj)*LOG2 (P(Ai/Bj);
I(A, B)=H(A)+∑A, BP(Ai,Bj)*LOG2 (P(Ai/Bj); (2.4 )
Отметим, что Н(A)- энтропия, характеризующая степень неопределенности входного алфавита А=(Ai) . Из (2.4) получаем, что
H(A)- I(A, B)=-∑A, BP(Ai,Bj)*LOG2 P(Ai/Bj)=
=-∑A, BP(Ai,Bj)*P(Bj)LOG2 P(Ai/Bj)=-∑ BP(Bj)∑AP(Ai/Bj)LOG2 P(Ai/Bj)=H(A/B)
Н(А/B)- апостериорная энтропия входного алфавита фонем, которая
характеризует меру информации, теряемой в системе распознавания при передаче входного алфавита (Ai) . Апостериорная энтропия и является мерой, оценивающей сложность входного словаря для автоматического распознавания при фиксированном параметрическом описании.
При наличии значений энтропии входного алфавита фонем можно вычислить размер (объем), равный 2H(A), а значения 2 H|(A/B) характеризуют среднее количество возможных альтернативных (конкурентных) элементов алфавита (Ai) на входе СРР после того, как на выходе получили множество (Bj) , т.е. меру сложности распознавания входного алфавита фонем. Назовем эту меру эквивалентным размером алфавита фонем. Значение 2 H|(A/B) можно назвать энтропийным критерием оценки фонетической неопределенности, который является обобщенной характеристикой сложности распознавания алфавита фонем (Ai) данной системы распознавания. Если СРР работает без ошибок, условная энтропия Н(А/В)=О и эквивалентный размер алфавита фонем 2 H|(A/B) =1. Естественно, что если Н(А/В)=0, то 2 H|(A/B) =1, а в случае, когда СРР не распознает Н(А/В)=Н(А), то эквивалентный размер алфавита фонем равен 2 H|(A) .
Эквивалентный размер алфавита фонем дает возможность количественно оценить среднее число возможных конкурентных фонем (имеющие близкие параметрические описания), и для его определения необходимо знать апостериорные вероятности P(Ai/Bj) входного алфавита.
Для решения конкретных проблем автоматического распознавания ограниченных наборов слов все многообразие фонем можно свести к двум-трем рабочим фонетическим единицам (например, к классам длительных шумных, звонких и смычных звуков), которые при использовании простой системы признаков и несложных алгоритмов распознавания дают нулевую апостериорную энтропию. Однако при решении задачи распознавания относительно сложных словарей и/иди требование надежной фонетической верификаций произнесенного слова такого количества рабочих фонем сказывается явно недостаточно. Работать же с полным набором фонем "ложно из-за ошибок их автоматического распознавания. Поэтому и приходится идти на компромиссные решения - искать какой-то оптимум при фонетическом описании рабочих словоформ. Эти проблемы будут частично рассмотрены в п. 2.2.3.
Условные вероятности распознавания фонем P(Ai/Bj), определяющие эквивалентный размер фонетического алфавита, можно определить несколькими методами.
83
Статистический метод позволяет получать вероятности распознавания фонем, используя реальную СРР. Это осуществляется путем сравнения результата распознавания системы с точной ручной сегментацией и маркировкой речевого сигнала (иди его параметрического представления), поступающего на вход системы распознавания. В результате получается классическая матрица правильной и ошибочной классификации входного алфавита фонем.
Акустико-параметрический метод, когда матрица ошибок классификации фонем получается путем прямого сравнения их параметрического описания. При этом эталон фонемы выбирается из множества реализации данной фонемы. Расстояние между фонемами используется для оценки условных вероятностей ошибочной классификации фонем. Точность этого метода зависит от выбранного эталона и объема исследовательского материала.
Кроме этих методов, оценку вероятности ошибочной классификации фонем можно произвести на основе моделирования речеобразующего тракта человека [7].
2.2.3. Оценка сложности распознавания слов по их фонетической структуре. Рассмотрим неадаптивную систему распознавания слов как канал передачи информации. Слова входного словаря V=(V1,V2,..,Vr,..,VR) можно представить последовательностью фонетических символов Vr=(Ai1,Ai2,..,Ain) , а слова выходного словаря канала W=(W1,W2,..,Ws,..,WS) –цепочками квазифонетических эталонов Ws=(Bj1,Bj2,…,Bjr) ,где AiA , BjB – соответственно входной и выходной алфавит фонем канала ; r= 1,R ; s= 1,S ; n = n (r ) ; l= l(s). Тогда оценку сложности распознавания слов, производимого сравнением входной реализации с цепочками квааифонетических эталонов, можно осуществить на основании анализа матрицы ошибок, подученной при представлении эталонов слов WsW поверхностными формами Wsk Ws , K=1, Ks каждого выходного слова. Фактически сложность распознавания входного словаря V определяется наличием сходных эталонных поверхностных форм Wsk выходного словаря W и частотой встречаемости этих поверхностных форм P(Wsk). Основная проблема при построении матрицы ошибок для каждого словаря заключается в формировании эталонов поверхностных форм Wsk Ws , для реализация каждого слова и получения квазифонетического графа f(Ws), учитывающего все поверхностные формы в вероятностями их появления. Все множество квазифонетических поверхностных форм слова Ws, записать в виде эталонного графа трудно, так как при аппаратурно-программном методе распознавания появляются не только поверхностные формы слова, обусловленные особенностями произношения, но и формы, включающие случайные сегменты, маркированные квазифонетическими метками, появление которых связано с не идеальностью автоматической фонетической сегментации и маркировки нашим аппаратурно-программным методом, вызванной, например, изменением интенсивности речевого сигнала.
В дальнейшем будем рассматривать влияние двух обстоятельств на формирование эталонных поверхностных форм слов рабочего словаря, учитывая, что поверхностные формы, связанные о особенностями произношения и матрицей ошибок квазифонемной классификации, можно построить вручную (или автоматически, используя таблицу акустико-фонологических правил, хранящуюся в памяти, и прилагаемых к базовой квазифонетической цепочке), а поверхностные формы Wsk . , обусловленные особенностями аппаратуры выделения информативных признаков, можно получить, анализируя статистику реализации квазифонетических цепочек слов рабочего словаря, полученных с помощью ЭВМ. Получение этой статистики не всегда обязательно, особенно если рассматриваются слова, контрастные по своим акустическим свойствам. Предварительную оценку сложности распознавания слов можно сделать аналогично оценке сложности фонетического алфавита - по фонетической структуре слов, вычисляя апостериорную словесную неопределенность и не исследуя статистики реализации.
Все эталоны слов Wsk рабочих словарей должны быть представлены последовательностью маркированных фонетическими метками отрезков, где квазифонемы должны делиться на опорные, обязательные для данного слова (определяющие базовую форму и, как Правило, присутствующие во всех поверхностях), и "вспомогательные", трудно классифицируемые. Трудно классифицируемые сегменты должны быть расчленены (хотя бы грубо) на несколько квазифонетических элементов, если длина этих сегментов выше пороговой (это делает на первом этапе человек на основании знаний фонетической структуры возможных форм каждого слова). Опорными сегментами слова следует считать маркированные отрезки которые при их маркировке квазифонетическими метками допускают суммарную ошибку ниже эвристически определенного порога.