part 1 (694716), страница 5
Текст из файла (страница 5)
Система содержит компоненты просодического и фонетического анализа, которые обеспечивают последующее сегментное структурирование высказывания (получение цепочки кваэифонетическюс сегментов)
Зак.480 26
для лексического сравнения. Сравнение осуществляется с помощью блоков словесного гипотезирования и верификации. Верификация слов производится методом динамического программирования. При построении системы обнаружения ключевых слов была использована обучающая выборка - разговорная речь, продолжительностью 13 мин. Предложения произносили 8 дикторов. Контрольная выборка составляла II мин разговорной речи 10 дикторов (из которых двое участвовали в обучении).
При контрольном эксперименте точность обнаружения 10 ключевых слов была невысока, но все же испытания следует считать обнадеживающими. В [124] отмечается, что в течение 1978 г. отдел речевой связи Jperry nnivac работал над созданием более совершенного блока фонетического анализа, который фактически стал лексически-управляемым фонетическим верификатором (а не автономным фонетическим анализатором, как раньше ),что лучше учитывает коартакуля-циокные эффекты внутри слова. Модернизация счстемы позволила [I55J получить более удовлетворительные результаты по обнаружению и верификации ключевых слов в потоке слитной речи. На тестовых предложениях (16,7 мин разговорной речи 14 дикторов, не принимавших участия в обучении системы) ключевые слова были обнаружены в 30% случаев.
В [l87] описана система распознавания слитно произносимых цифр, разработанная фирмой Bell laboratories. Систэма состоит из двух взаимодействующих блоков. Первый осуществляет пословную сегментацию всего высказывания на отдельные цифры, а второй производит распознавание этих цифр по результатам сегментации. При распознавании использовались признаки сеп/^нтов речевого сигнала:
р - параметр, логарифм анергии, кооффициенты линейного предсказания и ошибка предсказания .и коэффициента автокорреляции.Для пословной сегментации слитных словосочетаний учитывалось то обстоятельство, что для этого конкретного словаря (английские названия цифр) шумные участки и паузы (глухие смычки) могли находиться только в начале или конце слов. &ти участки и являлись в основном опорными границами между словами. Точность пословной сегментации составляла 99% (при произнесении словосочетаний как в тихой комнате, так и в условиях машинного зала). Точность распознавания словосочетаний (названий семизначных телефонных номеров) составила 91% для 10 дикторов (5 мужчин и 5 женщин), произносивших фразы в тихой комнате, и QT% для тех же дикторов, находившихся а машинной зале. В [149] отмечается, что получены обнадеживающие результаты по распознаванию слитной речи, использующей словарь в 1й*7 слов, аналогичный словарю [ 147,148] . Дальнейшее развитие этих систем описано в [156,1693.
26
Система Hearsay-П создавалась на базе разработанных ранее систем распознавания слитной речи Dragon и Hearsay-I.Аналогично Hearsay-I главным принципом Hearsay-д было выдвижение гипотезы (о звуке, слове, фразе) и ее подтверждение с помощью всех возможных источников знаний (ИЗ) о речевом сигнале .
Описания высказываний, которые должны анализироваться в этой системе понимания речи, имеют унифицированную трехмерную структуру, причем размерностями являются: уровни представления (акустический, фонетический, слоговой, лексический, синтаксический и семантический), время и вероятностные альтернативы (на каждом уровне для каждого временного отрезка). Ьта структура содержится в памяти системы как единая информационная база (ВИБ),подвергающаяся исследованиям и модификациям с помощью различных программ, реализующих ввод в систему необходимых источников знаний.
Работа комплекса программы на единой информационной базе (которую называют "классной доской") и есть интерпретация слитно произнесенного высказывания на различных лингвистических уровнях - от фонетического до семантического.
Общая информационная память, построенная как единая многоуровневая информационная структура с внутренними связями, представлена в системе Hearsay-П в виде графа. Основная единица этой информационной структуры - узел графа, являющийся гипотезой о существовании в высказывании некоего частичного элемента. Структурные отношения между узлами графа (гипотезами) представляются дугами графа, обозначающего связи. Существует два наиболее важных типа структурных отношений - "последовательность элементов" и "выбор элементов".
Последовательность - это структурное отношение, означающее, что гипотеза верхнего уровня поддерживается "юследовательныы рядом гипотез на нижнем уровне (например, слово представляется последовательностью непересекающихся во время звуков речи). Выбор - отношение, определяющее гипотезой альтернативную поддержку от двух и более гипотез , причем каждая от них существенно перекрывает тот же временной отрезок (т.е., например, гипотезой, допускающей на данном временном интервале несколько различных слов примерно одинаковой фонетической структуры).
Распространение идеи "выдвижение гипотезы - ее подтверждение" на все уровни знаний о речевом сигнале требует организации системы передачи информации между уровнями. В связи б двумя видами, структурных отношений между узлами графа можно рассматривать и два типа гипотез - горизонтальные и вертикальные, подт-
27
верхдаемые соответствующими источниками знаний. Гипотеза считается горизонтальной, если источник знаний использует контекстуальную информацию на данном уровне для подтверждения гипотезы того хе уровня. Вертикальная гипотеза определяется как гипотеза,требующая для своего подтверждения информации, получаемой источниками знаний на других уровнях.
Основная функция источников знаний - устранить ошибки, возникающие при обработке слитной речи. При этом источники знаний должны вовремя добавить какую-то новую информацию, внести что-то полезное для более надежного распознавания. Источники знаний должны уметь распределять эти знания через механизм выработки гипотез, оценивать цобавку от других источников знаний,т.е. подтверждать иди отвергать гипотезы, сделанные другими источниками знаний. Источники знаний необходимо создавать таким образом, чтобы их можно было приспособить к новым участкам анализа высказывания и вообще к новым задачам автоматического понимания слитной речи.
Для нормальной работы СПР Нвагаау-11 необходимо реализовать:
1) достаточно общую, структурно-полную информационную базу, анализируя которую, источники знаний могут вводить новые гипотезы,' проверять и изменять гипотезы, размещенные в этой базе другими источниками знаний;
2) средства для описания разнообразных источников знаний и обеспечения их внутренней обрабатывающей способности;
3) возможность управлять действиями источников знаний ин-фовмационко-направленным способом (необходим способ, с помощью которого определяется ряд предварительных условий, запускающих необходимый источник знаний);.
4) признаки, по которым обнаруживается удовлетворение этих условий и локализуется часть информационной базы, в которой заинтересованы соответствующие источники знаний.
Для реализации п.4 необходимы два механизма: мониторный руководящий механизм, обнаруживающий изменение общей информационной базы и оценивающий природу этих изменений, и ассоциативный механизм повторных испытаний и восстановления частей информационной базы, когда это необходимо. Таковы самые общие сведения о Hearsay-П. Переедем к более детальному рассмотрению этой системы.
Параметрическое представление высказывания в Неагвау-П сводится к использованию двухступенчатой системы признаков. Несмотря на то, что в последнее время большое внимание уделяется
28
точным методам нахождения параметров речеобраэующего тракта (в частности, с помощью линейного предсказания), неапау-11 используется лишь на втором этапе. Но прежде чем использовать коэффициенты линейного предсказания, авторы Неагвау-П получают гораздо более простые и дешевые обобщенные параметры,которые назвали параметрами zapbash (Zero Orosetng and PeaHs at Differenced and Smooth Vaweform). Эти параметры обеспечивают грубую сегментацию речевого потока по способу образования звуков, т.е. обеспечивают сегментацию и маркировку I уровня. После локализации в высказывании фонетических элементов применяют сегментацию и маркировку П уровня, основанную на использовании коэффициентов линейного предсказания, обеспечивающего более точную идентификацию сегментов.
zapdash - параметры речевого сигнала, определяющие интегральные характеристики звуков в низкочастотном (1 кГц) диапазонах. Эти параметры выделяются в реальном масштабе времени из сигнале, поступающего с АЦП в мини-ЭВМ, которая обладает средним быстродействием 600 тыс. операций в I с. Параметры (число нулевых пересечений и амплитудное значение сигнала на интервале анализа для каждого из диапазонов) формируются программно, и их значения дают возможность грубо классифицировать сегменты на 10 различных типов - пауэы (глухая смычка), наличие звонкой смычки, характеризующие звонкие взрывные б, д,г, сонорный согласный, глухой фрикативный (переднеязычный или заднеязычный), носовой, свистящий, гласный высокого иди низкого подъема. В дальнейшем производится пере классификация сегментов на 59 классов, некоторые из них пересекаются в пространстве признаков.
На второй стадии к среднему участку сегментов применяют сравнение с эталонами (этих эталонов для каждого класса сегментов может быть до 100). При сравнении средний участок сегмента по-ступившей на вход реализации сравнивается с множеством эталонов, которые подучены от специально обученных дикторов. Использование сегментации I уровня позволяет, как отмечается в [l79], ускорить общую сегментацию в пять раз по сравнению с унифицированной, основанной .исключительно на коэффициентах линейного предсказания.
Как уже отмечалось, ключевой проблемой систем понимания Речи является верификация сдоврсиьк гипотез.подожданных различ-иыми источниками знаний. Блок словесной верификации должен оце-нвдь, насколько акустические данные входной реализации соответствуют фонетической транскрипции гипотезируеного слова.
2S
В соответствии с оценкой, словесный верификатор отбрасывает большее числе гипотезированных слов, сохраняя возможные пра~ вильные, чтобы впоследствии отобрать единственное с помощью инфор~ мации высших уровней.
В Hearsay -П слова порождаются либо словесным гипотезато-ром снизу вверх (блоком POMOW), либо преде называются сверху вниз семантико-синтаксическим блоком sass . Блок словесной верификации wizard обрабатывает гипотезы о словах снизу вверх, используя акустическую информацию и результаты автоматической сегментации. Каждый сегмент высказывания представлен вектором фонемных вероятностей (т.е. с каждым отрезком высказывания связываются определенные звуки, которым присваиваются некие веса), Каждое слово словаря записывается эталонным графом возможных фонетических произнесений, учитывающим все альтернативные варианты произнесений. Однородная модель, используемая блоком словесной верификации, дает возможность найти оптимальное совпадение одного из эталонов (соответствующее пути на одном из эталонных графов) и участка входной реализации, соответствующего слову.
В системе Hearsay-П при словесной верификации стыки между словами не рассматриваются, делается лишь их внутренняя обработка. wizard пытается верифицировать слова, как будто они находятся в изоляции.
При верификации слова обрабатываются снизу вверх следующим образом: предсказанные моменты начала и конца слова связываются с соответствующими сегментами высказывания bseg и eseg. Исследуются все пути в эталонных графах возможных слов, которые совпадают с отрезками и входной реализацией. Сравниваются с эталонами отрезки, которые начинаются в (baeg-I: beeg +I ) и заканчиваются в jeseg -I I eeeg +I(, т.е. параллельно рассматриваются девять возможных участков высказывания, что приводит к девяти оптимальным путям на эталонных графах, из которых выбирается тот. оценки которого наибольшие, или наиболее соответствуют рассматриваемому участку. Сдвиг на один сегмент вправо или влево позволяет избегать ошибок при представлении входного, высказывания (акустических данных) различными источниками знаний. В результате блок словесной верификации может изменять время словесных гипотез, а также их оценки. Следует отметить, что если в проектах ВШ (Speechlis и HWIM) идет непосредственный переход от фонетического описания к словесному, то в Hearsay-П используется еще промежуточный, слоговый уровень между словами и звуковыми сегментами. Для поддержки словесных гипотез используются так называемые типовые слоги, слоготипы (syltypes).
Ццея слоготипов сводится к тому, что слоги, имеющие похожие сегменты (например "та", " па"), относятся к одному типу. Никаких попыток различать слова с одинаковыми слогами в Нвагвау-П не делается. Каждый слоготип характеризуется слоговым ядром, определяемым эвристически присвоенными сегментными метками и положением максимума энергии на отрезке. Для каждого слоготипа гипотези-руются слова, в которых встречается данный слог; многосложные слова отбрасываются, если плохо согласовываются о последовательностью слоготипов. Подробное описание слогового гипотезатора pokow содержится в С 1783.
В Неагаау-П содержится еще один гипотезатор - гипотеза-тор словесных последовательностей wozeq. В сравнении со стратегией однословных "островков надежности" многословная последовательность желательна по двум причинам:
1) доверие к гипотезе о последовательности сдов более высоко, чем в однословной гипотезе;
<;) правильность оценки (в очках) для последовательности слов выие, чем для одного слова. (Последовательность слов использует избыточность языка, йероятность того, что гилотияируемая последовательность правильна, может превосходить вероятность того, что правильно одно слово. Сравнение оценок, основанных на средних оценках нескольких составляющих, статистически более надежно, чем сравнение, основанное на оценке одной составляющей.)
Синтаксический и семантический источники знаний в Неагвау-п представляются блоком sass . Этот блок имеет дело с гипотезами, представляющими слова, словосочетания или фразы, воспринятые или предложенные. Задача sass - найти наиболее правдоподобное предложение по последовательности смежных слов. Правдоподобие определяется достоверностью словесных гипотез и грамматической правильностью и осмысленностью предложения. Как уже отмечалось, в и«эаг-aay-il многочисленные альтернативы представляются в общей информационной базе и обрабатываются параллельно независимыми информационно направляемыми программными блоками - модулями источников знаний, которые создают, проверяют и переписывают гипотезы о высказывании, запоминая их на доске. Одна размерность доски - уровень представления, другая - время, третья - вероятность правильности гипотезы, оцениваемая в очках. С точки зрения sass общую информационную базу ("классную доску") можно рассматривать как схему гипотезированных слов, порождаемых различными источниками знаний. Вертикальные измерения - это очки (в диапазоне - 100 * -» +100), оценивающие достоверность словесных гипотез.