part 3 (694718), страница 2

Файл №694718 part 3 (Машины, которые говорят и слушают) 2 страницаpart 3 (694718) страница 22016-07-31СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 2)

Далее рассмотрим некоторые подходы, позволяющие, по нашему мнению, осуществлять относительное сравнение сложности распозна­вания словарей, и введем определения, связанные с оценкой ка­чества автоматического распознавания слов проблемно-ориентирован­ного языка.

2.2.2. Информационный критерий оценки фонетической неопреде­ленности. При распознавании устной речи необходимо стремиться к тому, чтобы все фонемы классифицировались правильно, поэтому нас интересует распознавание полной последовательности фонетических единиц, составляющих высказывание. При этом основным источником неопределенности при распознавании речи является сам акустичес­кий сигнал. Еще большую неопределенность представляет параметри­ческое описание речевой волны. Рассмотрим неопределенности аку­стического сигнала и приведем меру оценки фонетической неопре­деленности. Используя эти мерь, можно оценить лексическую и фра­зеологическую неопределенности. Слитная речь расчленяется на пос­ледовательность сегментов по признакам способа образования зву­ков. К этим признакам добавляются признаки места образования,ко­торые изменяются непрерывно как внутри сегментов, так и через их Границы С 91,97]. С некоторыми дискретными единицами-звуками ре­чи - фонемами или квааифонемами сегменты связаны таким образом,что смысловые единицы речи (слова) представляются цепочкой фонем.

Большинство систем автоматического распознавания речи [79] преобразует речевой сигнал в такую фонемную цепочку, которая за­тем сравнивается с ожидаемыми в слове звуками. Процесс преоб-

79

разования речевого сигнала в последовательность фонем включает нахождение признаков, сегментацию и маркировку сегментов.

Опишем модель фонетической неопределенности, позволяющую оце­нивать результаты неправильного распознавания фонем. Далее будем использовать матрицу ошибок распознавания фонем и фонетическую структуру слов словаря при оценке лексической неопределенности.

Лексическая неопределенность будет иметь место тогда, когда слова неверно классифицируются из-за близости их фонетической структуры, т.е. последовательности параметров, определяющих эту структуру, на конкурирующих словах. Например, в словах "слезать" и "срезать" первичные параметры звуков, входящих в эти слова, сходны. Когда оба эти слова входят в один и тот же словарь,их точ­ная классификация затруднена, поэтому их можно считать лекси­чески неопределенными. В реальных системах, если позволяет зада­ча, следует подбирать слова,чтобы такой ситуации не возникло.При­ведем критерии сложности словаря для того, чтобы можно было оце­нить степень различимости словарей [63].

рассмотрим распознавание речи как процесс передачи речевой информации через канал с шумом и оценим информацию, теряющуюся в канале. Потерянная информация является мерой неопределенности или сложности распознавания фонем. В идеальном канале числи вход­ных идеальных, полученных после сегментации высказывания экспер­тами-фонетистами, и выходных фонетических единиц должно быть оди­наковым, а последовательность фонем на выходе должна соответ­ствовать входной последовательности. Если же это условие не соб­людается, в канале теряется информация, и в зависимости от вели-vwi потерь можно говорить о большей или меньшей неопределенно­сти классификации фонем. При практической оценке фонетической не­определенности в данной работе использовались система призна­ков [73] и алгоритм сегментации речи на семь типов сегментов:

V - гласный, Т - переходный, М - сонорный, L - низкоча­стотный, Н - высокочастотный, /? - шумный, П - пауза. Затем алгоритм маркировки ставил в соответствие каждому сегменту не­который фонетический символ, используя априорно полученные гисто­граммы параметров. От надежности маркировки сегментов во многом зависит точность работы GPP.

Так как СРР рассматривается здесь как канал передачи инфор­мации, предположим, что имеются г возможных входных символов алфавита А и s возможных выходов алфавита В . Таким об­разом, СРР описывается канальной матрицей. На рис. 2.1 приво­дится схема канала передачи информации и канальной матрицы.

60

а, "г

'и Рг,

Р„ • • Р„ ••

• • • P,s • • • Р„

*

'.

^

Рг, • •

• • Prs

рис. 2.1. Блок-схема канала передачи иниормации и канальной мат­рицы

Канал передачи информации, используемой для описания сис­темы распознавания речи, представленной цепочкой фонем, преобразу­ет незашумденную последовательность звуков в выходную последова­тельность "машинных " фонем, содержащую ошибки пропуска, вставки слияния и замены звуков.

Символами Ar'l{a•|.} и ^s={Ц'} обозначены соответ­ственно входной и выходной алфавиты фонем. Дхя простоты предпо­лагается, что канал представляет собой независимый дискретный канал без памяти. Если р {Ь. /а^) - вероятность символа Ь- на выходе канала при подаче символа а^ , то этот канал передачи информации можно описать матрицей условных вероятностей Р = = [^(6//o,)J . Очевидно, £ p( &/•/i=f~r. На рис. 2.2 приводится пример матрицы условных вероятностей при распознавании изолированных звуков.

Пусть элемента входного фонетического алфавита {аЛ появля­ются на входе с некоторой априорной вероятностью р(а ),р(а ),-.. ••.,/?(а^), а элементы алфавита [Ь.\ на виходв - с вероятностью P(ti,), p(by),..., р(.Ьу) Как отмечено ранее, работу канала пере­дачи входного ад^евита {а^} кластеризует канальная ма'грипа,поэт<аду

(2.1)



Символ

а

о

и

0,69 0.10 0.01

Апостериорная вероятность того, '•то, если в результате распознавания Получили фонеыу Ь, , то на вход пос­тупила фонема а^ , определяется по Формуле Байеса

Зак.480 у


0,15 0,75 0,10

0,01 0,10 0,89

Рис. 2.2. Ilptttcap мктрицы условных вероятностей рас­познавания изолированных звуков



(2.2)

Ииормацня 7(а^; Ь ), получаемая от канала, когда на его вход потупила фонема а.^ , а на выходе распозналась как 6, , опредедется [91]

. , p^Jbj)

l^i\b^lo (2.3)

С]»дняя информация, получаемая на выходи канаха с потерями при жредаче (распознавании) входного алфавита фонем A:={a•^, которШ распознается как алфавит в = { ^ } , будет

UA,B)=^p(a„^)Ha^^)=

^^,6,)^^/^-а,в' L J у? р(а,)

=-ip(a„b-)lo^p(ai)^p(a^b,)io^p(a,/^)^

^,0 /1,0

=-ip(a,)log,p(a^lp(a,^toy^p(a,/ 6,);

л, в

I ,В) = Н W^P^, ^}to^f){a, /Ь,). (2.4)

л, в

С»метим, чтоН(Л)- энтропия, характеризующая степень неоп-редвдедости входного алфавита А-=-{а^] . Из (2.4) подучаем,что

H(A)-I(A,S)=-^p(a,,b..)iw,p(ai/b^=

Л, о

=-рР(^/Ь/)р(Ь,)1о^р(а,/6,)-

Д,В

=-^р(^-)^/?1'а,/^-)^/)(^./^.)= Н(А/В); (2.5)

Н(А^)- апостериорная ентропия входного алфавита фонем, которая 82

характеризует меру информации, теряемой в системе распознавания дрй передаче входного алфавита { я^} . Апостериорная внтропия и является мерой, оценивающей сложность входного словаря для авто­матического распознавания при фиксированном параметрическом описании.

При наличии значений энтропии входного алфавита фонем можно вычислить размер (объем), равный У'"', а значения 2 vw ха­рактеризуют среднее количество возможных альтернативных (конку­рентных) элементов алфавита {о I на входе СРР после того, как на выходе получили множество { 6 } , т.е. меру сложно­сти распознавания входного алфавита фонем. Назовем эту меру эквивалентным размером алфавита фонем. Значение у"^0' можно назвать энтропийным критерием оценки фонетической неопределенно­сти, который является обобщенной характеристикой сложности рас­познавания алфавита фонем < а^ \ данной системы распознавания. Если СРР работает без ошибок, условная энтропия Н(А/В)вО и эквивалентный размер алфавита фонем 2"("/°' = i. Естественно, что если Н(А/В)»0, то Z"^^!, а в случае, когда СРР не рас­познает Н(А/В)=Н(А), то эквивалентный размер алфавита фонем равен Z"^

Эквивалентный размер алфавита фонем дает возможность коли­чественно оценить среднее число возможных конкурентных фонем (имеющие близкие параметрические описания), и для его определе­ния необходимо знать апостериорные вероятности p(a^/b-) вхо­дного алфавита.

Для решения конкретных проблем автоматического распознава­ния ограниченных наборов слов взе многообразие фонем можно свести к двум-трем рабочим фонетическим единицам (например,к классам длительных шумных, звонких и смычных звуков), которые При использовании простой системы признаков к несложных алго­ритмов распознавания дают нулевую апостериорную энтропию. Однако ври решении задачи распознавания относительно сложных словарей и/иди требование надежной фонетической верификаций произнесенно­го слова такого количества рабочих фонем сказывается явно недо­статочно. Работать Же с полным набором фоней "ложно из-за оши­бок их автоматического распознавания. Поэтому к приходится идти на компромиссные решения - искать какой-то оптимуи при фонетичес­ком описании рабочих словоформ. Эти проблемы будут частично рас-емотрены в а. 2.2.3.

Условные вероятности распознавания фонем ^(6,/д.), опреде­ляющие эквивалентный размер фонетического алфавита, можно опре-• Делить несколькими методами.

83

Статистический мегод позволяет получать вероятности распоз­навания фонем, используя реальную СРР. ото осуществляется путем сравнения результата распознавания системы с точной ручной сег~ ментацией и маркировкой речевого сигнала (иди его параме-гричес-кого представления), поступающего на вход системы распознава­ния. В результате получается классическая матрица правильной и оаибочной классификации входного алфавита фонем.

Акустико-параметрический метод, когда матрица ошибок клас­сификации фонем получается путем прямого сравнения их парамет­рического описания. При этом эталон фонемы выбирается из мно­жества реализации данной фонемы. Расстояние между фонемами исполь­зуется для оценки условных вероятностей ошибочной классификации фонем. Точность этого метода зависит от выбранного эталона и объе­ма исследовательского материала.

Кроме этих методов, оценку вероятности ошибочной классифика­ции фонем можно произвести на основе моделирования речеобразующе-го тракта человека [73.

^.2.3. Оценка сложности распознавания слов по их фонетичес-кой структуре. Рассмотрим неадаптивную систему распознавания слов как канал передачи информации. Слова входного словаря V= ^Я.,У„,... ..., V.,..., v„} можно представить последовательностью фонетичес-

'• f Г Г /* 1

~ " /•> ' * о JiHftBa п^гуппылрп ^ЛП—

НИХ СИМВОЛОВ V

\ а^ , af , . . . , af \ , а слова выходного сло-11 г "- 1

варя канала W= {

'I 2 " ^ "1 ^,,^,.. . W -.^}

цепочками

_^.. „_..... квази­фонетических эталонов iff, -- i bj , bj , . . . , bj } , где Q^ e А , Ъ, f- В - соответственно входной и выходной алфавиты фонем канала; г= /, R ; s= /, 5 ; л= п(г) ; 1= l(s). Тогда оценку сложности распознавания слов, производимого сравнением входной реализации с цепочками квааифонетических эталонов, можно осу­ществить на основании анализа матрицы ошибок, подученной при представлении эталонов слов Wy ё. W поверхностными формами й^ f Wg , k^ f,Ky каждого выходного слова. Фактически сложность распознавания входного словаря V определяется нали­чием сходных эталонных поверхностных форы U^ выходного словаря W и частотой встречаемости зтих поверхностных форм р (w). Основная проблема При построении матрицы ошибок для каждого словаря заключается в формировании эталонов поверхностных форм г^ е w, для реализация каждого слова и получения квазй-фонвтического графа /Т г^), учитывающего все поверхностные формы в вероятностями их появления. Все множество квазифоиетических по­верхностных форм слова w, записать в виде эталонного графа трудно, так как ори аппаратурно-програмыном методе распознавания появляются не только поверхностные формы слова, обусловленные

В4

особенностями произношения, но и формы, включающие случайные сег­менты, маркированные квазифонетическими метками, появление кото­рых связано с неидеальностью автоматической фонетической сегмен­тации и маркировки нашим алпаратурно-програмыным методом, выз­ванной, например, изменением интенсивности речевого сигнала.

В дальнейшем будем рассматривать влияние двух обстоя­тельств на формирование эталонных поверхностных форм слов ра­бочего словаря, учитывая, что поверхностные формы, связанные о особенностями произношения и матрицей ошибок квазифонемной классификации, можно построить вручную (или автоматически,исполь-ауя таблицу акустико-фонодогических правил, хранящуюся в памяти, и прилагаемых к базовой квазифонетической цепочке), а поверх­ностные формы w . , обусловленные особенностями аппаратуры вы­деления информативных признаков, можно получить, анализируя ста­тистику реализации квазифояетических цепочек слов рабочего сло­варя, полученных с помощью ЭВМ. Получение этой статистики не всегда обязательно, особенно если рассматриваются слова,контраст-ные по своим акустическим свойствам. Предварительную оценку сложности распознавания слов можно сделать аналогично оценке сложности фонетического алфавита - по фонетической структуре слов, вычисляя апостериорную словесную неопределенность и не исследуя статистики реализации.

Все эталоны слов и^у б W рабочих словарей должны быть пред­ставлены последовательностью маркированных фонетическими метками отрезков, где квазифонемы должны делиться на опорные, обяза­тельные для данного слова (определяющие базовую форму и, как Правило, присутствующие во всех поверхностях), и "вспомогатель­ные", трудноклассифицируемые. Трудноклаосифицируемые сегменты должны быть расчленены (хотя бы грубо) на несколько квазифонети­ческих элементов, если длина этих сегментов выше пороговой (это делает на первом этапе человек на основании знаний фонетической структуры возможных форм каждого слова). Опорными сегментами сло­ва следует считать маркированные отрезки которые при их марки­ровке квазифонетичаскими метками допускают суммарную ошибку ниже ввристически определенного порога.

При автоматическом распознавании выбор эталонов (из словаря эталонов) должен быть в первую очередь обусловлен наличием в Поступившей на вход реализации опорных, обязательных маркирован­ных сегментов о. с учетом того, что за счет иеидеадьности сегментации общее число сегментов входной реализации может не совпадать с возможным числом сегментов эталонного графа,за счет Неопорных сегментов, образующихся или выпадающих случайно.

У5

Сшибки классификации дают появление "путающихся" поверхност­ных форм (представленных последовательностью квазифонеы) дяя раз­личных слов словаря. Будем считать, что матрица ошибок при рас­познавании слов априори формируется таким образом, что (при сход­стве поверхностных форм различных слов словаря) более часто встре­чающиеся поверхностные формы слов одного класса (при заданном ал­фавите квазифонем) считаются относящимися к словам только этого класса, а редко встречающиеся сходные поверхностные формы для других слов словаря дают ошибки распознавания. Впрочем, используя синонимию или семантико-синтаксические ограничения при распоз­навании пословно произносимых фраз. Всегда следует добиваться то­го, чтобы подобные случаи не происходили (трудности представ­ляют слова, входящие в одну семантико-сиитаксическую группу,ко­торые нельзя заменить синонимами, например, названия цифр).

Следует отметить, что принятые решения о принадлежности поступившей на вход реализации к тому или иному классу следует делать но эталонам с одинаковым числом опорных сегментов и с учетом верификации сяова, всякий раз используя эвристически выб­ранные пороги достоверности, в общем случае разные для различ­ных слов. Так, для принятия окончательного решения о принадлеж­ности входной реализации Уд. к классу Wy необходимо выбрать

и w, , который ооответ-

два наиболее вероятных кандидата

— —— - . ^ ствуют вероятности p(v,/u7y] и ^(i^/г^ ), и проверить,удовлет­воряются ли условия:

WM,)>^,;

Р^/^-Р^/^,)^^

где А^ - пороговое значение вероятности того, что входная реа­лизация соответствует олову у/, ; Ay, - пороговые значения разности условных вероятностей принадлежности входной реализации

г1д. классам и vf. , при которых принимается решение о клас-

сификации у^ .

Пороговые значения /Зд,/!,, выбираются экспериментально по заданной системе используемых фонетических признаков,а также требуемых точности распознавания и вероятности отказов от рас­познавания. В случае, если подбором порогов заданные требования к системе распознавания не удается выполнить, следует провести более детальный анализ неопорных сегментов, иди попытаться улуч­шить систему признаков. В ряде случаев дяя удовлетворения задан­ных в системе требований следует использовать синонимию.

66

Рассмотрим далее более конкретно, как оценить лексическую неопределенность словаря V языка речевого общения неадаптивной системы автоматического распознавания. Аналогично тому, как оце­нивалась неопределенность алфавита фонем, можно определить слож­ность распознавания входного словаря V , состоящего из R слов, и вычислить эквивалентный размер входного словаря. При этом необ­ходимо получить вероятности p(v^/w,) одиэости областей призна-хового описания слов i^, « V, ur, б W, г= /7Д. 3s /75. которые пред­ставляются в виде последовательности фонетических единиц (фоне­тической транскрипции слов). Далее оценим вероятности p(ff^/v7y).

Как уже отмечалось, на основе лингвистических знаний, эта-жоны слов Wy (. W представляются в вида фонетических ( вер­нее, квазифонетических) цепочек,совокупность которых описывается графом с конечным числом состояния, а каждая фонема - признака­ми способа и места образования. Слову VT, соответствует одна или несколько траекторий (цепочек поверхностных форм) на графе (количество траекторий зависит от метода произношения и харак­теристики диктора). Направленный граф f (W,) представляет все фонемы этахона сяова иг, б W , который имеет uf, поверхностных форм, k= !, 2, . . ., А-з ; uly = U'1Л ; каждая поверхностная форма

^ e w, содержит

,.^,-...^ Пусть р ( иГу)

ur, e 1= l(3.k) опорных квааифонем, т.е. иг,

), } I-- /,2,..., 1(з, k).

априорная вероятность появления слова u^eW на выходе блока лексического распознавания, а априорная вероят-

р (vfs„ ) • При


ность иГу поверхностной формы этого же оаова этом выполняются условия

л, « Р(Щ,)= Z: Р(^) ; £/?(ur,)=/.

Необходимо отметить, что количество опорных сегментов в поверхностных формах слов выходного словаря различно, т.е. предел изменения индекса I зависит как от номера слова, так и от его поверхностной формы I = I (.з, k}.

Для того,чтобы осуществить оценку неверной классификации слов словаря на стадии лексического распознавания по фонетичес­кой структуре этих слов, выполним операцию разбиения всех по­верхностных форм эталонов слов на М фонетических групп с одина­ковым количеством опорных сегментов 1= I (з) . При этом слова, поверхностные формы которых принадлежат разным группам, не будут Путаться между собой, поскольку их легко классифицировать по числу "опорных" фонем, составляющих слова.

8?

Вообще говоря, можно представить себе фонетические группы эталонных поверхностных форм, отличающиеся не только числом опор­ных фонем, но и их характером, а также порядком следования.Если учесть все три фактора, позволяющие разбить эталоны на существен­но большее число фонетических групп, то дальнейшие рассуждения можно отнести к каждой из этих групп. Для простоты,однако, бу­дем считать, что мы имеем М фонетических групп, в каждой из которых одинаковое число опорных сегментов. В практических за­дачах при разбиении на группы следует учитывать все эти факторы, однако необходимо строго ограничивать число различных опорных сегментов, выбирая лишь те, которые не путаются между собой и ха­рактеризуются групповыми признаками места образования - ударные гласные, смычные, фрикативные [81,60] .

Итак, допустим, что существует М фонетических групп слов W, , W^, . . . , W^ , . .., W^ , в каждой из которых^ одинаковое число опорных квазифонем. Общее число эталонов И/= U W^ , а ко­личество фонем, составляющих: слова (длина фонетической цепочки) каждой группы, об означим через I ; т= /,/И.

Представляя таким образом слова словаря на входе СРР и ис­пользуя матрицы ошибочной классификации фонем, составляющих слова

/Кй/&)-[Ру], (2.5) можно оценить вероятности p^(v /Wy) спутывания поверхностных

форм слов внутри каждой группы слов следующим образом:

где

t = t, 2, . . . , t^ - длина фонетической цепочки группы слов ^ , а^ е ^ , Ь„ е иг,.

В общем случае одно и ъо же слово Wy может иметь К, поверхностных форм, имеющих разное число фонетических элементов и попадающих в разные группы слов W^, . Поэтому общую услов­ную вероятность "спутывания" слов словаря определим

(2.8)


P(v^/w,l= Г P(w^) р^ ( ^ /г^-) .

Для определения потери информации в СРР, которая рассматрива­ется как канал перэдачи информации, в случае распознавания слов используем выражение

86

(2.9)


KV/W)-- -Z p(w,)i p(v^/ w^ locj^ p( v^ /v/,).

/ (V/W)


Тогда 2 определяет эквивалентный размер словаря —

число альтернативных слов на входе системы распознавания, а

2й v) - фактический объем входного словаря, где

R

Х

г'1


(2.10)



Эти выражения, аналогичные формулам (2.4), (2.5), оцениваю­щим фонетическую неопределенность, являются критерием оценки лексической неопределенности. Они определяют сложность распознава­ния словаря и позволяют судить о качестве СРР. При автоматичес­кой маркировке, наряду с ошибками неверной кдассификации фонем, существуют, как уже отмечалось, ошибки неверной сегментации, при­водящие к слиянию отрезков, соответствующих смежным фонемам, в один сегмент или расчленению отрезка, соответсвувщего одной фонеме, на несколько смежных фонем разных классов. При выборе альтернативных слов словаря надо следить за тем, чтобы неприят­ности такого рода не вызывали подобия последовательностей фоне­тических единиц, соответствующих разным словам. Для этого необ­ходимо использовать матрицы, отражающие возможные варианты сег­ментации слов словаря и частоты встречаемости тех или иных вари­антов сегментации, соответствующих различит поверхностным фориам слов. Так как информация о словах, содержащихся в фонемах,избы­точна, то часто при оценке различимости слов словаря вполне достаточно использовать опорные фонемы, допускающие минимум оши­бок расчленения и слияния. Поэтому в формуле (

§ 2.3. О языке описания данных в системе автоматического речевого запроса информации

2.3.1. Понятийный язык и двухступенчатое иерархическое пос­троение его грамматического представления. Информационные сис­темы, стояь распространившиеся в настоящее время, требувФ обще­ния с ними с помощью устной речи на языяв, близком к естествен­ному. Необходимая нам информация должна быть выдана по запросу

Зак.480


89



последовательности понятийных дескрипторов, которую человек может произнести, не используя жесткого порядка следования этих дес­крипторов. Такое представление совокупности дескрипторов - поня­тийного поля не только обеспечивает естественность запроса ин­формации из базы данных, но и фактически не увеличивает времени поиска релевантной информации, так как при этом учитываются от­ношения между понятиями и используется иерархический принцип с ыниыой иерархией, обеспечиваемой перестраиваемой структурой дори­ческого дерева. В связи с этим можно представить общую грам­матику 6 формирования понятийного поля, включающего посведо-вательность предложений, которые дают информацию о структуре дег.криптов, в виде иерархически связанных граыиатик верхнего и нижнего уровней. (Процесс формирования свободных от ошибок словесных цепочек, полученных в результате автоматического рас­познавания слов и устного редактирования, рассматривать здесь не будем .) Грамматика верхнего уровня G" определяет общую струк­туру понятийного поля, а языки, обусловленные грамматиками ниж­них уровней б[ , конкретизируют порождение предложений на уров­не формирования понятийных фраз. Грамматика G" допускает по­явление понятий (они выражены запросными фразами S^ ), форми­рующих смысл запроса, в произвольном чередовании. Иными словами, порождающая грамматика последовательности понятий - есть простей-вая грамматика типа 0 (по Хомскому), в которой нетерминальными символами vh являются обобщенный дескриптор понятийного поля (поисковый образ запроса) и понятийный уровень, а терминальными V - конкретное наименование понятий (названия уровней) ^ . Не­терминальный символ { обобщенный дескриптор понятийного поля j является начальным символом S в грамматике в", а правила вы­вода р сводятся к допустимости перестановок терминальных сим­волов s.—^s-.такчто для понятий s,,Sg,...,5^ язык, обус­ловленный этой грамматикой, допускает К ' предложений длины К , в каждом из которых все понятия различны:

S, , S, , . . . , S„ ; ^ , s, , • • • , ^ ; 5,. S,, S, ,. .., 5^ .

Вообще говоря, грамматики типа 0 допускают бесконечное количество словесных цепочек (предложений) различной длины, состав­ленных из терминальных символов. Если считать, что нас интере­суют словесные цепочки с неповторяющимися терминальными симво­лами, и представлять обобщенный дескриптор понятийного поля цепочками переменной длины J = f -L К , то число N возможных пред­ложений, используемых для работы и допускаемых языком этой гр^матикм, ^^., ^^

90

Каждый из терминальных символов грамматики в° в свою очередь является начальным (и нетерминальным) символом порож­дающей грамматики второго уровня (7, , накладывающей или не нак-

ограничения на формирование предложений в t'-ru понятийного уровня (рис.2.3).

ладывающей ограничения на формирование предложений в рамках каждого t-ru понятийного ур

Рис. 2.3. Порождения тийных полей

Отметим, что в зависимо­сти от особенностей терми­нального словаря каждого уров­ня и привычки пользователей к произношению фраз этого уровня на естественном языке порождающая грамматика с на­чальным (нетерминальным) сим­волом, полученным на преды­дущем уровне, может быть нуле­вого, первого, второго иди третьего типа, определяемого соответствующими правилами вывода.

Далее мы рассмотрим оценку грамматической сложности языка (с точки зрения автоматического распознавания речи) на уровне

формирования предложений с учетом произношения слов, являющихся

Go терминальными символами грамматики , и покажем, что означает

"подстройка под словарь и язык" в неадаптивных системах авто­матического распознавания слов. Языки, определяемые грамматиками б", (7/, G',...,(?/,..., G^ (рис. 2.3), будем называть языками системы распознавания речи, подразумевая, что с точки зрения автоматичес­кого распознавания слова, являющиеся терминальньгми символами грам­матики высшего уровня, также конкурируют между собой и определяют начальный символ сети (графа), которой представляется языком СРР.

2.2.2. Оценка сложности языка с точки зрения автоматичес-кого распознавания пословно произносимых предложений. Синтаксис и семантика языка СРР, определяемых грамматилаки {G^} , наклады­вают ограничения на порядок следования слов в предложении в характер возможных словосочетаний. Эти ограничения существенно об­легчают задачу распознавания речи вследствие сокращения общего по­искового пространства признаков.

Для приближенной оценки грамматической сложности языка СРР рассмотрим грамматику автоматического языка как наиболее прос­того и наиболее поддающегося количественному анализу.Грамматики Нулевого, первого и второго типов, как было указано ранее, также можно использовать для формирования предложений в СРР, однако их количественные характеристики подучить сложнее. и тому же ряд за­кономерностей, характерных дяя языков, оаисываяицихся грамматиками

91

большей сложности, можно выявить и на самом простом языке, отно­сящееся к частным случаям языков нулевого, первого и второго типов и наиболее используемом при формировании предложений в сов­ременных системах распознавания речи.

Правила подстановки в грамматиках третьего типа (автоматных) имеют вид А = а В или А —- В , где А, В с 1^ и а, Ь (. \'i . Для языка СРР А и В характеризуют названия смысловых групп, а а , Ь - названия слов в смысловых группах - подсдоварях. Грам­матика автономного языка определяется множеством внутренних со­стояний s„3 ,. . .,s^,..., ss и правилом перехода в следующее сос­тояние .

Следовательно, после слова с номером i(n) из группы слов s с S может следовать слово из подсловаря s^, с s . Кроме того, заданы S и S - состояния, которыми соответствен­

KG)


но начинаются и кончаются фразы. Например, предложение имеет структуру

l.(G)=S„v, v. ,.

где veS,, v, e S,, . т = /, 2, . . . , I

Оценим синтаксическую сложность автоматного языка сред­ним коэффициентом ветвления К^р , который определяется средним числом возможных слов в каждой точке дерева ветвления:

К,


ср


i м -—Z К,

N l-i


(2.К)



количест-

^десь К^ - коэффициент ветвления в точке i ; N во точек ветвления.

Средний коэффициент ветвления удовлетворительно описывает синтаксическую сложность языка тогда, когда появления слов в предложении равновероятны.

Если средняя длина предложения /^д , то произведениями Z^„ «/<- можно оценивать грамматическую сложность рассматриваемых язы­ков речевого запроса и даже в какой-то мере (очень приближенно) сравнивать точность автоматического распознавания пословно произ­носимых фраз. Но эта оценка не учитывает фонетических особен­ностей подсловарей. К тому же в реальных условиях различные слов8 словаря речевого общения имеют разные вероятности при формиро­вании фраа. Для учета этих факторов будут использованы квазифоне­тическое представление поверхностных форм слов (см.п.2.2.2) и сто­хастическая порождающая грамматика, у которой задано вероятност­ное распредеаенме правил образований предложений рц из слов в

i/

92

»аждой точке ветвления 1= 1,п нкя выполняется условие

При этом для всех точек ветвле-

(2.13)

где К- - количество возможных слов в точке I (коэффициент вет­вления). Тогда вероятность получения фразы l(G)6i(G) в резуль­тате применения t правил подстановок равно произведению веро­ятностей примененных при этом выводе правил образования. Отметим, «то число слов, составляющих предложения, может быть различное И зависит от количества правил,примененных при формировании дан­ного предложения.

Определим энтропию Н(/-} языка /(0) .Для этого обозна­чим через L^ множество всех фраз длины п слов, допускаемых грамматикой G:

через

ЮЛИЯ

р(^)

/1^

^п-\Ч '•••'

f(n)

Лп) '-г '• • •

- вероятность

s • • • • ' получения

фразы /(0)

HU

)

языка речевого общения

(2.14)

if/)) f(n) •} ^ • • • • • '-г ' • • •)•

Тогда эн-

г(л)

н^-^, ^ ^О^/^О, (2.15) где Т - максимальная длина предложения. Естественно, что

(2.16)


г z pa^)=f.

/,., iyki, г

В случае, когда различные предложения, порождаемые граммати­кой G , имеют разные смысловые интерпретации, тогда энтропия Языка характеризует его возможность передавать информации. В соответствии с теорией кодирования информации число возможных фраз языка с энтропией H(Z) будет 2н(t), и это значение определяет размер входного языка.

Для определения сложности (неопределенности) распознавания языка речевого обшения рассмотрим процесс распознавания предложе­ния в виде последовательности распознавания слов из подсловарей данного уровня, размеры которых определяются коэффициентами вет­вления К^ . Тогда для оценки сложности распознавания языка необходимо оценить сложность распознавания всех N подсловарей

93

этого уровня, где

вероятностью P(Vf, } применения'

в подсловаре i- определяется /с.-го правила подстановки в

каждом узле дерева стохастической автоматной грамматики. Имея условные вероятности р. (v^/Шс) ошибочного распознава­ния слов каждого из подсловарей и рассматривая CPF как ка­нал передачи информации, определяем потери информации /„ду в слу­чае распознавания предложений, произносимых пословно, следующим образом:

к к;

£

с?

Обычно интересуются, как распределены потери информации по различным понятийным уровням S^ и различным узлам графа, представлякщего автоматную грамматику уровня. Важно знать,в каком узле языка общения "тонкое место" и как его устранить.

Для общей оценки сложности распознавания предложений, кото­рые произносятся пословно в соответствии с заданной грамма­тикой G , можно пользоваться выражением 2 "" , которое опре­деляет среднее число возможных альтернативных фраз на входе в СРР. В случае, если СРР работает баз ошибок, при пословном произ­ношении фразы на выходе системы всегда одно предложение.

Формула (2.17) оценивает сложность распознавания фраз языка речевого общения СРР. При этом отметим, что эта мера зависит как от фонетической структуры слов словаря, так и от граммати­ческих правил образования предложений. В практических СРР при

распознавании языка необходимо, чтобы /„ была близка к нулю

^пот < ] порог (РВД11118 ошибки при распознавании слов можно устра­нить словами устного автоматического редактирования .) Если это условие не удовлетворяется, то возникает проблема изменения языка, которая сводится к изменению словаря системы и/ияи грам-иатики языка с целью увеличения точности распознавания.Для это­го можно либо использовать синонимию в подсловарях, имеющих наи­большую неопределенность, либо изменить грамматическую структуру предложения путем изменения грамматики G , которая использует­ся как механизм сокращения области поиска, ограничивающей число приемлемых альтернатив.

94

г.3.3. Изменение языка в неадаптивных системах автоматичес­кого речевого запроса.Описанный во. 2.3.1 в общем видепоня-тийный язык речевого общения "человек - информационная систеыа" до­пускает его развитие на основе некоторого ядре или создание -не базе общих представлений о структуре языка. Суть развития этого языка ("подстройка под язык") сводится: к замене или увели­чению числа терминальных символов грамматики в", определяющей появление, замену или уничтожение целых понятийных уровней, язык которых определяется грамматиками ^ ; к замене, уменьшению или увеличении числа терминальных символов грамматик G^ без из­менения числа понятийных уровней.

Понятийный язык речевого запроса информации рассматривается как лингвистический процессор, который представяен комплексом Программ, обеспечивающим автоматический перевод устного текста в заданный момент для того, чтобы информационная система могла воспринимать (понимать) фразы, относящиеся к рассматриваемой пред-иетной области. Тогда задача "подстройки под язык" сводится к модификации (иди вообще построению) этого лингвистического про­цессора, который допускает только правильные, осмысленные пред-жижения, обусловяенные грамматики 6°, G,',

В соответствии с п. 2.3.1, задача построения такого линг­вистического процессора, если заданы множества слов { у, , г^, . . . .... Уд,} словаря V описания данных информационной сис­темы, формально сводится к построению некоторой функции

/ = (v,, ^ , . . .. 1^ ),

где i v, , Vy , . . . , гГд. } б V , полностью определяющей работу «Ннгвистичесного процессора (семантико-синтаксического анализато­ра), который допускает только слова, являющиеся грамматически пра­вильными в данном контексте.

Дяя этой цели фразы языка речевого общения представим в виде направленного графа с конечным числом состояний без циклов

(2.18)

Весь словарь (узлы графа) разобьем на I непересекающихся поня­тийных уровней, т.е.

V П V^ П . .. П V = О

(2.19)

Для указания связи между словами (узлами) понятийного гра­фа строим матрицу смежности 2)= [и';,], которая распадается на

D, ,Д,, . . . ,Д„, . . . ,^_, подматриц, где Д„ =(о^ б {О,/}) указывает смежность п-го и п+1 уровней графа 6(1/, Г). Тогда задача подстройки "под язык" заключается в задании

и/или изменении словаря языка речевого общения и матрицы смежно­сти D > указывающей связь между словами понятийного графа.

Иными словами, частичная иди полная замена словари в не­адаптивных системах распознавания фраз, составленных из изолиро­ванных слов и коротких словосочетаний на основе понятийных язы­ков, описываемых грамматиками { 6°, G\, CJ, . . . , G^ } , приводит к изменению грамматик, к приспособлению понятийного графа к но­вым требованиям,

Замена терминальных символов {V- ^ грамматик {С/} произво­дится записью в соответствующий массив, где хранятся эталоны старых слов, новых слов и квазифонетических поверхностных форм, представляющих эталоны нового терминального символа. Если исполь­зуются программы автоматического порождения множества поверхност­ных форм по базовой форме слов (слова), определяющих новый терминальный символ, то дл.-: замены терминального символа (полу­чения множества эталонов) требуется ввести лишь информацию о пос­ледовательности квазифонетических символов; запись новых симво­лов можно производить аналогично описанному. Эталоны названий новых понятийных уровней вводятся так же,потому что они являются терминальными символами грамматики верхнего уровня G" При вве­дении нового уровня необходимо описать грамматику языка этого уровня и включить эталоны новых терминальных символов. Измене­ние матрицы смежности производится в зависимости от требований измененного языка, от новых понятий и новых взаимоотношений между словами понятийного графа. Если необходима замена правильных слов словами-синонимами, то никаких изменений матрицы смежности не производится. Оысл введения слов-синонимов сводится лишь в уменьшению 1^, (2.17).

Характеристики

Тип файла
Документ
Размер
148,5 Kb
Тип материала
Учебное заведение
Неизвестно

Список файлов реферата

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6274
Авторов
на СтудИзбе
316
Средний доход
с одного платного файла
Обучение Подробнее