material (Информационный критерий оценки фонетической неопределенности), страница 2

2016-07-31СтудИзба

Описание файла

Документ из архива "Информационный критерий оценки фонетической неопределенности", который расположен в категории "". Всё это находится в предмете "информатика" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "информатика, программирование" в общих файлах.

Онлайн просмотр документа "material"

Текст 2 страницы из документа "material"

При автоматическом распознавании выбор эталонов (из словаря эталонов) должен быть в первую очередь обусловлен наличием в поступившей на вход реализации опорных, обязательных маркированных сегментов о. с учетом того, что за счет не идеальности сегментации общее число сегментов входной реализации может не совпадать с возможным числом сегментов эталонного графа, за счет не опорных сегментов, образующихся или выпадающих случайно.

Ошибки классификации дают появление "путающихся" поверхностных форм (представленных последовательностью казифонемы для раз­личных слов словаря. Будем считать, что матрица ошибок при распознавании слов априори формируется таким образом, что (при сходстве поверхностных форм различных слов словаря) более часто встре­чающиеся поверхностные формы слов одного класса считаются относящимися к словам только этого класса, а редко встречающиеся сходные поверхностные формы для других слов словаря дают ошибки распознавания. Впрочем, используя синонимию или семантико-синтаксические ограничения при распоз­навании пословно произносимых фраз. Всегда следует добиваться того, чтобы подобные случаи не происходили (трудности представ­ляют слова, входящие в одну семантико-синтаксическую группу, которые нельзя заменить синонимами, например, названия цифр).

Следует отметить, что принятые решения о принадлежности поступившей на вход реализации к тому или иному классу следует делать но эталонам с одинаковым числом опорных сегментов и с учетом верификации слова, всякий раз используя эвристически выбранные пороги достоверности, в общем случае разные для различных слов. Так, для принятия окончательного решения о принадлеж­ности входной реализации Vx к классу Ws необходимо выбрать два наиболее вероятных кандидата Ws1 И Ws2 , которым соответствуют вероятности P(Vx/Ws1) и P(Vx/Ws2) ,и проверить, удовлет­воряются ли условия:

P(Vx/Ws1) Δ s 1;

P(Vx/Ws1)-P(Vx/Ws1)) Δ s1s2

где Δs1 - пороговое значение вероятности того, что входная реа­лизация соответствует слову Ws1 , Δ s1s2 - пороговые значения разности условных вероятностей принадлежности входной реализации Vx классам Ws1 и Ws2 , при которых принимается решение о классификации Vx.

Пороговые значения Δs1, Δ s1s2 выбираются экспериментально по заданной системе используемых фонетических признаков, а также требуемых точности распознавания и вероятности отказов от рас­познавания. В случае, если подбором порогов заданные требования к системе распознавания не удается выполнить, следует провести более детальный анализ не опорных сегментов, иди попытаться улуч­шить систему признаков. В ряде случаев для удовлетворения заданных в системе требований следует использовать синонимию. Рассмотрим далее более конкретно, как оценить лексическую неопределенность словаря V языка речевого общения неадаптивной системы автоматического распознавания. Аналогично тому, как оценивалась неопределенность алфавита фонем, можно определить сложность распознавания входного словаря V , состоящего из R слов, и вычислить эквивалентный размер входного словаря. При этом необходимо получить вероятности P(Vr/Ws) близости областей признакового описания слов Vr V , Ws W , r= 1R , s= 1S , которые представляются в виде последовательности фонетических единиц (фоне­тической транскрипции слов). Далее оценим вероятности P(Vr/Ws).

Как уже отмечалось, на основе лингвистических знаний, эталоны слов Ws W представляются в вида фонетических ( вер­нее, квазифонетических) цепочек, совокупность которых описывается графом с конечным числом состояния, а каждая фонема - признака­ми способа и места образования. Слову Ws соответствует одна или несколько траекторий (цепочек поверхностных форм) на графе (количество траекторий зависит от метода произношения и харак­теристики диктора). Направленный граф f (Ws) представляет все фонемы эталона слова Ws W , который имеет Wsk, поверхностных форм, K = 1,2,3..,Ks; каждая поверхностная форма WskWs содержит L=L(s,k) опорных квазифонемы ,

Необходимо отметить, что количество опорных сегментов в поверхностных формах слов выходного словаря различно, т.е. предел изменения индекса L зависит как от номера слова, так и от его поверхностной формы L=L(s,k).

Для того, чтобы осуществить оценку неверной классификации слов словаря на стадии лексического распознавания по фонетичес­кой структуре этих слов, выполним операцию разбиения всех по­верхностных форм эталонов слов на М фонетических групп с одина­ковым количеством опорных сегментов L=L(s) . При этом слова, поверхностные формы которых принадлежат разным группам, не будут путаться между собой, поскольку их легко классифицировать по числу "опорных" фонем, составляющих слова.

Вообще говоря, можно представить себе фонетические группы эталонных поверхностных форм, отличающиеся не только числом опор­ных фонем, но и их характером, а также порядком следования. Если учесть все три фактора, позволяющие разбить эталоны на существен­но большее число фонетических групп, то дальнейшие рассуждения можно отнести к каждой из этих групп. Для простоты, однако, бу­дем считать, что мы имеем М фонетических групп, в каждой из которых одинаковое число опорных сегментов. В практических за­дачах при разбиении на группы следует учитывать все эти факторы, однако необходимо строго ограничивать число различных опорных сегментов, выбирая лишь те, которые не путаются между собой и ха­рактеризуются групповыми признаками места образования - ударные гласные, смычные, фрикативные [81,80] .

Итак, допустим, что существуетM фонетических групп слов W1,W2,W3,…,Wn,…,Wm , в каждой из которых одинаковое число опорных квазифонемы. Общее число эталонов W= Un=1m Wm , а ко­личество фонем, составляющих: слова (длина фонетической цепочки) каждой группы, обозначим через Lm; m=1, M.

Представляя таким образом слова словаря на входе СРР и ис­пользуя матрицы ошибочной классификации фонем, составляющих слова

P(a/b)=[Pij], (2.5)

можно оценить вероятности Pm(Vr/Ws) спутывания поверхностных форм слов внутри каждой группы слов следующим образом:

Pm (Vr/Ws)=П ; (2.7)

Где T=1,2,..,Tm длина фонетической цепочки группы слов Wm , Art  Vr ,

Bst  Ws..В общем случае одно и то же слово Ws может иметь Ks, поверхностных форм, имеющих разное число фонетических элементов и попадающих в разные группы слов Wm . Поэтому общую услов­ную вероятность "спутывания" слов словаря определим

P(Vr/Ws)= (2.8)

Для определения потери информации в СРР, которая рассматрива­ется как канал передачи информации, в случае распознавания слов используем выражение

I(V/W)=- , (2.9)

То тогда 2I=(V/W) определяет эквивалентный размер словаря - число альтернативных слов на входе системы распознавания, а 2I=(V) - фактический объем входного словаря, где

I(V)=- , (2.10)

Эти выражения, аналогичные формулам (2.4), (2.5), оцениваю­щим фонетическую неопределенность, являются критерием оценки лексической неопределенности. Они определяют сложность распознава­ния словаря и позволяют судить о качестве СРР. При автоматичес­кой маркировке, наряду с ошибками неверной классификации фонем, существуют, как уже отмечалось, ошибки неверной сегментации, при­водящие к слиянию отрезков, соответствующих смежным фонемам, в один сегмент или расчленению отрезка, соответствующего одной фонеме, на несколько смежных фонем разных классов. При выборе альтернативных слов словаря надо следить за тем, чтобы неприят­ности такого рода не вызывали подобия последовательностей фоне­тических единиц, соответствующих разным словам. Для этого необ­ходимо использовать матрицы, отражающие возможные варианты сег­ментации слов словаря и частоты встречаемости тех или иных вари­антов сегментации, соответствующих различит поверхностным формам слов. Так как информация о словах, содержащихся в фонемах, избы­точна, то часто при оценке различимости слов словаря вполне достаточно использовать опорные фонемы, допускающие минимум оши­бок расчленения и слияния. Поэтому в формуле (2.7) для прибли­женной оценки спутывания слов необходимо в первую очередь ис­пользовать вероятности ошибочного распознавания таких опорных фонем, которые в данном слове не дают ошибок слияния и расчлене­ния.

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5168
Авторов
на СтудИзбе
438
Средний доход
с одного платного файла
Обучение Подробнее