Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 208
Текст из файла (страница 208)
При обычной речи большинство фонем имеет продолжительность 50 — 100 миллисекунд, т.е. фонемы занимают 5 — 10 фреймов. Для всех этих фреймов вероятностная модель Р(Ееагцлеэ]р]топе) является одинаковой, тогда как большинство фонем обладает ярко выраженной внутренней структурой. Например, фонема [ с ] представляет собой одну из нескольких св взрывных согласных, при произнесении которых поток воздуха прерывается на короткое время, после чего резко освобождается.
Изучая акустический сигнал, можно обнаружить, что фонема [с] имеет тихое начало, небольшой взрыв в середине и (обычно) шипение в конце. Эта внутренняя структура фонем может быть описана с помощью модели 'Ъ. фонемы с тремя состояниями; каждая фонема имеет состояние Оплел (Вступление), ]час] (середина) и лпс[ (]хонец), а каждое состояние имеет свое собственное распределение среди вероятностей характеристик. Второе уточнение касается контекста, в котором произносится фонема. Звучание каждой конкретной фонемы может изменяться под влиянием окружающих фонем'. Напомним, что звуки речи вырабатываются в результате движения губ, языка и нижней челюсти и проталкивания воздуха через голосовой тракт.
Для координации этих сложных лвижений на скорости в пять или больше фонем в секунду мозг инициирует действия, относящиеся ко второй фонеме, еще до того, как оканчивается произнесение первой, что приводит к модификации одной или обеих фонем. Например, при произнесении слова "зтуее!" (сладкий) губы округляются еще во время произнесения фонемы [э] в предвидении того, что за ней последует фонема [ы]. Такие 'са коартикуляционные эффекты частично охватываются ск трехфонемиой моделью, в которой в рамках акустической модели обеспечивается учет зависимости кажлой фонемы от предшествующей и последующей фонем.
Поэтому фонема [и] вслове "зхчее[" записывается как [зу(з,]у)], т.е. как [ы] с левым контекстом [э] и правым контекстом [фу]. ' Противоположной задачей является задача идеитификании диктора, в которой необходимо устранить общие характеристики и сохранить индивидуальные отличия, после чего попьпаться сопоставить зти отличия с моделями устной речи отдельных людей. ь Это означает, что "модель фонем'* речи следует рассматривать, скорее, как полезную аппроксимацию, а не как незыблемый закон. 763 Глава 15. Вероятностные рассуждения во времени !'езультатом совместного применения модели трех состояний и трехфонемной модели становится увеличение количества возможных состояний временного процесса с и фонем первоначального фонетического алфавита (п=5 0 в случае АКРАЬе() до зпз. Но опыт показывает, что при этом достигается повышение точности, которое сторицей окупает дополнительные затраты на вероятностный вывод и обучение.
Слова Каждое слово можно рассматривать как определяюшее отдельное распределение вероятностей в (х... [ шохс)), где х, задает состояние фонемы в 1-м фрейме. Как правило, такое распределение делится на две части. Модель произношения задает распределение вероятностей по последовательностям фонем (игнорируя такие измерения, как время и состав фреймов), а модель фонем описывает то, как фонемы отображаются в последовательность фреймов. Рассмотрим слово игошаш" (помидор). Согласно Гершвину [546], допустимыми являются варианты произношения этого слова [с очг т еу С оы] и оы щ аа с оы) . На рис. 15.15, сверху показана модель перехода, в которой учитываются эти варианты.
В данной модели имеются два возможных пути, один из которых соответствует последовательности фонем [С оы вь еу С очг], адругой— последовательности [с оы т аа с оьч]. Вероятность любого из этих путей равна произведению вероятностей дуг, из которых состоит этот путь, как показано ниже. а) [о н) б) [ов) Рис. 15 15 Две модели произношения слова 5еотасо"; каждая модель показана в виде диаграммы перехода с состояниямщ обозначенными кружками, и допустимыми переходами, обозначенными стрелкамщ на которых показаны соответствующие вероятности: модель, допускающая учет различий между диалектами.
Числовые оценки О. 5 основаны на том, что один из авторов данной книги предпочитает один из этих вариантов произношения, а другой автор предпочитает другой вариант (а)) модель, в которой учитывается коартикуляционный эс)цйект, возникающий при произнесении первой гласной; эта модель допускает наличие дюнемы (оы) или (аи) (б) 764 Часть Ч.
Неопределенные знания и рассуждения в условиях неопределенности .Р( [соллпеусоы) [ 5сотасо" ) = Р( [соктаасоы) [ "сотасо" ) = О. 5 Вторым источником фонетических вариаций является коартикуляция. Например, фонема [01 формируется, когда язык находится в верхней части ротовой полости, а при произнесении фонемы [оы] язык должен находиться в нижней части. Во время быстрой речи язык часто оказывается в промежуточном положении и поэтому произносятся фонемы [с а)г], а не [с оы1.
На рис. 15.15, снизу приведена более сложная модель произношения слова '(опза(о', в которой принят в расчет этот коартикуляционный эффект. В данной модели имеются четыре отдельных пути, поэтому вероятности становятся таковыми; Р([сомпеусои][5еотасо") = Р([совдпааеоы][5сопласо") = О. 1 Р([еа)лтеусоы)["сотаео") = Р([са)ипаасоы1[5котасо") = 0.4 Аналогичные модели могут быть составлены для каждого слова, которое мы хотим распознать.
Молель для фонемы с тремя состояниями показана в виде диаграммы перехода между состояниями на рис. 15.1б. Эта модель относится только к одной конкретной фонеме, [т], но все фонемы должны иметь модели с аналогичной топологией. Для каждого состояния фонемы показана связанная с ней акустическая модель, в которой принято предположение, что соответствуюший акустический сигнал представлен меткой ЧО.
Например, согласно этой модели, Р(де=Сл[Хе= [т1п„„,) = О.5. Обратите внимание на то, что на данном рисунке показаны петли; например, состояние [т1ьна сохраняется с вероятностью О. 9, а это означает, что состояние [т] „е имеет ожидаемую продолжительность ! О фреймов. В рассматриваемой модели продолжительность каждой фонемы является независимой от продолжительности других фонем; в более сложной модели могут проводиться различия между быстрой н медленной речью. Скрьпзя мзрковекзя мпдыгь зля фонемы (т] 0,3 0.9 0,4 Верогпипеси выедав дзя скрытой мзрковекпй мпдьпи этой фпиелгы Опию ММ: Епа: Сй 0,5 Су 0,2 С4.' О,( С,: 0,2 Сл 0,7 Сь.
0,5 Сй 0Д Сл О,( Сг. 0.4 Рис. 15.1б. Скрытая марковская модель для фонемы [т1 с тремя состояниями. Каждое состояние имеет несколько возможных выходов, каждый из которых обладает собственной вероятностью. Метки )гО от Сг до С выбраны произвольно, в качестве примера Аналогичные модели можно составить для каждой фонемы, возможно, с учетом трехфонемного контекста. Модель каждого слова, в сочетании с моделями его фо- 765 Глава 15. Вероятностные рассуждения во времени нем, задает полную спецификацию некоторой скрытой марковской модели, которая, в свою очередь, определяет вероятности перехода между состояниями фонем от фрейма к фрейму, а также вероятности акустических характеристик для каждого состояния фонем.
Если требуется распознавать 'в. отдельные слова (т.е. слова, произнесенные без какого-либо окружающего контекста и с четкими границами), то необходимо найти слово, которое максимизирует следующее выражение: Р(юого1е;.~) = а Р(е1,~ыого) Р(алого) Априорную вероятность Р(ко~с)) можно получить по результатам обработки фактических речевых данных, а р(е... ~ ьохс11 представляет собой правдоподобие последовательности акустических характеристик, соответствуюгцих модели рассматриваемого слова ьохг1. Вопросу о том, как вычисляются такие значения правдоподобия, посвящен раздел 15.2; в частности, в уравнении 15.5 определен простой метод рекурсивного вычисления, стоимость которого линейно зависит от С и от количества состояний марковской цепи.
Чтобы найти наиболее вероятное слово, можно выполнить это вычисление для каждой возможной модели слова, умножить полученное значение на априорную вероятность и в соответствии с этим выбрать наиболее подходящее слово. Предложения Для того чтобы поддерживать разговор с людьми, машина должна обладать способностью распознавать Ж непрерывную речь, а не просто отдельные слова. На первый взгляд может показаться, что непрерывная речь представляет собой не что иное, как последовательность слов, к которой вполне можно применить алгоритм, приведенный в предыдущем разделе. Но этот подход оканчивается неудачей по двум причинам. Прежде всего, как уже было показано (с. 1), последовательность наиболее вероятных слов не является наиболее вероятной последовательностью слов. Например, в кинофильме "Та)ге гйе Мопеу апд Кцп" (Бери деньги и беги) банковский кассир прочитал каракули в записке героя Вуди Аллена как слова "! Ьахе а яцЬ" (У меня есть штука). Хорошая языковая модель должна была бы предложить в качестве намного более вероятной последовательности слова "1 Ьаме а яцп" (У меня есть пушка), даже несмотря на то, что последнее слово больше похоже на "яиЬ", чем на "яцп".
Вторая проблема, с которой приходится сталкиваться при обработке непрерывной речи, связана с Ъ. сегментацией — с проблемой определения того, где оканчивается одно слово и начинается следующее. С этой проблемой знаком любой, кто пытался изучать иностранный язык с помощью прослушивания устной речи, — на первых порах кажется, что все слова сливаются друг с другом. Но постепенно иностранец учится выделять отдельные слова из беспорядочных звуков. В данном случае первые впечатления вполне оправдываются; спектрографический анализ показывает, что в беглой речи слова действительно следуют одно за другим без пауз межлу ними. Поэтому нам приходится учиться определять границы между словами, несмотря на отсутствие пауз. Начнем с языковой модели, назначение которой при распознавании речи состоит в определении вероятности каждой возможной последовательности слов.