Главная » Просмотр файлов » Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 208

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 208 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 2082021-01-15СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 208)

При обычной речи большинство фонем имеет продолжительность 50 — 100 миллисекунд, т.е. фонемы занимают 5 — 10 фреймов. Для всех этих фреймов вероятностная модель Р(Ееагцлеэ]р]топе) является одинаковой, тогда как большинство фонем обладает ярко выраженной внутренней структурой. Например, фонема [ с ] представляет собой одну из нескольких св взрывных согласных, при произнесении которых поток воздуха прерывается на короткое время, после чего резко освобождается.

Изучая акустический сигнал, можно обнаружить, что фонема [с] имеет тихое начало, небольшой взрыв в середине и (обычно) шипение в конце. Эта внутренняя структура фонем может быть описана с помощью модели 'Ъ. фонемы с тремя состояниями; каждая фонема имеет состояние Оплел (Вступление), ]час] (середина) и лпс[ (]хонец), а каждое состояние имеет свое собственное распределение среди вероятностей характеристик. Второе уточнение касается контекста, в котором произносится фонема. Звучание каждой конкретной фонемы может изменяться под влиянием окружающих фонем'. Напомним, что звуки речи вырабатываются в результате движения губ, языка и нижней челюсти и проталкивания воздуха через голосовой тракт.

Для координации этих сложных лвижений на скорости в пять или больше фонем в секунду мозг инициирует действия, относящиеся ко второй фонеме, еще до того, как оканчивается произнесение первой, что приводит к модификации одной или обеих фонем. Например, при произнесении слова "зтуее!" (сладкий) губы округляются еще во время произнесения фонемы [э] в предвидении того, что за ней последует фонема [ы]. Такие 'са коартикуляционные эффекты частично охватываются ск трехфонемиой моделью, в которой в рамках акустической модели обеспечивается учет зависимости кажлой фонемы от предшествующей и последующей фонем.

Поэтому фонема [и] вслове "зхчее[" записывается как [зу(з,]у)], т.е. как [ы] с левым контекстом [э] и правым контекстом [фу]. ' Противоположной задачей является задача идеитификании диктора, в которой необходимо устранить общие характеристики и сохранить индивидуальные отличия, после чего попьпаться сопоставить зти отличия с моделями устной речи отдельных людей. ь Это означает, что "модель фонем'* речи следует рассматривать, скорее, как полезную аппроксимацию, а не как незыблемый закон. 763 Глава 15. Вероятностные рассуждения во времени !'езультатом совместного применения модели трех состояний и трехфонемной модели становится увеличение количества возможных состояний временного процесса с и фонем первоначального фонетического алфавита (п=5 0 в случае АКРАЬе() до зпз. Но опыт показывает, что при этом достигается повышение точности, которое сторицей окупает дополнительные затраты на вероятностный вывод и обучение.

Слова Каждое слово можно рассматривать как определяюшее отдельное распределение вероятностей в (х... [ шохс)), где х, задает состояние фонемы в 1-м фрейме. Как правило, такое распределение делится на две части. Модель произношения задает распределение вероятностей по последовательностям фонем (игнорируя такие измерения, как время и состав фреймов), а модель фонем описывает то, как фонемы отображаются в последовательность фреймов. Рассмотрим слово игошаш" (помидор). Согласно Гершвину [546], допустимыми являются варианты произношения этого слова [с очг т еу С оы] и оы щ аа с оы) . На рис. 15.15, сверху показана модель перехода, в которой учитываются эти варианты.

В данной модели имеются два возможных пути, один из которых соответствует последовательности фонем [С оы вь еу С очг], адругой— последовательности [с оы т аа с оьч]. Вероятность любого из этих путей равна произведению вероятностей дуг, из которых состоит этот путь, как показано ниже. а) [о н) б) [ов) Рис. 15 15 Две модели произношения слова 5еотасо"; каждая модель показана в виде диаграммы перехода с состояниямщ обозначенными кружками, и допустимыми переходами, обозначенными стрелкамщ на которых показаны соответствующие вероятности: модель, допускающая учет различий между диалектами.

Числовые оценки О. 5 основаны на том, что один из авторов данной книги предпочитает один из этих вариантов произношения, а другой автор предпочитает другой вариант (а)) модель, в которой учитывается коартикуляционный эс)цйект, возникающий при произнесении первой гласной; эта модель допускает наличие дюнемы (оы) или (аи) (б) 764 Часть Ч.

Неопределенные знания и рассуждения в условиях неопределенности .Р( [соллпеусоы) [ 5сотасо" ) = Р( [соктаасоы) [ "сотасо" ) = О. 5 Вторым источником фонетических вариаций является коартикуляция. Например, фонема [01 формируется, когда язык находится в верхней части ротовой полости, а при произнесении фонемы [оы] язык должен находиться в нижней части. Во время быстрой речи язык часто оказывается в промежуточном положении и поэтому произносятся фонемы [с а)г], а не [с оы1.

На рис. 15.15, снизу приведена более сложная модель произношения слова '(опза(о', в которой принят в расчет этот коартикуляционный эффект. В данной модели имеются четыре отдельных пути, поэтому вероятности становятся таковыми; Р([сомпеусои][5еотасо") = Р([совдпааеоы][5сопласо") = О. 1 Р([еа)лтеусоы)["сотаео") = Р([са)ипаасоы1[5котасо") = 0.4 Аналогичные модели могут быть составлены для каждого слова, которое мы хотим распознать.

Молель для фонемы с тремя состояниями показана в виде диаграммы перехода между состояниями на рис. 15.1б. Эта модель относится только к одной конкретной фонеме, [т], но все фонемы должны иметь модели с аналогичной топологией. Для каждого состояния фонемы показана связанная с ней акустическая модель, в которой принято предположение, что соответствуюший акустический сигнал представлен меткой ЧО.

Например, согласно этой модели, Р(де=Сл[Хе= [т1п„„,) = О.5. Обратите внимание на то, что на данном рисунке показаны петли; например, состояние [т1ьна сохраняется с вероятностью О. 9, а это означает, что состояние [т] „е имеет ожидаемую продолжительность ! О фреймов. В рассматриваемой модели продолжительность каждой фонемы является независимой от продолжительности других фонем; в более сложной модели могут проводиться различия между быстрой н медленной речью. Скрьпзя мзрковекзя мпдыгь зля фонемы (т] 0,3 0.9 0,4 Верогпипеси выедав дзя скрытой мзрковекпй мпдьпи этой фпиелгы Опию ММ: Епа: Сй 0,5 Су 0,2 С4.' О,( С,: 0,2 Сл 0,7 Сь.

0,5 Сй 0Д Сл О,( Сг. 0.4 Рис. 15.1б. Скрытая марковская модель для фонемы [т1 с тремя состояниями. Каждое состояние имеет несколько возможных выходов, каждый из которых обладает собственной вероятностью. Метки )гО от Сг до С выбраны произвольно, в качестве примера Аналогичные модели можно составить для каждой фонемы, возможно, с учетом трехфонемного контекста. Модель каждого слова, в сочетании с моделями его фо- 765 Глава 15. Вероятностные рассуждения во времени нем, задает полную спецификацию некоторой скрытой марковской модели, которая, в свою очередь, определяет вероятности перехода между состояниями фонем от фрейма к фрейму, а также вероятности акустических характеристик для каждого состояния фонем.

Если требуется распознавать 'в. отдельные слова (т.е. слова, произнесенные без какого-либо окружающего контекста и с четкими границами), то необходимо найти слово, которое максимизирует следующее выражение: Р(юого1е;.~) = а Р(е1,~ыого) Р(алого) Априорную вероятность Р(ко~с)) можно получить по результатам обработки фактических речевых данных, а р(е... ~ ьохс11 представляет собой правдоподобие последовательности акустических характеристик, соответствуюгцих модели рассматриваемого слова ьохг1. Вопросу о том, как вычисляются такие значения правдоподобия, посвящен раздел 15.2; в частности, в уравнении 15.5 определен простой метод рекурсивного вычисления, стоимость которого линейно зависит от С и от количества состояний марковской цепи.

Чтобы найти наиболее вероятное слово, можно выполнить это вычисление для каждой возможной модели слова, умножить полученное значение на априорную вероятность и в соответствии с этим выбрать наиболее подходящее слово. Предложения Для того чтобы поддерживать разговор с людьми, машина должна обладать способностью распознавать Ж непрерывную речь, а не просто отдельные слова. На первый взгляд может показаться, что непрерывная речь представляет собой не что иное, как последовательность слов, к которой вполне можно применить алгоритм, приведенный в предыдущем разделе. Но этот подход оканчивается неудачей по двум причинам. Прежде всего, как уже было показано (с. 1), последовательность наиболее вероятных слов не является наиболее вероятной последовательностью слов. Например, в кинофильме "Та)ге гйе Мопеу апд Кцп" (Бери деньги и беги) банковский кассир прочитал каракули в записке героя Вуди Аллена как слова "! Ьахе а яцЬ" (У меня есть штука). Хорошая языковая модель должна была бы предложить в качестве намного более вероятной последовательности слова "1 Ьаме а яцп" (У меня есть пушка), даже несмотря на то, что последнее слово больше похоже на "яиЬ", чем на "яцп".

Вторая проблема, с которой приходится сталкиваться при обработке непрерывной речи, связана с Ъ. сегментацией — с проблемой определения того, где оканчивается одно слово и начинается следующее. С этой проблемой знаком любой, кто пытался изучать иностранный язык с помощью прослушивания устной речи, — на первых порах кажется, что все слова сливаются друг с другом. Но постепенно иностранец учится выделять отдельные слова из беспорядочных звуков. В данном случае первые впечатления вполне оправдываются; спектрографический анализ показывает, что в беглой речи слова действительно следуют одно за другим без пауз межлу ними. Поэтому нам приходится учиться определять границы между словами, несмотря на отсутствие пауз. Начнем с языковой модели, назначение которой при распознавании речи состоит в определении вероятности каждой возможной последовательности слов.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6552
Авторов
на СтудИзбе
299
Средний доход
с одного платного файла
Обучение Подробнее