Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 210
Текст из файла (страница 210)
Тем не менее для решения этой задачи еще не были предложены эвристики, которые оказались бы особенно удачными. Глава 15. Вероятностные рассуждения во времени 769 Разработка устройства распознавания речи Качество системы распознавания речи зависит от качества всех ее компонентов — языковой модели, моделей произношения слов, моделей фонем и алгоритмов обработки сигналов, используемых для извлечения спектральных характеристик из акустического сигнала. Выше описано, как может быть составлена языковая модель, и указано, что для ознакомления с подробными сведениями об обработке сигналов следует обратиться к другим учебникам. Кроме того, в данной книге не рассматриваются модели произношения и модели фонем.
Структура моделей произношения (таких как модели произношения слова "гошаго", показанные на рис. 15.15) обычно разрабатывается вручную. В настоящее время для английского языка и других языков составлены большие словари произношения, но далеко не все они отличаются приемлемой точностью. Структура моделей фонем с тремя состояниями является одинаковой для всех фонем, как показано на рис. 15.16. При использовании таких моделей остается только правильно определить сами вероятности. Как же можно получить такие данные, учитывая то, что для этих моделей могут потребоваться сотни тысяч или миллионы параметров? Единственный осуществимый метод состоит в том, чтобы проводить обучение этих моделей по фактическим речевым данным, объем которых, безусловно, является буквально неограниченным.
Очередная проблема заключается в том, как организовать такое обучение. Полный ответ на этот вопрос будет дан в главе 20, но в этом разделе мы можем изложить основные идеи, Рассмотрим двухсловную языковую модель; в данной главе описывалось, как провести ее обучение, подсчитывая частоты пар слов в реальном тексте. А можно ли применить такой же подход для определения вероятностей перехода между фонемами в модели произношения? Ответ на этот вопрос будет положительным, но только если кто-то возьмет на себя труд обозначить каждое вхождение каждого слова правильной последовательностью фонем.
Это— трудная и чреватая ошибками задача, но она была выполнена для некоторых стандартных наборов данных, соответствующих нескольким часам речевых записей. Если известны последовательности фонем, то можно оценить вероятности перехода для моделей произношения на основе данных о частотах пар фонем. Аналогичным образом, если дано состояние фонем для каждого фрейма (а для получения этих данных требуется выполнить еще более трудоемкую работу по расстановке меток вручную), то можно оценить вероятности перехода для моделей фонем. Кроме того, если известны состояния и акустические характеристики фонем в каждом фрейме, то можно также оценить качество акустической модели либо непосредственно по данным о частотах (для моделей чО), либо с использованием методов статистической подгонки (применительно к моделям, в которых применяется сочетание гауссовых распределений; см.
главу 20). Но указанный подход может не получить широкого распространения по таким причинам: данные с метками, проставленными вручную, обходятся дорого и встречаются редко, причем может оказаться, что даже доступные наборы данных с метками, расставленными вручную, не соответствуют тем типам говорящих людей и тем акустическим условиям, которые обнаруживаются в новом контексте распознавания речи.
цЬ- К счастью, алгоритм ожидания — максимизации, или сокращенно алгоритм ЕМ (Ехреегагюп Мах(т(габоп), позволяет изучать модели перехода и модели восприятия НММ без необходимости использования данных с метками. Оценки, полученные на 770 Часть Ч. Неопределенные знания и рассуждения в условиях неопределенности основе данных с метками, расставленными вручную, могут использоваться для инициализации моделей; после этого управление берет на себя алгоритм ЕМ и обеспечивает обучение моделей, предназначенных для решения предъявленной задачи. Идея функционирования этого алгоритма является простой: если дана некоторая модель Н М М и последовательность наблюдений, то можно использовать алгоритмы сглаживания, описанные в разделах 15.2 и !5.3, для вычисления вероятности каждого состояния на каждом временном интервале, а затем, с помощью несложного дополнения, использовать его для вычисления вероятности каждой пары "состояние — состояние" на последовательных временных интервалах.
Эти вероятности могут рассматриваться как неопределенные метки. С помощью этих неопределенных меток можно оценить новые вероятности перехода и восприятия, после чего повторить процелуру применения алгоритма ЕМ. Такой метод гарантирует увеличение согласования между моделью и данными после каждой итерации и обычно сходится к гораздо более лучшему множеству значений параметров по сравнению с теми, которые были получены с помощью первоначальных оценок, сформированных по данным, размеченным вручную.
В современных системах распознавания речи используются колоссальные наборы данных и мощные вычислительные ресурсы для обучения применяемых в них моделей. В процессе распознавания отдельно сказанных слов в хороших акустических условиях (без фонового шума или реверберации) с помощью словаря из нескольких тысяч слов и при одном дикторе точность может превышать 99% При распознавании неограниченной непрерывной речи с разными дикторами обычной является точность 60 — 80% даже при хороших акустических условиях. А при наличии фонового шума и искажений, характерных для передачи речи по телефону, точность снижается еще больше. Хотя практически применяемые системы совершенствовались в течение нескольких десятилетий, все еше остаются возможности для внедрения новых идей.
15.7. РЕЗЮМЕ В настоящей главе рассматривалась общая проблема представления и формирования рассуждений о вероятностных временных процессах. Ниже перечислены основные идеи, изложенные в этой главе. ° Изменение состояния мира можно учесть, используя множество случайных переменных для представления этого состояния в каждый момент времени.
° Такие представления могут быть спроектированы таким образом, чтобы они удовлетворяли свойству марковости, согласно которому будущее не зависит от прошлого, если дано настоящее. В сочетании с предположением о том, что рассматриваемый процесс является стационарным (т.е. таким, что его законы не изменяются во временем), это позволяет намного упростить представление. ° Временная вероятностная модель может рассматриваться как содержащая модель перехода, которая описывает процесс развития, и модель восприятия, описывающая процесс наблюдения. ° Основными задачами вероятностного вывода во временных моделях являются фильтрация, предсказание, сглаживание и определение с помощью вычислений Глава 15.
Вероятностные рассуждения во времени 77! наиболее вероятного объяснения. Каждая из этих задач может быть решена с использованием простых, рекурсивных алгоритмов, время выполнения которых линейно зависит от длины рассматриваемой последовательности. ° Немного более подробно были описаны три семейства временных моделей: скрытые марковские модели, фильтры Калмана и динамические байесовские сети (последняя модель включает две первых в качестве частных случаев). ° Двумя важными приложениями для временных вероятностных моделей являются распознавание речи и слежение.
° Если не приняты особые предположения, как при использовании фильтров Калмана, точный вероятностный вывод при наличии многих переменных состояния, по-видимому, становится неосуществимым. Создается впечатление, что на практике эффективным алгоритмом аппроксимации является алгоритм фильтрации частиц. БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ Многие важные идеи, касающиеся оценки состояния динамических систем, были высказаны математиком К.Ф.
Гауссом [526], который сформулировал детерминированный алгоритм наименьших квадратов для решения задачи прогнозирования орбит небесных тел на основании астрономических наблюдений. Российский математик А.А. Марков [983] изложил в своих трудах, посвященных анализу стохастических процессов, подход, получивший в дальнейшем название марковского предположения; он провел оценку свойств марковской цепи первого порядка, состоящей из букв текста поэмы "Евгений Онегин". Важная классификационная работа по фильтрации была выполнена во время Второй мировой войны Винером [1588] для непрерывных временных процессов и Колмогоровым [825] лля дискретных временных процессов.
Хотя эта научная деятельность привела к важным технологическим усовершенствованиям, достигнутым в течение следующих 20 лет, в ней использовалось представление на основе данных об области определения частот, поэтому многие вычисления оказались весьма громоздкими. Как и было указано Сверли игом [1482] и Калманом [764], непосредственное моделирование стохастических процессов с помощью пространства состояний оказалось намного проще. В последней статье предложен метод прямого вероятностного вывода в линейных системах с гауссовым шумом, который теперь известен под названием фильтров Калмана.
Важные результаты в области сглаживания были получены Раухом и др. [1269], и метод, получивший выразительное название метода сглажсивания Рауха — Тунга — Стрибеля, все еще широко применяется и в наши дни. Многие ранние результаты исследований были собраны в [531]. В [7! ] приведена более современная трактовка в байесовском стиле, а также многочисленные ссылки на необъятную литературу по этой теме.
В [241] рассматривается "классический" подход к анализу временных рядов. Во многих приложениях калмановской фильтрации приходится сталкиваться не только с неопределенными данными восприятия и неизвестными законами, но также и с неопределенной идентификацией; это означает, что если ведется текущий контроль за многочисленными объектами, система должна определить, какие данные наблюдений собраны от тех или иных объектов, прежде чем появится возмож- 772 Часть Ч. Неопределенные знания и рассуждения в условиях неопределенности ность обновить оценки состояний каждого из этих объектов. В этом заключается проблема сь ассоциирования данных [70], ]71].