Хайкин С. - Нейронные сети (778923), страница 162
Текст из файла (страница 162)
Оставшиеся шесть букв (по три с каждой стороны от центральной) являют собой частичный контекст для решения, принимаемого сетью. Окно перемещается по тексту на одну букву за шаг. На каждом шаге процесса сеть вычисляет фонему, а после каждого слова синаптические веса сети корректируются в соответствии с тем, насколько близко вычисленное произношение находится к корректному.
Сеть ХЕТ1айг обнаружила ряд сходств с наблюдаемой процедурой работы человека [962]. ° Обучение подчиняется степенному закону. ° Чем больше количество слов, на которых обучается сеть, тем лучше обобщение и более корректно произношение новых слов. ° Производительность сети понижается достаточно медленно при повреждении отдельных синаптических весов сети. ° Повторное обучение после повреждения происходит значительно быстрее, нежели первичное. Архитектура ХЕТга!к блестяще продемонстрировала многие аспекты обучения, которое начинается со значительных "предварительных" знаний о входных примерах, которые постепенно повышаются на практике при преобразовании англоязычной речи в фонемы.
Однако эта система не нашла практического применения. Нейронные сети с задержкой по времени Популярной сетью, которая для временной обработки использует обычные задержки, является так называемая нейронная сеть с задержкой по времени (г)ше де1ау пента! пепногк — Т1Ю!Ч), которая впервые была описана в [613] и [1107]. Т1313Х— это многослойная сеть прямого распространения, скрытые и выходные нейроны которой реплииируются по времени (герйса!ед асгоаэ йше). В этой работе было предложено с помощью спектрограммы извлекать в явном виде принципы симметрии, которая встречается в обособленном слове (фонеме). Спектрограмма (зреспойгаш)— это двумерный рисунок, в котором вертикальное измерение соответствует частоте, а горизонтальное — времени. Интенсивность (яркость) точек на спектрограмме соответствует энергии сигнала. На рис. 13.7, а показана версия ТО!314 с одним скрытым слоем [613].
Входной слой состоит из 192 (1бх12) сенсорных узлов, кодирующих спектрограмму. Скрытый слой содержит 10 копий 8-ми скрытых нейронов, а выходной — 6 копий 4-х нейронов. Различные копии скрытого нейрона применяют одно и 808 Глава 13. Временная обработкас использованием сетейлрямого распространения Дь Ос 4 выхода, каждый из которых соединен 1е ) со всеми скрытыми элементами ' Выходные элементы ! Запаздывания иа!,2,3,4,5 ! ' Скрытые элементы ! О 4 скрытых элемента кмзпзый из которых ' з соелиненсовсеми входными элементами Л Запаздывания на1,2,3 16 Входные элементы ! 6 входных элементов спектрограм !2 а) 6) Рнс. 13.7.
Сеть, скрытые н выходные нейроны которой реплнцнроеаны ео времени (а) Представление нейронной сети с задержкой во времени (706)6)) (б) (Приведено с разрешения авторов работы 1613]) то же множество синаптических весов к узким (шириной в 3 шага по времени) окнам спектрограммы. Аналогично, различные копии выходного нейрона применяют узкие (шириной в 5 шагов по времени) окна псевдоспектрограммы, вычисленной скрытым слоем. На рис. 13.7, б представлена интерпретация задержки ло времени (тале с(е!ау) реплицируемой нейросети, изображенной на рис. 13.7, а (отсюда и берет свое название "нейронная сеть с задержкой по времени").
Эта сеть содержит в совокупности 544 синаптических веса. В 1613] сеть ТО)3)х) использовалась для распознавания четырех обособленных слов "Ьее", "бее", "ее" и "ттее", которые обрабатывались четырьмя выходными нейронами (см. рис. 13.7). При тестировании на данных, отличающихся от данных обучения, был получен результат распознавания, составляющий 93%. При более комплексном изучении [1107) для распознавания трех обособленных слов иЬее", "г(ее" и "бее" использовалась сеть Т)ЗППП с двумя скрытыми слоями.
При оценке производительности, в которой принимали участие три различных диктора, был получен результат 98,5%. 13.4. Фокусированные сети прямого распространения с задержкой по времени 809 Оказалось, что сеть Т]л]лХ лучше работает при классификации временных образов, состоящих из последовательности векторов признаков с фиксированными размерностями (например, фонем).
Однако при практическом распознавании речи нереально предполагать, что речевой сигнал будет разделен на обособленные фонемы, которые его составляют. Вместо этого приходится моделировать сегментированную временную структуру образцов речи. В частности, распознаватель речи должен работать с сегментами слов и предложений, длина и временная структура которых нелинейно варьируется. Для моделирования этих естественных характеристик традиционный подход к распознаванию речи может использовать структуру перехода состояний, подобную скрытой модели Маркова [514), [865].
В своей основе скрылзая модель Маркова (]тнЫеп Маг]сов пют[е! — НММ) представляет собой стохастический процесс, генерируемый рассматриваемой цепью Маркова и множеством распределений наблюдений, ассоциированным со скрытыми слоями. В литературе описано множество гибридов сетей Т0]3Х и НММ". 13.4. Фокусированные сети прямого распространения с задержкой по времени При структурном риспознавинии образов (5!гисюга! рацегп гесобшбоп) принято использовать статические нейронные сети. В противоположность этому временное распознавание образов (!егпрога1 рацегп гесобш!юп) требует обработки образов, изменяющихся во времени, и генерации отклика в конкретный момент времени, который зависит не только от текущего, но и от нескольких предыдущих его значений.
На рис. 13.8 показана блочная диаграмма нелинейного г[зильгпра, созданного на основе статической нейронной сети [758). Эта сеть стимулируется посредством кратковременной памяти. В частности, для заданного входного сигнала, состоящего из текущего (х(п)) и р предыдущих значений (Ф(п — 1),...,х(п — р)), хранимых в памяти линейной задержки (г[е]ау 1!пе шепюгу) порядка р, свободные параметры сети корректируются с целью минимизации среднеквадратической ошибки между выходом этой сети у(п) и желаемым откликом с[(и).
з Использование гибридов Т00Х и НММ при распознавании речи описано в [! 20], [143], [544]. Некоторые такие гнбрилы объединяют колнровшик кадров на базе Т001Ч (те. отображение "детектора акустических признаков" на "классы слов-предложений" ) и определитель маршрута слово-предложение (могйГаепмпсе рейз йпдег) НММ (т.е. отображение "символа фонемы" на классы слов-предложений"), где обе составляюшие действуют независимо друг от друга В некоторых более сложных гибрилах Т00Н-НММ функция квадратичной ошибки потерь для всей системы используется таким образом, что потери, связанные с ошибкой елово-предложение, могут быть минимизированы.
Примером последней схемы может служить Т00Н с мнвкесгвом соспжний (шпм-агам Т00Х), описанная в [405], [40б]. Простейший гибрид раздельно спроектированных модулей часто приводит к несоответствию производительностей обучения и тестирования. В зтом отношении сети Т00Н с множеством состояний зарекомендовали себя лучше. В фундаментальном смысле рекуррентные сети (которые будут рассматриваться в главе 15) имеют большую способность молелировать временную структуру речевого сигнала, чем репликационные сети типа Т00Х.
Тем не менее из-за существенной нестацнонарности и нелинейности речевого сипзала даже рекуррентных сетей может быть недостаточно для точного распознавания речи. 810 Глава 13. Временная обработкас использованием сетейпрямою распространения Вход х(я) Выход у(я) Рнс. 13.8. Нелинейный фильтр, созданный на статической нейронной сети я(и) Вход х(а) Функция ивации !:) —, Выход е() у,(я) х(я веса Рнс.
13.9. Фокусированный нейронный фильтр Структура, показанная на рис. 13. 8, может быть реализована на уровне как обособленного нейрона, так и сети нейронов. Эта два варианта показаны на рис. 13.9 и 13.10. Для упрощения выкладок на рис. 13.9, 13.10 в качестве структуры кратковременной памяти использовалась память на основе линии задержки с отводами.
Естественно, оба этих рисунка можно обобщить, используя элемент памяти с передаточной функцией С(з), а не г '. Элемент временной обработки на рис. 13.9 состоит из памяти на основе линии задержки с отводами, отводы которой соединены с синапсами нейрона. Эта память извлекает временную информацию, содержащуюся во входном сигнале, которая, в свою очередь, передается синаптическими весами в нейрон.
Элемент обработки на рис. 13.9 называют фокусированным нейронным фильтром ((осаде(! пецгопа1 %1(ег). Здесь под понятием фокусировки подразумевается концентрация всей структуры па- 13.4. Фокуснрованные сети прямого распространения с задержкой по времени 811 Выход т1Ю Рис. 13.10. Фокуснроеанная сеть прямого распространения с задержкой по вре. меня (ТЬРН), Для упрощения представления уровни смещения (Ь~аа) опущены мяти на переднем плане (ггопг епд) элемента.
Выход этого фильтра в ответ на входной сигнал х(и) и его предыдущие значения х(и — 1),...,х(и — р) вычисляется по следующей формуле; я уу(и) = гр ~~> гсЯх(и — 1) + Ь, г=о (13. 11) х(и) = ]х(и), х(и — 1),...,х(и — р)]", где гр() — функция активации нейрона у; ю (1) — его сннаптнческие веса; Ьт— его смещение (Ь(аз). Обратите внимание, что вход функции активации состоит из суммы смещения и свертки последовательностей входных сигналов и синаптических весов нейрона.
Переходя к рис. 13.10, на котором показана фокусированнал сеть прямогораспространения с задержкой по времени (1оспзед типе 1аяяед геео(огягагд пецтгогк — Т(.гХ), мы видим более мощный нелинейный фильтр, состоящий из памяти на основе линии задержки с отводами порядка р и многослойного персептрона. Для обучения этого фильтра можно использовать стандартный алгоритм обратного распространения (см. главу 4). В момент времени и "временной образ" применяется к входному слою сети в виде вектора сигнала: 812 Глава 13.
Временная обработкас использованием сетейлрямою распространения который можно рассматривать как описание состояния нелинейного фильтра в момент времени и. Одна эпоха состоит из последовательности состояний, количество которых определяется порядком памяти р н мощностью множества примеров обучения Ж. Выход нелинейного фильтра 1предполагается, что многослойный персептрон имеет единственный скрытый слой, как показано на рис.
13.10) задается формулой т1 Ш1 р у(п) = ~~) ийу,(п) = ) и~,<р ~~ ш Ях(п — 1) + 6 + Ьа. 113.12) ~=1 э=1 ~=о Здесь предполагается линейность выхода фокусированной Т1.ГХ, синаптические веса составляют множество (и, ),'"'д, где т1 — размерность скрытого слоя, а смещение обозначено символом 6ы В этом компьютерном эксперименте будет исследована возможность использования фокусированной Т).ГХ 1см. рис. 13.10) для моделирования временного ряда, пред- ставляющего следующий сложный сигнал с частотной модуляцией: х(п) = з)п(п + вш(пз) ), и = О, 1, 2, Сеть используется в качестве одношаговой системы прогнозирования (опе-згер ргел1с$ог), в которой х(п + 1) содержит желаемый отклик на входной сигнал, состоящий из множества (х(п — 1))" ,.