Диссертация (1101009), страница 3
Текст из файла (страница 3)
Согласные, в том числеи носовые, получались с помощью четырёх каналов и свистков, зажимаемыхпальцами [Фланаган 1968]. По утверждению самого Кемпелена, его машинапроизводила 19 хорошо различимых согласных звуков [Кейтер 1985] и короткиефразы на нескольких языках [Mattingly 1974]. Для управления «говорящеймашиной» требовался хорошо обученный оператор, а само порождение речиможно было сравнить с игрой на органе. Усовершенствованный вариант машиныКемпелена (рис.
2) был создан в 1837 году английским физиком ЧарльзомУитстоном (1802 – 1875). Также под впечатлением от машины Уитстона известныйамериканский учёный и изобретатель Александр Грэм Бэлл (1847 – 1922) собралсобственную аналогичную модель [Кейтер 1985]. 13 Рис. 2. Говорящая машина Кемпелена, построенная Уитстоном [Кейтер1985]В течение XIX века в технологии синтеза речи не было каких-либореволюционных изменений. Известны исследования английского учёного РобертаУиллиса (1800 – 1875), который подобно Кратценштейну экспериментировал ссинтезом гласных звуков и установил связь между качеством гласных игеометрической формой речевого тракта. В своих работах 1828 года «О гласныхзвуках» и «О механизме гортани» Уиллис описал механизм производства гласныхпо аналогии порождением звуков при помощи органа.В 1840 году Джозеф Фабер (ок.
1800 – ок. 1850) представил свою говорящуюмашину под названием «Эйфония», которая, по сообщениям современников, моглапроизводить обычную и шёпотную речь, а также исполнять песни [Mattingly 1974].В XX веке, несмотря на развитие электрических методов синтеза речи,разработка механических синтезаторов речи происходила вплоть до 60-х годов[Lemetty 1999]. Это было связано, с одной стороны, с малой доступностью 14 сложныхэлектрическихкомпонентов[Кейтер1985],асдругой–снеобходимостью имитации и измерения нелинейных эффектов в голосе, которые струдом поддаются расчётам и не могут быть легко смоделированы с помощьюлинейных устройств [Фланаган 1968]. Среди наиболее известных устройств этогопериодаследуетупомянутьмеханическийсинтезаторР.
Риша,продемонстрированный им в 1937 году (рис. 3). По структуре он практическиповторял речевой тракт человека, был выполнен из резины и металла и управлялсяклавишами, подобными клавишам музыкальной трубы [Кейтер 1985].Рис. 3. Механический синтезатор Риша [Кейтер 1985]Таким образом, общим методом создания механических синтезаторовявлялась имитация или прямое моделирование речевого тракта человека.Основными рабочими компонентами таких моделей были: устройство для подачивоздуха (аналог лёгких), вибрирующая часть (аналог голосовых связок) и системарезонаторов, в большей или меньшей степени воссоздававших форму речевоготракта человека.
Механические синтезаторы стали прототипом современногоартикуляционногосинтезаречи.Основнымпоказателемкачестватаких 15 синтезаторов было то, насколько похожие на человеческую речь звуки они моглииздавать при помощи оператора, обученного управлению синтезатором.1.2.2 Первые электрические синтезаторыВ XX веке, с освоением электрических устройств и появлением электроники,начались попытки построить синтезаторы речи в виде электрических аналоговречепроизводящей системы человека. Первый электрический синтезатор былсоздан Дж. Стюартом в 1922 году [Klatt 1987]. Его схема (рис. 4) включалаэлектрический зуммер для моделирования голосовых связок и два индуктивноёмкостных резонатора для моделирования резонансов горла и ротовой полости[Кейтер1985].Такимспособомгенерировалисьпервыедвеформанты(резонансные частоты речевого тракта), то есть устройство могло синтезироватьтолько гласные звуки.Рис.
4. Электрическая модель речевого тракта Стюарта [Кейтер 1985]Аналогичный синтезатор, состоящий из четырёх подключенных параллельнорезонаторов, возбуждаемых прерывателем тока, был создан немецким инженеромК. В. Вагнером (1883 – 1953) в 1936 году [Фланаган 1968].Следующий важный шаг в формировании технологии синтеза речи связан сразвитиемрадиотехники,построениемвокодеров(системкодированияи 16 декодирования речи, в которых используются различные методы сжатия полосычастот для передачи сигналов, «voice coder») и ЭВМ [Обжелян, Трунин-Донской1987].Первым электрическим синтезатором, способным генерировать фрагментысвязной речи, стал «водер» (Voder – Voice Operating Demonstrator), созданныйамериканскими инженерами Г.
Дадли (1896 – 1987), Р. Ришем и С. Уоткинсом.Водер был основан на вокодере, созданном в Bell Laboratories (США) в середине30-х годов. От вокодера была взята синтезирующая часть, управлявшаяся вручнуюпосредством тринадцати клавиш, ножной педали и переключателя источника шумана браслете (рис. 5) [Фланаган 1986]. 17 Рис. 5.
Схема синтезатора «водер» [Фланаган 1986]Водер синтезировал сигналы с заданным спектром посредством десятивключённых параллельно полосовых фильтров, охватывавших весь спектр речевыхчастот. Подготовка оператора для производства речи на водере занимала не менеегода, однако в результате синтезируемая речь была вполне разборчива, что испровоцировало новый интерес к синтезу речи после демонстрации водера наВсемирных выставках в Нью-Йорке в 1939 году и в Сан-Франциско в 1940 году.
18 В Советском Союзе производились попытки синтеза русской речи сиспользованием первых музыкальных электрических синтезаторов. «Вариофон»Е. А. Шолпо (1891 – 1951), сконструированный в 1931 году, представлял собойоптический синтезатор. Звук записывался на движущуюся плёнку с помощьювырезанных зубчатых дисков разной формы, изменявших очертания звуковойдорожки и трансмиссии, позволявшей синхронизировать контур и подачу плёнки.ПервыйэлектронныймузыкальныйсинтезаторАНСбылспроектированЕ. А.
Мурзиным (1914 – 1970) в 1938 году и построен в 1958. АНС содержал 720звуковых дорожек чистых тонов, которые можно было накладывать друг на друга.Клавиатуры не было, на стекле, покрытом специальной непрозрачной мастикой,прочерчивалась линия, через которую пускался световой луч на фотоэлементысинтезатора [Крейчи и др. 2013].Важным этапом в развитии методов экспериментальных фонетическихисследований и синтеза речи стала разработка звукового спектрографа в 1946 году.После этого появилась идея использования спектрограмм для управлениясинтезатором речи.Для автоматического озвучивания речевых спектрограмм было созданонесколько устройств.
В устройстве Л. Шотта 1948 года использовался линейныйисточниксвета,расположенныйвдольосичастотспектрограммыипросвечивающий участки изображения с различной степенью прозрачности, афотоэлементы, расположенные в ряд вплотную друг к другу по другую сторонуспектрограммы, являлись источником управляющих сигналов для набора тех жеполосовых фильтров, что и в водере. Дополнительные дорожки на спектрограммеуправляли переключением тона и шума и несли информацию о частоте основноготона. Подобный метод использовался Дж. Борстом и Ф.
Купером в устройстве«водек» (1957) [Фланаган 1968]. 19 Наиболее известный «проигрыватель» спектрограмм, синтезатор PatternPlayback (рис. 6), был представлен американскими исследователями Ф. Купером,А. Либерманом и Дж. Борстом в 1951 году. Он состоял из оптической системы длядинамической модуляции амплитуд гармоник основного тона в 120 Гц взависимости от изображений на движущейся прозрачной ленте [Klatt 1987].Рис. 6. Синтезатор Pattern Playback [Klatt 1987]При помощи этого синтезатора, позволявшего производить монотонную, норазборчивую речь, проводились многочисленные эксперименты по оценкезначимости для восприятия речи различных акустических характеристик путёмупрощения и стилизации подаваемых на синтез фонограмм.В первых электрических синтезаторах уже не моделируется напрямуюречевойтрактчеловека.Вместоэтогоосновнымметодомсозданиясинтезированной речи является моделирование (или прямое считывание соспектрограммы) акустических характеристик речевого сигнала.
Основнымирабочими компонентами таких синтезаторов были устройства, генерирующие шуми периодический сигнал, и набор фильтров или резонаторов, усиливающихопределённые частотные составляющие. Электрические синтезаторы сталипрототипом современного компьютерного параметрического синтеза. Важной 20 характеристикой качества речи, производимой такими синтезаторами, становитсяеё разборчивость.Следующей важной вехой в истории синтеза речи стало развитиеакустическойтеорииречеобразования(1960),создавшейнеобходимуютеоретическую базу для разработки основанных на ней формантных иартикуляционных синтезаторов, а также синтезаторов, использующих линейноепредсказание. Эти три метода называют также технологиями синтеза первогопоколения [Taylor 2009].1.2.3 ХХ век: синтезаторы первого поколенияСинтезаторы первого поколения на основании используемых ими методовможно разделить на две большие группы: акустические и артикуляционные.