Диссертация (1148476), страница 3
Текст из файла (страница 3)
1213].Параметр минимальной длительности был добавлен уже в процессе построениямодели: оказалось, что при взаимодействии двух и более сжимающих факторовдлительность уменьшается только до определенного предела [32]; этот предел иявляется минимальной длительностью сегмента.Тем не менее, в некоторых моделях, построенных аналогично моделиКлатта, эти принципы не соблюдаются. В модели [33] для французского языка«базовые» длительности (аналог собственных длительностей) совпадают у всехгласных, кроме /ə/; таким образом практически игнорируется принцип 1.
Припостроении модели [34], созданной также для французского языка, авторыотказалисьотпараметраминимальнойдлительности, полагая,чтодляфранцузского языка это требование не является обязательным. Достаточновысокая точность этой модели позволяет сделать вывод, что вопрос о включениив модель этих параметров действительно может зависеть от языка.В список правил, использующихся в модели Клатта, входят следующие [31,с. 761]: удлинение последней рифмы1 перед границей синтагмы;1Здесь и далее под рифмой понимается часть слога, включающая гласный и последующие за нимсогласные [35, с.
517].16 удлинение последнего гласного или слогообразующего сонанта в последнемслоге перед границей словосочетания (например, именной группы); небольшое сокращение сегментов, не являющихся частью последнего слогав слове; сокращение согласных в позиции не начала слова; сокращение безударных сегментов; удлинение гласного под эмфатическим ударением; сокращение длительности гласного в позиции перед глухим согласным; сокращение сегментов в сочетаниях согласных.Развитие модели КлаттаМодель Клатта получила развитие в работе Я.
ван Сантена и Дж. Олайва[36] и последующих работах этих авторов. По их мнению, применимость моделиКлатта доказана недостаточно: основания для включения в формулу параметраминимальной длительности (см. выше) носят только частный характер. Так, самКлатт [32] использует пример взаимодействия двух факторов (правилапозиционной долготы и сокращения гласного в двусложных словах с ударениемна первом слоге по сравнению с односложными); однако неизвестно, верно ли этов отношении любых сочетаний факторов. Чтобы учесть все возможностивзаимодействия между факторами, авторы предлагают рассчитывать не толькокоэффициенты, но и саму формулу, на основе реальных данных.Модель Клатта принадлежит к классу аддитивно-мультипликативныхмоделей — моделей, в формулах которых используются знаки сложения иумножения.
Помимо модели Клатта этот класс включает огромное числотеоретически возможных моделей. Метод, описанный в работе Я. ван Сантена иДж. Олайва [36], позволяет на основе реальных данных, используя статистическиеметоды, выбрать из этого класса моделей наиболее эффективную. Понятно, что в17таком случае результат будет зависеть от данных; поэтому для разных дикторовдлительность сегментов может быть описана разными моделями.Пример использования этого метода описан также в другой работеЯ.
ван Сантена [37]. В результате анализа 42 возможных моделей, учитывающего619 параметров (32 для гласных, 196 для интервокальных согласных и 391 длявсех остальных согласных) корреляция между спрогнозированными значениямидлительности и реальными значениями составила 0,93.Этот метод получил достаточно широкое распространение (см., например,[38]).Модель Н. КэмпбеллаСуществует модель, в которой основной единицей считается не звук, а слог[39].
Согласно этой модели, процесс вычисления длительности разбивается на дваэтапа: в первом на основе просодической информации с помощью нейронной сетивычисляются длительности слогов; во втором длительности отдельных звуковслога растягиваются или сжимаются по определенным правилам, так чтобы ихобщая длительность была равна длительности слога. Преимущество этого методасостоит в разделении просодических факторов, действующих на уровне слога, исегментных, действующих на уровне звуков; этим и объясняется эффективностьданной модели.Модель О. Ф.
КривновойМодель, предложенная О. Ф. Кривновой [7] [20], позволяет прогнозироватьдлительности ударных гласных. Формула для вычисления длительности ударногогласного выглядит следующим образом:(2)18гдепредельная— собственная длительность ударного гласного, адлительность;А—коэффициентсокращающего— еговоздействияслоговой длины слова, S — число слогов в слове; B — коэффициент позиционноритмического сокращения, P принимает значение 0, если слово находится подсинтагматическим ударением в конечной позиции, или 1, если слово находится непод синтагматическим ударением в неконечной позиции; C — коэффициентсокращающего воздействия удаленности слова от начала синтагмы, N — числослов, предшествующих данному слову в синтагме.Здесь, подобно модели Клатта, в звуке выделяется постоянная часть (),которая не подвергается растяжению или сокращению, и изменяемая часть(), способная увеличиваться или сокращаться под воздействием наборафакторов.
При этом каждому рассматриваемому фактору соответствует свойкоэффициент (A, B, C).Определениезначенийконстантосуществляетсяпутеманализасбалансированного речевого материала. По данным, представленным в [7], былиполучены следующие значения констант: A=0,82; B=0,20; C=0,90.Таким образом, модель О.Ф.Кривновой учитывает следующие факторы: число слогов в фонетическом слове; позициюфонетическогословаотносительноконцасинтагмыисинтагматического ударения; удаленность фонетического слова от начала синтагмы; тип сегмента (за счет значений собственной и предельной длительности).Применимость модели была проверена на практике и подтверждаетсяработами ее автора по автоматическому синтезу речи.191.1.4.Методы измерения темпоральных параметровСегментацияВ исследованиях, опирающихся на размеченный речевой материал,обоснованность результатов напрямую зависит от «правильности» сегментации.Не существует абсолютных критериев для определения границ звуков — в целомряде сочетаний звуков возможно несколько вариантов постановки границы.В руководстве по анализу длительности звуков для исследования просодическиххарактеристик речи [40] типы сочетаний делятся на группы по степени«надежности» сегментации: в последней группе, куда входят, к примеру,английские [w], [l] и [h] или ослабленный [v] в позиции между гласными,невозможно соотнести изменения в спектре с артикуляторными событиями;поэтому при выборе материала таких сочетаний следует избегать.Еще одна важная проблема касается определения границ звуков передпаузой или после нее.
В наибольшей степени это касается глухих смычныхсогласных, а также гласных, которые в абсолютном конце синтагмы частооканчиваются придыханием или ларингализацией, которая может длитьсябольше, чем участок гласного с основным тоном и четкой формантнойструктурой.Измерение длительности сегментовВ работах, посвященных описанию темпоральной организации речи, чащевсего вычисляются абсолютные значения длительности сегментов (звуков, слогов,слов), а удлинение или сокращение указывается в процентах. Основнойнедостаток этого метода заключается в том, что вычисленные коэффициентыудлинения (или сокращения) будут отличаться в зависимости от типа звука — этосвязано с тем, что разные звуки имеют разную собственную длительность20(например, звук /a/ имеет большую длительность, чем звук /i/) и разнуюрастяжимость.Одним из возможных вариантов учета этих параметров являетсявычисление нормализованной длительности по следующей формуле:(3)где—нормализованнаядлительность звука,идлительностьзвука,—измеренная— среднее значение и стандартное отклонениедлительности для данного типа звука (вычисленные по всему корпусу дляданного диктора).Таким образом, в отличие от абсолютной длительности нормализованнаядлительность звука измеряется не в миллисекундах, а в стандартных отклоненияхот значения средней длительности для данного типа звука.В таком случае собственная длительность звука учитывается за счетсреднего значения, а растяжимость — за счет стандартного отклонения.В исследованиях по автоматическому определению синтаксических граници моделированию темпоральной структуры фразы [41] [42] [43] [44] [45] этотметод используется достаточно широко.
Недостатком такого подхода является то,что формула (3) не учитывает изменения темпа речи.Коэффициент темпа речиПриувеличениидлительности звука (илиуменьшениитемпаречи) и стандартное отклонение (среднеезначение) будут изменятьсясоразмерно изменению темпа. Чтобы получить нормализованную длительность сучетом темпа, формулу (3) можно преобразовать в следующий вид [18, с. 1712]:21(4)добавив в нее коэффициент темпа , который вычисляется по формуле(5)где— число звуков в анализируемом отрезке,звука в отрезке,— длительность i-го— средняя длительность соответствующего типа звука.
Такимобразом, коэффициент темпа отражает изменения скорости произнесениякаж ого звука в рассматриваемом отрезке.Такой метод вычисления длительности делает возможным сравнение звуковразныхтипов(обладающихразнойсобственнойдлительностьюирастяжимостью), что в свою очередь позволяет увеличить объем выборки.1.1.5.Взаимодействие компонентов интонацииГоворя об интонации в широком понимании, обычно выделяют следующиеее компоненты [17, с. 66] [46, с.
158]:1. мелодический контур (движение тона);2. темпоральный контур (длительность);3. динамический контур (сила звука);4. тембр.Известно,посредствомчтонекоторыесочетанияинтонационныенесколькихкатегориикомпонентов.Так,реализуютсяопределенныеинтонационные модели Е. А. Брызгуновой описываются не только с точки зрениямелодической фигуры, но и с указанием динамических, темпоральных илитембральных особенностей в интонационном центре: нейтральная реализация ИК2 — с усилением интенсивности [15, с. 232], нейтральная реализация ИК-7 — сгортанной смычкой [Там же, с. 101], модальные реализации ИК-6 — с22увеличением длительности ударного гласного [Там же, с.
233–234]. Такиереализации составляют ядро интонационной системы; на периферии же находятсявсевозможные комбинации признаков, обусловленные индивидуальными илиситуативными особенностями. Эмфатическое ударение, к примеру, может бытьреализовано не только с увеличением интенсивности на ударном слоге, но такжеи с увеличением длительности звуков ударного слова (причем не обязательногласного), с изменением тембра, с дополнительными особенностями мелодики(например, падение с более высокого уровня) или любого сочетания этих средств.Таким образом, при работе с реальной звучащей речью, необходимоучитывать не только тот признак, который является непосредственным предметоманализа, но и его взаимодействие с другими признаками. Это верно и вотношении исследования акустических параметров, обеспечивающих членениеречевого потока.1.1.6.Акустические маркеры границ просодических единицТот факт, что слушающий способен адекватно членить речевой поток напросодические единицы разных уровней (высказывания, синтагмы и более мелкиеединицы2), говорит о том, что в речевом сигнале должны присутствоватьакустические маркеры просодических границ.