Диссертация (1173184), страница 20
Текст из файла (страница 20)
1992].113Обобщенное решение LR дополняется расчетом доверительногоинтервала, который формируется автоматически,заложенным в SIS IIмодулем расчета. Модуль расчета выдает значение доверительного интервалаLR оценки для значения вероятности 95% в виде интервала. Например,доверительный интервал того, что дикторы на фонограммах близки поидентификационнозначимымхарактеристикамсвероятностью95%составляет 90-2000 : 1. Это означает интервал оценки LR в границах 90-2000[Научно-технический отчет 2008; Научно-технический отчет 2011].По результатам идентификации автоматически создается статистика попризнакам (общее число признаков, число умеренно и ярко выраженныхпризнаков) и таблица выраженности признаков по каждой фонограмме, наоснованиикоторыхсучетомидентификационныхвесовкаждогоконкретного признака, автоматически формулируется один из трех вариантоврешения [Курьянова 2011b; Голощапова, Курьянова 2011а; Курьянова,Елемешина 2012; Голощапова, Курьянова 2012а]:- На фонограммах записан один и тот же «диктор»;- На фонограммах записаны разные «дикторы»;- Невозможно принять решение.Значения FR и FA представляются в виде графика распределенияуказанных значений, отображающих зависимость вероятностей ошибокложного отклонения «диктора» (FR, кривая, расположенная в левой частиплоскости относительно точки пересечения EER) и ложного принятия«диктора»(FA,кривая,расположеннаявправойчастиплоскостиотносительно точки пересечения EER) от расстояния между векторамипризнаковисследуемыхсигналов(параметра,отвечающегозасходство/различие фонограмм) для использованного метода сравнения[Курьянова 2011b; Голощапова, Курьянова 2011а; Курьянова, Елемешина2012; Голощапова, Курьянова 2012а].
На графике (Рис. 12) отмеченоположение,соответствующееполученномурезультатусравнения,установлены соответствующие значения FR и FA. Если это положение114попадает в область, где значение FR превышает FA, то результатидентификации считается положительным. Если же результат сравненияфонограмм попадает в область, где значение FA превышает FR, тоидентификационное решение является отрицательным. При попадании вобласть, ограниченную розовыми вертикальными линиями (вблизи значенияEER–меранадежностипринятиярешенияданнымметодом–равновероятной ошибки данного метода при данном типе сравнения),результат идентификации считается неопределенным.
Образец графикараспределения значений FR и FA представлен на рис. 12.Рис. 12 График распределения значений FR и FA.Метод структурно-мелодического анализа голоса (автоматизированныйметод идентификации дикторов в модуле SIS II) на основе использованияпроцедур сравнения статистик ЧОТ является одним из наиболее устойчивыхк качеству фонограмм. Это объясняется тем, что для идентификации115используется не весь спектр речевого сигнала фонограммы, а только одна изего составляющих – последовательность значений ЧОТ [Курьянова 2011b;Голощапова, Курьянова 2011а; Курьянова, Елемешина 2012; Голощапова,Курьянова 2012а].Как следует из специальной литературы, амплитудно-частотныехарактеристики (АЧХ) канала записи фонограммы, всегда оказываютзначительное влияние на форму спектра [Потапова 1997; Smirnova etc.
2007].С одной стороны, АЧХ канала может замаскировать индивидуальныепараметры голоса «диктора», с другой – вообще подавить часть спектраречевого сигнала и сделать его недоступным для идентификации [Smirnovaetc. 2007]. Следует учитывать и тот факт, что, с одной стороны, речьотличается большой вариативностью, вызванной целым рядом факторов,связанных с коммуникативной ситуацией, эмоциональным и физическимсостоянием говорящего, с другой – сами параметры речевого сигналанаходятся в зависимости от канала записи, по которому проходит речевойсигнал [Потапова 2000].Метод идентификации «дикторов» на основе анализа мелодическихструктур, предусмотренный в модуле SIS II, значительно свободнее отвлияния АЧХ канала, так как для анализа он использует толькопоследовательностьнеравномерностизначенийАЧХканалаЧОТ,связи.котораяБолеенеискажаетсяустойчивданныйиз-завидидентификации и к отношению сигнал/шум.
В случае если уровень гармоникЧОТ хотя бы на несколько дБ выше уровня шума, алгоритм с помощьюспециальных методов «подчеркивания» гармоник основного тона сможетопределить искомую частоту.Значительно большее влияние на надежность идентификации методомна основе сравнения мелодических структур оказывает реверберация сигналав канале записи. Реверберация приводит к появлению в спектре ложныхмаксимумов, которые сбивают автоматическую логику вычисления значенийЧОТ. Ошибочные значения ЧОТ, в свою очередь, оказывают отрицательное116влияниенастатистикуЧОТ,увеличиваетсявероятностьошибкиидентификации, соответственно, надежность метода снижается.Кроме того, следует учитывать тот факт, что на частоту основного тонаголоса сильное влияние может оказывать эмоциональное состояниеговорящего [Потапова 2006; Потапова 2012; Потапова и др.
2015].Установлено, что паравербальные средства (в частности, просодия иинтонация (эмфаза)) являются индикатором эмоционального состояниячеловека [Потапова и др. 2015]. В монографии Р. К. Потаповой«Междисциплинарность в исследовании речевой полинформативности»приводятся подробные данные об объективных средствах выраженияэмоций: «Интонация, являясь одним из основных элементов планавыражения,субъективновоспринимаетсякакизменениевысотыиинтенсивности голоса, объективно же, с помощью технических средств,регистрируется как изменение во времени в первую очередь частотыосновного тона (частоты колебания голосовых связок) и амплитуды речевогосигнала» [Потапова и др. 2015: 129-130].
Комплексное междисциплинарноеисследованиеречевогосигналарядомученыхподруководствомР. К. Потаповой позволило установить, что форма «мелодической кривой»(терминР.значительнымК.Потаповой)изменениям:приэмоциональном«ростсдвигеэмоциональнойподверженанапряженностистенического плана приводит обычно к увеличению дисперсии частотыосновного тона, появлению диссонансов (выбросов) на мелодическойкривой» [Потапова и др.
2015: 130]. Например, если человек возбужден, тоувеличивается не только среднее значение ЧОТ, но также существенно могутизменяться и все остальные характеристики частоты основного тона голоса[Потапова 2012; Потапова и др. 2015]. Поэтому сравнение мелодическихструктур по статистическим параметрам частоты основного тона голосавозможно только в том случае, если на сравниваемых фонограммах «диктор»находится в примерно одинаковом эмоциональном состоянии.117II.5. Выводы1. Представленные в настоящей главе лингвистические паспортатаджикского и цыганского языков являются основой для корректнойсегментации речи иноязычных лиц экспертом, не владеющим исследуемымиязыками.2.
Анализ имеющихся литературных и экспериментальных данных,посвященных проблемам исследования информативных просодическихпараметров,используемыхприпроведенииидентификационныхисследований, а также изучение современных направлений, методов иалгоритмов для выполнения задачи идентификации лиц, говорящих нанезнакомом эксперту языке, свидетельствуют о достаточном объемеинформации, необходимой для анализа супрасегментных характеристик речив рамках разработанного программного модуля идентификации SIS II.3. Представленный в настоящей главе материал является основой дляпроведенияидентификационногоисследованияметодомсравненияоднотипных мелодических структур на основе модуля идентификации SIS IIи позволяет установить, какие именно признаки необходимо выделять ииспользовать при анализе фонограмм, чтобы максимально повыситьнадежность идентификации «диктора».4.
Рассмотренные типы мелодических контуров (огибающей ЧОТ) ипараметры их описания в своей совокупности являются индивидуальными,их сравнительный анализ позволяет сделать вывод о тождестве голоса и речилиц, говорящих на таджикском и цыганском языках.5. Автоматизированный метод идентификации на основе сравненияоднотипных мелодических структур на модуле идентификации SIS IIявляется универсальным для исследуемых языков, позволяет исследоватьособенности междикторской и внутридикторской вариативности, присущейречи на таджикском и цыганском языках, и проводить идентификациюиноязычных «дикторов», говорящих на указанных языках.118ГЛАВАIII.ОБСУЖДЕНИЕИССЛЕДОВАНИЯГОВОРЯЩЕГОРЕЗУЛЬТАТОВИДЕНТИФИКАЦИИСОПРОЙНАИНОЯЗЫЧНОГОПРОСОДИЧЕСКИЕПАРАМЕТРЫIII.1. Экспериментальный корпусДля определения возможности адекватного первичного распознаванияиноязычного говорящего и выявления некоторого объема индивидуальныхпризнаков голоса и речи для успешной идентификации лиц, говорящих наиностранном языке, экспертом, носителем другого языка, было проведеноисследование, состоящее из трех экспериментов [Курьянова 2018].Материаломдляэкспериментально-фонетическогоисследованияпослужили аутентичные фонограммы, предоставляемые для проведениясудебныхфоноскопическихдиалогическуюречьэкспертиз,(материалысодержащиеспонтаннуюоперативно-разыскногомероприятия«Прослушивание телефонных переговоров» – разговор по телефону –контрольные фонограммы) и квазиспонтанную монологическую речь(аудиозаписи образцов голоса и речи – беседа на произвольную тему, ответына вопросы, рассказ о событиях, о своем городе и о себе – опорныефонограммы) на таджикском и цыганском языках (определение языкаговорящих не входило в задачи настоящего исследования, язык «дикторов» иих национальность были известны экспертам по информации от оперативныхподразделений) [Курьянова 2018].В ходе эксперимента былотелефонныхпереговоровсравнительного(изисследованияпроанализированоних:и185185370 фонограммфонограмм-образцовконтрольныхфонограммдляс«неизвестными» лицами) на таджикском и цыганском языках, из которых232 фонограммы были представлены на таджикском языке, 138 фонограмм –119на цыганском языке.
Длительность фонограмм в общей сложности составила103 часа 35 минут.Участники диалогов – этнические таджики и цыгане, мужчины иженщины в возрасте 35 – 46 лет, преимущественно со средним (среднеспециальным) образованием, обозначены в контрольных фонограммах какМ1 – М…n и Ж1 – Ж…nсоответственно (буквенное обозначениеприсваивалось в соответствии с типом голоса (М – для мужского типа голоса,Ж – для женского типа голоса), цифровое обозначение – в соответствии спорядком вступления в диалог (М1, М2, Ж1, Ж2 и т.д.), в опорных – валфавитном порядке. Общее количество «дикторов» на контрольныхфонограммах составило 370 человек (в каждой фонограмме принимаютучастие по 2 «диктора»); общее количество «дикторов» на опорныхфонограммах – 185 человек.