Диссертация (1173184), страница 19
Текст из файла (страница 19)
Эксцесс характеризует степень равномерности распределения ЧОТ.В модуле SIS II положительный эксцесс обозначает относительноостроконечное распределение, отрицательный – относительно сглаженноераспределение значений ЧОТ; также может указывать на наличие/отсутствиерезких перепадов значений ЧОТ [Научно-технический отчет 2008; Научнотехнический отчет 2011].11. Коэффициент изрезанности контура ЧОТ используется для оценкистепени изрезанности протяженных участков мелодического контура(синтагм, шкал, длительных речевых участков). Вычисляется автоматическикак отношение суммы интервалов тона (в полутонах – Пт) по модулю кдлительности речевого участка [Научно-технический отчет 2008; Научнотехнический отчет 2011].12.Длительность–длительностьвыделенногофрагментавмиллисекундах (мс).Значение длительности зависит от границ выделенного экспертомфрагмента для исследования и, как правило, используется в качествеинформационного параметра. Как самостоятельный идентификационнозначимыйпараметриспользоваться,длительностьнапример,привыделенногосравнениифрагментадлительностейможетучастковвысказываний между паузами, длительностей пауз, длительностей ядерных инеядерных ударных гласных – для выявления различий в степени удлиненияядерного слога у разных «дикторов».Как показывают исследования,стабильностью проявления и высокой степенью индивидуальности обладают108такжеотносительныезначениядлительностейсегментов[Eriksson,Wretling 1997].II.4.Принципы сравнения фонограмм методом структурно-мелодического анализаСравнение статистических параметров однотипных мелодическихструктур осуществляется в модуле SIS II автоматически на основеполученных средних значений по каждому параметрутипов/подтиповэлементов мелодического контура (огибающей ЧОТ).
Метод позволяетанализироватьисравниватьосновныехарактеристикимелодическихструктур, представленные в численном виде как наборы значенийпараметровЧОТ.мелодическогоСравнениюконтураподвергаются(опорныесопоставимыефрагменты)[Курьяноваучастки2011b;Голощапова, Курьянова 2011а; Курьянова, Елемешина 2012; Голощапова,Курьянова 2012а].Цель структурно-мелодического анализа состоитв выявленииоднотипных мелодических структур в исследуемых фонограммах исравнении их характеристик для установления степени близости параметровмелодических контуров (огибающей ЧОТ) [Курьянова 2011а]. Данная цельдостигается последовательным подбором нескольких реализаций опорныхфрагментовпокаждомутипу/подтипумелодическогоконтуравсравниваемых фонограммах [Курьянова 2011b; Курьянова 2011а; Курьянова,Елемешина 2012].Предварительная подготовка фонограмм для сравнения даннымметодом заключается в получении корректных графиков огибающей ЧОТ.Параметры выделяемых экспертом на графике огибающей ЧОТ однотипныхучастков контура, сопоставимых с точки зрения реализационной специфики,стилистическойиэмоциональнойнасыщенности,вычисляютсяавтоматически.
Для каждой пары сравниваемых значений в модуле SIS II109автоматически вычисляется разность значений, которая затем сравнивается ссоответствующим порогом [Курьянова 2011b; Голощапова, Курьянова 2011а;Курьянова, Елемешина 2012; Голощапова, Курьянова 2012а].Порог является условным пограничным значением, отделяющимсходные реализации параметров огибающей ЧОТ от различающихся, онопределяет максимально допустимую разницу между значениями параметровсравниваемыхфонограмм,докоторойфонограммысчитаютсятождественными. При этом в зависимости от степени информативностипараметразначение порога можетвнутридикторскойвариативностинаходиться(длякак внутринаиболееобластиинформативныхпараметров), так и за ее пределами (для менее информативных параметров,значения которых используются только для подтверждения исключения«чужого диктора») [Курьянова 2011b; Голощапова, Курьянова 2011а;Курьянова, Елемешина 2012; Голощапова, Курьянова 2012а].Выделение необходимых опорных речевых фрагментов проводитсяотдельно для каждой из фонограмм.
После того как для каждой изисследуемыхфонограмммелодическогобудутсоставленытаблицыструктурногоанализа, эксперт переходит к сравнительному этапуисследования по данному методу.Степень сходства/ различия вычисляется в процентном соотношении.При совпадении расстояния с порогом степень сходства оценивается в 50%.При превышении порога значения лежат в области менее 50% и убывают помере удаления от порогового значения.Соответственно, если расстояниеменьше порога, то значения превышают 50%.
Нулевое расстояние (илиполное совпадение) значений параметра дает 100% сходства [Курьянова2011b; Голощапова, Курьянова 2011а; Курьянова, Елемешина 2012;Голощапова, Курьянова 2012а].Привычисленииобщегорезультатаучитываютсявесовыекоэффициенты, приписанные каждому параметру и анализируемому типуфрагмента мелодического контура [Курьянова, Елемешина 2012]. Каждый110параметр имеет свой весовой коэффициент, определяющий его долю в общейоценкестепенисходства/различиятипов/подтипов огибающей ЧОТ.покаждомуиззадействованныхПрисвоение весовых коэффициентовпросодическим параметрам проводится с учетом степени их реализационнойстабильности, с одной стороны, и различающей способности, с другой[Курьянова 2011b; Голощапова, Курьянова 2011а; Курьянова, Елемешина2012; Голощапова, Курьянова 2012а].В процессе сравнения для каждого типа/подтипа рассчитываютсястепень сходства (на основе значений более 50%) и степень различий (наоснове значений мене 50%).
Далее по этим частным значениям типов/подтипов аналогичным образом, с учетом весовых коэффициентов,рассчитывается общая оценка сходства/различия сравниваемых фонограмм,на основе которой формулируется общий вывод о сходстве/различии голосовна фонограмме и выводятся вероятности ложного отклонения и ложногопринятия«диктора»,сходства/различиярассчитанныесравниваемыхдляданногохарактеристиксоотношения[Курьянова2011b;Голощапова, Курьянова 2011а; Курьянова, Елемешина 2012; Голощапова,Курьянова 2012а].Далее результаты сравнения отдельных типов/подтипов суммируютсядля получения общего решения относительно тождества либо различияголосов: по частным значениям типов, подтипов с учетом весовыхкоэффициентоврассчитываетсяобщаяоценкасходства/различиясравниваемых речевых сигналов (соотношение значений FR и FA), на основекоторой формулируется общий вывод о тождестве/различии голоса и речи нафонограммах [Курьянова 2011b; Голощапова, Курьянова 2011а; Курьянова,Елемешина 2012; Голощапова, Курьянова 2012а].Для принятия обоснованного решения по результатам исследованияданным методом рекомендуется использовать не менее 3-х компонентовтипов/ подтипов огибающей ЧОТ, например: фоноабзац, синтагма и ядерныйслог.
В связи с тем, что на экспертизу для проведения идентификационного111исследования по голосу и речи зачастую поступают фонограммы,длительность которых не позволяет эксперту выделить максимальный подлительности речевой фрагмент (фоноабзац), для сравнения используютсяподтипы синтагм, ядерные слоги, шкалы, предшкалы, ядерно-заядерныеучастки. Оптимальное число опорных фрагментов каждого типа/подтипа дляполучения статистики при сравнительном анализе мелодического контура вмодуле SIS II составляет не менее 5 [Курьянова 2011b; Голощапова,Курьянова 2011а; Курьянова, Елемешина 2012; Голощапова, Курьянова2012а].Поскольку в процессе сравнения в модуле SIS II используются средниеарифметические значения, полученные в результате обработки массиваединичных значений, рассчитанных для каждого конкретного параметраогибающей ЧОТ, важную роль при сравнении играет характер варьированиязначений.Варьированиеиндивидуальныхпривнесеннымможетособенностейвследствиебытькак«диктора»),каких-либоестественнымтаквнешнихи(всилу«искусственно»факторов(например,неточностей, допущенных экспертом при обозначении принадлежностифрагмента огибающей ЧОТ к тому или иному типу) [Научно-техническийотчет 2008; Научно-технический отчет 2011].
Поэтому перед стадиейсравнительногоисследованиянеобходимопроанализироватьхарактерраспределения значений для каждого из сравниваемых типов/подтиповфрагментов огибающей ЧОТ на основе статистических параметров,вычисляемых в исследовательском режиме модуля системы. Для получениянадежногорезультатасравнениярекомендуется«вручную»оценитьполученный массив значений и при выявлении одиночных «выбросов»значения какого-либо параметра опорного фрагмента огибающей ЧОТ,последние удалить [Курьянова 2011b; Голощапова, Курьянова 2011а;Курьянова, Елемешина 2012; Голощапова, Курьянова 2012а].Для принятия обобщенного решения в модуле идентификации SIS IIвводится понятие отношения правдоподобия (LR – оценки, LR – Likelihood112Ratio) [Научно-технический отчет 2008; Научно-технический отчет 2011].Принцип формированиярешения о сходстве или различии лиц насравниваемых фонограммах осуществлялся по формуле, показывающейотношение вероятности совпадения к вероятности различия: LR=FR/FA, гдеLR – отношение правдоподобия (LR-оценка), FR – вероятность ложногоотклонения «диктора», FA – вероятность ложного принятия «диктора».
Еслизначение LR-оценки больше единицы, то вероятность совпадения «дикторов»на исследуемых фонограммах превышает вероятность их различия. Еслизначение LR-оценки меньше единицы, то более вероятным становитсяразличие «дикторов» [Научно-технический отчет 2008; Научно-техническийотчет 2011].В настоящее время в системах идентификации «диктора» все чащеприменяется концепция доверительности [Shikano 1986; Higgins, Bahler etc.1992; URL: Speaker Verification Database; URL: Speaker Recognition Database;Андреев 1992], определяющая доверительную вероятность (доверительныйинтервал), указывающий на надежность полученного результата (оценки), тоесть доверительный интервал определяет точность оценки параметра.В контексте применения понятия доверительного интервала, в модулеидентификации дикторов SIS II доверительный интервал (англ.
credibleinterval или confidence interval) – интервал значений рассматриваемойвеличины, в который она попадает при данной мере близости речевыхсигналов двух сравниваемых файлов с заданной надёжностью (уровнемдоверия, доверительностью, уровнем доверительности), изменяемой впроцентах от 0 до 100 [Научно-технический отчет 2008; Научно-техническийотчет 2011].В научных публикациях, нормативно-технической и методическойлитературе под таким термином, как доверительный интервал понимаетсяинтервал, которыйс заданной вероятностью покрывает неизвестноезначение параметра распределения [Shikano 1986; Higgins, Bahler etc.