Автореферат (Оценка качества селективного синтеза речи - методы и результаты)
Описание файла
Файл "Автореферат" внутри архива находится в папке "Оценка качества селективного синтеза речи - методы и результаты". PDF-файл из архива "Оценка качества селективного синтеза речи - методы и результаты", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст из PDF
На правах рукописиСоломенник Анна ИвановнаОценка качества селективного синтеза речи:методы и результатыСпециальность 10.02.21 – «Прикладная и математическая лингвистика»Авторефератдиссертации на соискание учёной степеникандидата филологических наукМосква – 2016ОБЩАЯ ХАРАКТЕРИСТИКА ДИССЕРТАЦИИДиссертация посвящена методам оценки качества одного из современныхвидов синтеза речи – т. н.
селективного синтеза. В данном исследовании сразличных сторон рассматривается проблема оценки качества синтезированнойречи, анализируются существующие методы оценки и предлагается системаоценочных методов, адаптированная именно под селективный синтез речи. Наоснове предложенной системы осуществлено комплексное тестированиесовременных русскоязычных селективных синтезаторов речи, по результататамкоторого произведена общая оценка их эффективности и соответствияпредъявляемым требованиям.Актуальность работы состоит в том, что селективный синтез речи, ванглоязычных источниках называемый unit selection, в настоящее время являетсяобщепризнанным методом получения качественной синтезированной речи,наиболее близкой по звучанию к естественной. Этим обусловлено то, что приразработке большинства современных синтезаторов, особенно коммерческихприложений, используется именно данный метод.
В этой связи при оценкекачества синтезированной речи необходимо обратить особое внимание наспецифические особенности звучания речи, связанные с его использованием.В области оценки качества синтезированной речи существует множествоисследований, однако в данный момент для современных русскоязычныхсинтезаторов степень разработанности проблемы невелика: пока нет единойобщепринятой системы оценки. Отдельные исследования либо несколькоустарели, так как в них рассматриваются синтезаторы второго поколения(аллофонный и дифонный конкатенативный синтез), либо не обладаютдостаточной полнотой. Таким образом, очевидна необходимость разработки иописанияновойсистемыоценки,учитывающейсовременных методов синтеза речи.3особенностиименноЦель исследования состоит в том, чтобы разработать комплекс методовоценки качества селективного синтеза речи на русском языке.Задачи исследования:1.
Описать существующие проблемы и методы оценки качества синтеза речи санализом и обобщением результатов предыдущих исследований.2. Обосновать необходимость специального подхода к оценке селективногосинтеза с учётом его характерных особенностей.3.
Предложить методы оценки синтеза речи, позволяющие объективно оцениватьи сравнивать современные русскоязычные селективные синтезаторы речи.4. На основе предложенных методов провести тестирование и комплекснуюоценку нескольких современных русскоязычных синтезаторов.Научная новизна работы заключается в том, что впервые для русскогоязыка были предложены и опробованы новые методы оценки современныхселективных синтезаторов речи.Теоретическаязначимостьзаключаетсяв анализе ивыявленииспецифических характеристик селективного синтеза речи с точки зренияособенностей качества речи, порождаемой таким синтезатором.Практическая значимость работы состоит в том, что появляетсявозможность использовать предложенные методы для оценки и сравнения междусобой современных синтезаторов речи высокого качества.
На основанииполученных результатов могут быть предложены различные средства улучшениякачества синтезированной речи.Предметом исследования данной работы являются методы комплекснойоценки качества синтеза речи.4Объектисследования–искусственнопорождённаяречь,еёхарактеристики с точки зрения восприятия слушающими, критерии качествасинтезированной речи.Материалом исследования является синтезированная речь, полученная сиспользованиемнесколькихсовременныхрусскоязычныхселективныхсинтезаторов (Acapela, iSpeech, Ivona TTS, Mary TTS, Loquendo TTS, NuanceVocalizer, VitalVoice TTS).Теоретико-методологическую основу исследования составили работы посинтезу речи Б. М. Лобанова, О. Ф.
Кривновой, А. Блэка, П. Тейлора,Я. ван Сантена, и др.; работы по общей фонетике Л. В. Бондарко, Л. Р. Зиндера,С. В. Кодзасова и О. Ф. Кривновой.В ходе работы были использованы следующие методы: методы слухового,аудиторского и инструментального анализа фонограмм, статистические методыанализа результатов проведённых экспериментов.На защиту выносятся следующие положения:1. Для оценки селективного синтеза речи необходим специальный подход,учитывающий специфические особенности данной речевой технологии.2. Предложенный в диссертации подход и его оценочные средства позволяютпроводитькомплексноедиагностическоетестированиесовременныхрусскоязычных синтезаторов селективного типа и сравнивать их между собойна объективной основе.3.
Максимальное влияние на естественность звучания селективного синтезаречи для русского языка оказывают ошибки, связанные с выборомнеправильного места ударения в словах и неадекватной интонацией.54. Ошибки и недочеты в лингвистической обработке текста перед егофонетизацией являются основным источником качественных различий вработе современных селективных синтезаторов русской речи.Достоверность результатов обеспечивается успешным практическимприменением предложенной системы методов оценки в экспериментах потестированию нескольких современных систем селективного синтеза речи.Апробация работы.
Основные положения диссертационной работыдокладывалиськонференциянапонаучно-методическихкомпьютернойконференциях:лингвистике«Диалог«Международная2009»(Москва),«Международная конференция по компьютерной лингвистике «Диалог 2010»(Москва), «Международная конференция по компьютерной лингвистике «Диалог2012» (Москва), «Конференция AINL 2013: Искусственный интеллект иестественный язык» (Санкт-Петербург), «Актуальные вопросы теоретической иприкладной фонетики: конференция к юбилею О.
Ф. Кривновой» (Москва, 2013),«Международная конференция по компьютерной лингвистике «Диалог 2013»(Москва), «15th International Conference on Speech and Computer SPECOM 2013»(Чехия), «XXI Международная конференция студентов, аспирантов и молодыхученых «Ломоносов» (Москва, 2014), «2nd International Scientific Conference«Contemporary Research in Phonetics and Phonology: Methods, Aspects andProblems» (Латвия, 2015). Диссертация прошла обсуждение на кафедретеоретической и прикладной лингвистики филологического факультета МГУимени М.
В. Ломоносова.Структура диссертации. Диссертация изложена на 195 страницах исостоит из введения, четырех глав и заключения. Список литературы содержит104 наименования. Работа иллюстрирована 21 рисунком и 22 таблицами. В 19приложенияхсодержатсятестовыетекстыэкспериментов.6иподробныерезультатыОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИВо введении формулируются основные цели и задачи исследования, даётсяобоснование актуальности выбранной темы диссертации, её научной новизны,теоретической и практической значимости, а также приводятся положения,выносимые на защиту.В первой главе рассматривается история динамики целей и задач синтезаречи, требований к его качеству в процессе развития данной речевой технологии.Даётся краткое описание различных подходов к синтезу речи и особенностейречи, порождаемой разными видами синтезаторов. В последнем разделе первойглавы описываются перспективы дальнейшего развития синтеза речи иповышения требований к качеству синтезированной речи.Вторая глава «Селективный синтез речи» описывает особенности способасинтеза, исследуемого в диссертации.В первом разделе второй главы подробно описывается базовыйселективный алгоритм выбора звуковых единиц для синтеза речи попроизвольному тексту (unit selection).
Селективный синтез речи являетсяразновидностью конкатенативного синтеза, то есть при генерации речевогосигнала используются заранее полученные звукозаписи естественной речи. Вотличие от более ранних аллофонных и дифонных синтезаторов речи,порождающихвыходнойречевойсигнализотдельныхиспециальноподготовленных звуковых единиц, выделенных из небольшого и тщательноподобранного набора слов, при селективном синтезе для каждой целевой единицыречи производится выбор наиболее подходящего кандидата из множествавариантов, взятых из озвученных диктором предложений естественного языка.Для этого записываются специальные речевые базы, размер которых можетдостигать нескольких десятков часов звучания от одного диктора. В процессеакустическогосинтезаселективный7алгоритмстроитоптимальнуюпоследовательность звуковых единиц, учитывая одновременно и то, насколькокандидат подходит под описание необходимых характеристик целевого звука(стоимость замены), и то, насколько хорошо выбранные кандидаты будутконкатенироваться с соседними единицами (стоимость связи).