240-2022 (664706), страница 2

Файл №664706 240-2022 (Речевые технологии) 2 страница240-2022 (664706) страница 22016-07-31СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 2)

Следующий этап- распознавание. Хранимые в памяти компь­ютера эталоны произношения по очереди сравниваются с текущим участком последовательности десяти миллисекундных векторов, описывающих входной речевой сигнал. В зависимости от степени совпадения выбирается лучший вариант и формируется гипотеза о содержании высказывания. Здесь мы сталкиваемся с очень суще­ственной проблемой - необходимостью нормализации сигнала по времени. Темп речи, длительность произношения отдельных слов и звуков даже для одного диктора варьируется в очень широких пределах. Таким образом, возможны значительные расхождения между отдельными участками хранимого эталона и теоретически совпадающим с ним входным сигналом за счет их временного рассогласования. Достаточно эффективно решать данную пробле­му позволяет разработанный в 70-х годах алгоритм динамического программирования и его разновидности (алгоритм Витерби). Осо­бенностью таких алгоритмов является возможность динамического сжатия и растяжения сигнала по временной оси непосредственно в процессе сравнения с эталоном. С начала 80-х все более широкое применение находят марковские модели, позволяющие на основе многоуровневого вероятностного подхода к описанию сигнала производить временную нормализацию и прогнозирование продолжений , что ускоряет процесс перебора эталонов и повышает надежность распознавания.

Что такое распознавание речи?

На первый взгляд, все очень просто: вы произносите фразу, на которую техническая система реагирует адекватно .На самом деле за столь простой идеей кроются огромные сложно­сти.

Почему же между постановкой задачи и ее решением лежит дис­танция огромного размера? Рас­познавание речи - молодая, раз­вивающаяся технология. Ее очер­тания пока зыбки и изменчивы. Поэтому в статье пока больше во­просов, чем ответов. Я попытаюсь немного рассказать о технологиях распознавания речи, и, надеюсь, вам будет интересно.

Немного о терминах

Начнем с главного термина. Что есть речь?

Говоря о речи, мы должны раз­личать такие понятия, как «речь», «звуковая речь», «звуковой сиг­нал», «сообщение», «текст».

В нашем случае, в приложении к задаче распознавания такие поня­тия, как «речь» и «звуковая речь» означают одно и то же - некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при по­мощи приборов и алгоритмов. То есть речь может быть представлена в виде некоего речевого сигнала, который в свою очередь может ис­пользоваться для обратного вос­произведения речи. То есть можно поставить знак эквивалентности ме­жду звуковой речью и ее представ­лением в виде речевого сигнала. При этом под понятием «сообщение» может скрываться любая по­лезная для получателя информа­ция, а не только текст. Например, если интересоваться не словами а интонациями, то сообщением будут просодические нюансы речи. Что же касается распознавания речи, то в нашем случае задача сводится к извлечению из речи текста.

Но здесь мы сталкиваемся с од­ним противоречием. Текст, как из­вестно, состоит из букв, слов, пред­ложений, - то есть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческая речь, в отличие от текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск ком­пьютера звучание каждой отдель­ной буквы, а потом попробуем ском­поновать из этих звуков речь, у нас ничего не получится.

Люди уже довольно давно дога­дались о том, что элементарные звуки, из которых состоит речь, не эквивалентны буквам. Поэтому придумали понятие фонемы для обозначения элементарных звуков речи. Хотя до сих пор специалисты никак не могут решить - сколько же всего различных фонем суще­ствует. Есть даже такой раздел лин­гвистики - фонетика. Большинство авторов даже для одного и того же языко­вого диалекта приводят разное ко­личество фонем. В русском языке по одним данным 43 фонемы, по другим - 64, по третьим - более сотни... Но так уж повелось, что есть миф о незыблемости понятия фонемы. И о том, что речевой сиг­нал состоит непосредственно из ку­сочков сигнала, каждый из которых является фонемой. К сожалению, все далеко не так просто.

Поначалу ученые рассматрива­ли речевой сигнал как набор неких универсалий, расположенных друг за другом на временной оси, и считали этими универсалиями фо­немы. Однако дальнейшие иссле­дования речевых сигналов ника­ких фонем не обнаружили.

Тогда одни исследователи спра­ведливо решили, что при генера­ции речевых сигналов наблюдает­ся коартикуляция, то есть взаимо­проникновение соседних звуков (мышцы лица, язык и челюсти об­ладают разной инерцией). Значит, речевой сигнал должен состоять не из фонем, а из аллофонов - комбинаций «слипшихся» фонем.

Другие исследователи, подобно физикам, атаковали идею элемен­тарности фонем и стали утвер­ждать, что фонемы надо поделить на еще более короткие кусочки или даже вообще отказаться от этого понятия и «расчленять» речевой сигнал как-то иначе. Так родились фоноиды и еще масса авторских названий элементарных звуков.

А дальше все многозначитель­но замолчали. Каждый принялся рассматривать речевой сигнал со своей позиции, сообщай об успе­хах весьма туманно. Последнее, весьма вероятно, можно объяснить желанием сохранить ноу-хау. Вот такая картина. Люди изобрели це­лую кучу претендентов на универ­сальность. Конечно, в их основу положено прежде всего человеческое ощущение звука. Возмож­но поэтому фонемы ничем не луч­ше букв. А фоноиды, аллофоны и прочая - лишь усовершенство­ванная версия звукового деления речи. Может быть, в них и есть какой-то смысл. Мы ведь услы­шим. А технически-то сигнал со­стоит не из наших, человеческих компонентов восприятия. Сигнал можно разложить, отфильтровать, как-то еще преобразовать. Задача не в этом. Необходимо найти некий эквивалент, построить модель ме­ханизма восприятия звуков речи. Большой интерес для ученых, работающих в облас­ти распознавания речи, представ­ляют различные разделы лингвистики, науки о языках. Возможно, удачный синтез достижений этих наук и теории обработки речевых сигналов приведут к ус­пешному созданию систем распознавания .

Главные трудности фонемного подхода

Темп речи варьируется в широ­ких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимают­ся не пропо-рционально. Напри­мер, гласные изменяются значи­тельно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых зву­ков есть свои закономерности. (По­лугласные - это звуки при гене­рации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в оби­ходе считаются согласными. На­пример, так обычно звучат «м», «н», «л» и «р». Смычные звуки образуются при резком смыкании и размыкании органов артикуляции. Например «б», «л», «д», «т». Образование щелевых звуков свя­зано с шипением и прочими эф­фектами турбулентности в органах артикуляции. Можно назвать «в», «ж», «с», а также «ш» и другие шипящие. В качестве примеров для простоты намеренно не приведе­ны звуки, не имеющие буквенных обозначений.) Эта свойство называется временной нестационарностью образцов речевого сигнала. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-вре­менные распределения энергии. Это справедливо даже для дваж­ды подряд произнесенного сло­ва. Намного сильнее этот эффект проявляется при сравнении спек­трограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарной сетью образцов речевого сигнала (см. примеры спектрограмм). В Изменение темпа речи и четко­сти произношения является при­чиной коартикуляционной нестационарности, означающей изме­нение взаимовлияния соседних звуков от образца к образцу. Проблема кластеризации слит­ной речи. Из непрерывного рече­вого потока довольно непросто вы­делить какие-либо речевые еди­ницы. Многие звуки «слипаются» либо имеют нечеткие границы.

Многообразие видов

Существующие системы распо­знавания речи можно классифи­цировать по разным признакам.

По назначению:

  1. командные системы

  2. системы диктовки текста.

По потребительским качествам:

  1. диктороориентированные (тре­нируемые на конкретного диктора)

  2. дикторонезависимые (рискую предложить термин «омнивойс»)

  3. распознающие отдельные слова

  4. распознающие слитную речь.

По механизмам функциониро­вания:

  1. простейшие (корреляционные) детекторы

  2. экспертные системы с различ­ным способом формирования и обработки базы знаний

  3. вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

Довольно трудно выбрать удоб­ный показатель качества работы системы распознавания речи. Наи­более просто такой показатель ка­чества вводится для командных систем. При тестировании в слу­чайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитыва­ется количество правильно распознанных команд и делится на об­щее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в задан­ной при эксперименте акустиче­ской обстановке. Для систем дик­товки похожий показатель качест­ва может вычисляться при диктов­ке некоторого тестового текста. Очевидно, что это не всегда удоб­ный показатель качества. В дейст­вительности мы сталкиваемся с са­мыми различными акустическими обстановками. Но как быть со сменой дикторов и сопутствующей ей тре­нировкой системы?

В качестве примера разрешите взять на рассмотрение вариант простейшей командной системы распознавания речи. Функционирование системы осно­вано на гипотезе о том, что спек­трально-временные характеристи­ки команд-слов для отдельно взя­того диктора изменяются слабо. Акустическая модель такой систе­мы представляет собой преобразователь из речевого сигналов спектрально-временную матрицу и мо­жет служить типичным примером изобретательского подхода. В са­мом простом случае команда ло­кализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить огра­ниченное число команд плюс еще одну, которая означает все осталь­ные неизвестные системе слова. Как правило, лингвистическая мо­дель строится как алгоритм поиска максимума функционала от вход­ного образца и образцов всего «словарного запаса» системы. Часто это обычный двумерный коррелятор. Хотя выбор размер­ности пространства описания и его метрики может широко варьиро­ваться разработчиком.

Уже исходя из «конструкции» описанной системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент. В на­стоящее время на рынке представ­лено множество коммерческих сис­тем распознавания речи с гораздо большими возможностями:

  • Voice Type Dictation , Voice Pilot , ViaVoice от IBM

  • Voice Assist Creative от Techonology

  • Listen for Windows от Verbex и многие другие.

Некоторые из них (например, ViaVoice) спо­собны, как заявляют разработчи­ки, вводить слитную речь.

Лингвистические блоки совре­менных систем реализуют слож­ную модель естественного языка. Иногда она основана на математи­ческом аппарате скрытых цепей Маркова, иногда использует по­следние достижения технологии нейронных сетей либо других ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых сис­тем пытается моделировать естест­венный слуховой аппарат.

Речевой вывод.

Речевой вывод информации из компьютера- проблема не ме­нее важная, чем речевой ввод. Это вторая часть речевого интерфей­са, без которой разговор с компь­ютером не может состояться. Я имею в виду прочтение вслух тек­стовой информации, а не проиг­рывание заранее записанных зву­ковых файлов. То есть выдачу в речевой форме заранее не из­вестной информации.

Фактически, благодаря синтезу речи по тексту открывается еще один канал передачи данных от компьютера к человеку, анало­гичный тому, какой мы имеем бла­годаря монитору. Конечно, труд­новато было бы передать рисунок голосом. Но вот услышать элек­тронную почту или результат по­иска в базе данных в ряде случаев было бы довольно удобно, осо­бенно если в это время взгляд за­нят чем-либо другим. Например, придя утром на работу в офис, вы могли бы поправлять галстуку зер­кала или возвращать на место при­ческу (может быть, даже подкра­шивать ногти ) в то время как ком­пьютер будет читать вслух по­следние известия или почту. Или. например, в середине рабочего дня он может привлечь ваше вни­мание сообщением, что прибли­жается время заранее назначен­ной деловой встречи.

С точки зрения пользователя, наиболее разумное решение про­блемы синтеза речи - это вклю­чение речевых функций (в перс­пективе - многоязычных, с воз­можностями перевода) в состав операционной системы. Компьютеры будут озву­чивать навигацию по меню, читать (дублировать голосом) экранные сообщения, каталоги файлов, и т. д. Важное замечанием пользо­ватель должен иметь достаточные возможности по настройке голоса компьютера, в частности, при же­лании, суметь выключить голос совсем.

Вышеупомянутые функции и сейчас были бы не лишними для лиц, имеющих проблемы со зре­нием. Для всех остальных они соз­дадут новое измерение удобства пользования компьютером и зна­чительно снизят нагрузку на нерв­ную систему и на зрение. По моему мнению, сейчас не стоит во­прос, нужны синтезаторы речи в персональных компьютерах или нет. Вопрос в другом - когда они будут установлены на каждом ком­пьютере. Осталось ждать, может быть, год или два.

Методы синтеза речи

Теперь, после оптимистического описания ближайшего будущего давайте обратимся собственно к тех­нологии синтеза речи. Рассмотрим какой-нибудь хотя бы минимально осмысленный текст, например, эту статью. Текст состоит из слов, раз­деленных пробелами и знаками препинания. Произнесение слов зависит от их расположения в пред­ложении, а интонация фразы - от знаков препинания. Более того, довольно часто и от типа приме­няемой грамматической конструк­ции: в ряде случаев при произне­сении текста слышится явная пауза, хотя какие-либо знаки препи­нания отсутствуют. Наконец, про­изнесение зависит и от смысла сло­ва! Сравните, например, выбор од­ного из вариантов за'мок» или «замо'к» для одного и того же слова «замок».

Обобщенная функциональная система синтеза

Структура идеализированной сис­темы автоматического синтеза ре­чи может быть представлена блок- схемой, изображенной на рис.1.

Характеристики

Тип файла
Документ
Размер
110,5 Kb
Тип материала
Учебное заведение
Неизвестно

Список файлов реферата

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6629
Авторов
на СтудИзбе
294
Средний доход
с одного платного файла
Обучение Подробнее