240-2022 (Речевые технологии)

2016-07-31СтудИзба

Описание файла

Документ из архива "Речевые технологии", который расположен в категории "". Всё это находится в предмете "информатика" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "информатика, программирование" в общих файлах.

Онлайн просмотр документа "240-2022"

Текст из документа "240-2022"

Перспективы речевого интерфейса

Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой- активное развитие и применение этой технологии только начина­ется (в который раз). С одной стороны, успели сформировать­ся устойчивые стереотипы и пре­дубеждения, с другой - несмот­ря на почти полвека настойчивых усилий не нашли разрешения вопросы, стояв­шие еще перед родоначальниками речевого ввода. Как бы то ни было, продолжат­ся поиски такого интерфейса, ко­торый устроил бы всех. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.

Исследователи недалеко про­двинулись за прошедшие десятки лет, что заставляет некоторых спе­циалистов крайне скептически от­носиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практи­чески решена. Впрочем, все зави­сит от того, что следует считать решением этой задачи.

Построение речевого интер­фейса распадается на три состав­ляющие.

  1. Первая задача состоит в том, чтобы компьютер мог «понять» то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную ин­формацию. Пока что, на нынеш­нем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст (пони­мание таких составляющих, как скажем, интонация, пока вообще не рассматривается). То есть эта задача сводится к замене клави­атуры микрофоном.

  2. Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд (скажем, дуб­лирующих пункты меню), ничего сложного в ее реализации нет. Однако вряд ли такой подход бу­дет удобнее, чем ввод этих же ко­манд с клавиатуры или при помо­щи мыши. Пожалуй, даже удоб­нее просто щелкнуть мышкой по иконке приложения, чем четко выговаривать (к тому же мешая окружающим); «Старт! Главное меню! Бери!» В идеале компьютер должен четко «осмысливать» ес­тественную речь человека и пони­мать, что, к примеру, слова «Хва­тит!» и «Кончай работу!» означа­ют в одной ситуации разные по­нятия, а в другой - одно и то же.

  3. Третья задача состоит в том, чтобы компьютер мог преобразо­вать информацию, с которой он оперирует, в речевое сообщение, понятное человеку.

Так вот, из этих трех задач достаточно ясное и окончатель­ное решение существует только для третьей. По сути, синтез речи - это чисто математическая за­дача, которая в настоящее время решена на довольно хорошем уровне. И в ближайшее время, скорее всего, будет совершен­ствоваться только ее техническая реализация.

Препятствием для окончательного решения первой задачи слу­жит то, что никто до сих пор тол­ком не знает, каким образом мож­но расчленить нашу речь, чтобы извлечь из нее те составляющие, в которых содержится смысл. В том звуковом потоке, который мы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов , об этом более подробно я Вам расскажу позже .. Во всяком случае, после предварительной тренировки современные системы распознавания речи работают довольно сносно и делают оши­бок не больше, чем делали оптические системы распознавания пе­чатных символов лет пять-семь назад.

Что касается второй задачи, то она, по мнению большинства спе­циалистов, не может быть решена без помощи систем искусственно­го интеллекта. Последние, как из­вестно, пока не созданы, хотя боль­шие надежды возлагаются на по­явление так называемых кванто­вых. Если же подобные устройства появятся, это будет оз­начать качественный переворот в вычислительных технологиях, и тогда, как знать, может быть , мно­гие теперешние подходы к рече­вому интерфейсу вообще окажут­ся ненужными.

Поэтому пока удел речевого интерфейса - всего лишь дубли­рование голосом команд, кото­рые могут быть введены с клави­атуры или при помощи мыши. А здесь его преимущества весьма сомнительны. Впрочем, есть одна область, которая для многих может ока­заться очень привлекательной. Это речевой ввод текстов в компью­тер. Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер «ос­мысливал» услышанное, а задача перевода речи в текст более или менее решена. Недаром большин­ство выпускаемых ныне программ «речевого интерфейса» ориенти­рованы именно на ввод речи.

Хотя и здесь есть место для скепсиса. Если читать вслух, четко выговаривая слова, с паузами, монотонно, как это требуется для системы распознавания речи, то на машинописную страничку у меня уйдет пять минут. Печатаю на клавиатуре я с той же скоростью. Но сочиняю, при наличии вдох­новения, раза в два-три медлен­нее, а без оного - медленнее раз в пять, так что скорость «ввода» и при диктовке и при работе на кла­виатуре у меня абсолютно одинакова. Но вот сочинять и одновременно выговаривать сочиняемое с четкой артикуляцией , хоть убей, те не смогу.

Первый - и, пожалуй, основ­ной - вопрос касается области применения. Поиск приложений, где распознавание речи могло бы продемонстрировать все свои достоинства, вопреки устоявше­муся мнению, является задачей далеко не тривиальной. Сложив­шаяся практика применения ком­пьютеров вовсе не способствует широкому внедрению речевого интерфейса.

Для подачи команд, связан­ных с позиционированием в про­странстве, человек всегда поль­зовался и будет пользоваться жес­тами, то есть системой «руки- глаза». На этом принципе построен современный графический ин­терфейс. Перспектива замены клавиатуры и мыши блоком рас­познавания речи абсолютно от­падает. При этом выигрыш от воз­ложения на него части функций управления настолько мал, что не смог предоставить достаточных оснований даже для пробного внедрения в массовых компьюте­рах на протяжении уже более три­дцати лет. Именно таким сроком оценивается существование ком­мерчески применимых систем распознавания речи.

Для иллюстрации своих аргументов возможно, несколько спор­ных утверждений рассмотрю перспективу и основные пробле­мы применения систем речевого ввода текстов, особенно активно продвигаемых в последнее время.

Для сравнения: спонтанная речь произносится со средней ско­ростью 2,5 слов в секунду, про­фессиональная машинопись - 2 слова в секунду, непрофессио­нальная - 0,4. Таким образом, на первый взгляд, речевой ввод имеет значительное превосходство по производительности. Однако оценка средней скорости диктов­ки в реальных условиях снижается до 0,5-0,8 слова в секунду в связи с необходимостью четкого произ­несения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждаю­щихся в корректировке.

Речевой интерфейс естественен для человека и обеспечивает допол­нительное удобство при наборе тек­стов. Однако даже профессиональ­ного диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому (к этому я еще вернусь) ком­пьютеру. Кроме того, имеющийся опыт эксплуатации подобных сис­тем свидетельствует о высокой веро­ятности заболевания голосовых связок операторов, что связано с неиз­бежной при диктовке компьютеру монотонностью речи.

Часто к достоинствам речевого ввода текста относят отсутствие не­обходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи- чувстви­тельность к четкости произноше­ния- приводит к потере этого, казалось бы, очевидного преиму­щества. Печатать на клавиатуре оператор учится в среднем 1-2 месяца. Постановка правильного произно­шения может занять несколько лет.

Существует и еще одно непри­ятное ограничение применимо­сти, сознательно не упоминаемое, на мой взгляд, создателями сис­тем речевого ввода. Оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать в звука изолированном отдельном помещении либо пользоваться звукоизоли­рующим шлемом. Иначе он будет мешать работе своих соседей по офису, которые, в свою очередь, создавая дополнительный шумо­вой фон, будут значительно за­труднять работу речевого распо­знавателя. Таким образом, рече­вой интерфейс вступает в явное противоречие с современной ор­ганизационной структурой пред­приятий, ориентированных на коллективный труд. Ситуация не­сколько смягчается с развитием удаленных форм трудовой дея­тельности, однако еще достаточ­но долго самая естественная для человека производительная и по­тенциально массовая форма поль­зовательского интерфейса обре­чена на узкий круг применения.

Ограничения применимости систем распознавания речи в рам­ках наиболее популярных тради­ционных приложений заставляют сделать вывод о необходимости поиска потенциально перспектив­ных для внедрения речевого ин­терфейса приложений за преде­лами традиционной офисной сфе­ры, что подтверждается коммер­ческими успехами узкоспециали­зированных речевых систем. Са­мый успешный на сегодня проект коммерческого применения рас­познавания речи - телефонная сеть фирмы АТ&Т. Клиент может запросить одну из пяти категорий услуг, используя любые слова. Он говорит до тех пор, пока в его высказывании не встретится одно из пяти ключевых слов. Эта систе­ма в настоящее время обслужива­ет около миллиарда звонков в год.

Несмотря на то, что одним из наиболее перспективных направ­лений для внедрений систем рас­познавания речи может стать сфе­ра компьютерных игр, узкоспециа­лизированных реабилитационных программ для инвалидов, телефонных и информационных сис­тем, ведущие разработчики рече­вого распознавания наращивают усилия по достижению универса­лизации и увеличения объемов словаря даже в ущерб сокращению процедуры предварительной на­стройки на диктора.

Даже Билл Гейтс, являющий со­бой в некотором смысле идеал праг­матизма, оказался не свободен от исторически сложившихся стерео­типов. Начав в 95-96 году с разра­ботки собственной универсальной системы распознавания речи, он, окрыленный первыми и, пожалуй, сомнительными успехами, в 97-м провозгласил очередную эру по­всеместного внедрения речевого ин­терфейса. Средства речевого ввода планируется включить в стандарт­ную поставку новой версии Windows NT- чисто офисной операционной системы. При этом руко­водитель Microsoft упорно повто­ряет фразу о том, что скоро можно будет забыть о клавиатуре и мыши. Вероятно, он планирует продавать вместе с коробкой Windows NT аку­стические шлемы вроде тех, кото­рые используют военные летчики и пилоты «Формулы 1». Кроме того, неужели в ближайшем бу­дущем прекратится выпуск Word, Ехсеl и т. д. ? Управлять графическими объектами экрана голосом, не имея возможности помочь руками, бо­лее чем затруднительно.

Будущее речевого интерфейса в не меньшей степени зависит от умения современных исследова­телей и разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую логически завершенную систему взаимодействия «чело­век-компьютер». Основная ра­бота еще впереди.

Базовая технология

Не следует путать термины «понимание» и распознавание» речи. В то время как второй непосредственно относится к техноло­гии преобразования акустических речевых сигналов в последова­тельность символов машинной кодировки, например ASCII. первый подразумевает анализ более высоких уровней (прагматический, семантический и т. д.) и формирование на его основе представле­ния о смысловом содержании высказывания. Дальнейшее разграничение задан укрепилось благодаря коммерческому успеху узкоспециализированных систем, ни в малейшей степени не нуждающихся, напри­мер, в модуле анализа контекста высказывания.

Традиционно процесс распознавания речи подразделяется на несколько этапов. На первом - производится дискретизация непрерывного речевого сигнала. преобразованного в электрическую форму Обычно частота дискретизации составляет 10-11 кГц. разрядность- 8 бит, что считается оптимальным для работы со словарями небольшого объема (10-1000 слов) и соответствует качеству передачи речи телефонного канала (ЗГц- 3.4кГц). понятно что увеличение объема активного словаря должно со­провождаться повышением частоты оцифровки н в некоторых случаях - поднятием разрядности.

На втором этапе дискретный речевой сигнал подвергается очистке от шумов и преобразуется в более компактную форму. Сжатие производится посредством вычисления через каждые 10 мс некоторого набора числовых параметров (обычно не более 16) с минимальными потерями информации, описывающей данный речевой сигнал. Состав набора зависит от особенностей реализации системы. Начиная с 70-х годов наиболее популярным методом (практически стандартом) построения сжатого параметрического описания стало линейно-предиктивное кодирование (ЛПК), в основе которого лежит достаточно совершенная линейная модель голосового тракта. На втором месте по популярности находится, вероятно, спектральное описание, полученное с помощью дискретного преобразования Фурье.

Очень хорошие результаты, однако, могут быть достигнуты и при использовании других методов, часто менее требовательных к вычислительным ресурсам, например клипирования. В этом случае регистрируется количество изменений знака амплитуды речевого сигнала и временные интервалы между ними. Получаемая в резуль­тате последовательность значений, представляющих собой оценку длительностей периодов сохранения знака амплитудой, несмотря на кажущуюся примитивность метода, достаточно полно представляет различия между произносимыми звуками. На таком методе предоб­работки основана, в частности, система распознавания речи, разра­ботанная в конце 80-х в НИИ счетного машиностроения (Москва).

Временной (10 мс) интервал вычисления был определен и обос­нован экспериментально еще на заре развития технологии авто­матического распознавания речи. На этом интервале дискретный случайный процесс, представляющий оцифрованный речевой сиг­нал считается стационарным, то есть на таком временном интер­вале параметры голосового тракта значительно не изменяются.

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Нашёл ошибку?
Или хочешь предложить что-то улучшить на этой странице? Напиши об этом и получи бонус!
Бонус рассчитывается индивидуально в каждом случае и может быть в виде баллов или бесплатной услуги от студизбы.
Предложить исправление
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5076
Авторов
на СтудИзбе
455
Средний доход
с одного платного файла
Обучение Подробнее