Лекции по ЧМВ-дополнительные (1022759), страница 11
Текст из файла (страница 11)
Можно интегрировать в web-страницу Web-компонент, выбираемый в окне, возникающем по команде Вставка > Web-компонент
.
Если Вы хотите разнообразить свою страницу не функциональным, а чисто декоративным объектом, можете включить в заголовок html-документа бегущую строку. Для этого Вам необходимо использовать пункт меню Вставка>Бегущая строка, при выборе которого на экране появится окно настройки свойств бегущей строки.
В верхнее поле данного окна вводится текст, который будет отображаться в клиентском браузере в виде бегущей строки. В пункте Направление выберите направление движения текста, в пункте Скорость параметры анимации: задержку между перерисовками символов на экране в микросекундах и количество таких задержек в каждом интервале времени. Пункт Поведение позволяет выбрать один из трех режимов:
-
В режиме Прокрутка текст будет перемещаться от одной границы экрана до другой непрерывно, исчезая за пределами окна браузера и вновь появляясь с другой стороны.
-
Режим Сдвиг заставит бегущую строку остановиться возле одной из границ окна.
-
Режим Попеременно обеспечивает перемещение строки по видимой части окна браузера в двух направлениях по горизонтали, не исчезая из поля зрения пользователя.
Пункт Размер позволяет изменить геометрические размеры бегущей строки, а пункт Цвет фона - выделить бегущую строку цветовой фоновой заливкой. В пункте Повторы можно задать непрерывное перемещение строки по экрану, либо необходимое вам количество повторений.
9. Сенсорный ввод
Принцип работы данных в сенсорных устройствах аналогичен принципу ввода в манипуляторах-координатах. Различают следующие устройства сенсорного ввода:
-
Сенсорный манипулятор - класс координатных устройств - представляет собой коврик без мыши. В данном случае управление курсором производится простым движением пальца по коврику. Отсутствие механических частей обеспечивает небывалую долговечность таких устройств. Несмотря на компактные размеры коврика, осуществляется полноэкранное управление курсором и разрешающая способность в 1000 точек на дюйм.
-
Сенсорный, тактильный экран представляет собой поверхность, которая покрыта специальным слоем. Это устройство дает возможность выбирать действие или команду, дотрагиваясь до экрана пальцем. Сенсорный экран удобен при использовании, особенно когда необходим быстрый доступ к информации. Вы можете увидеть такие устройства ввода в банковских компьютерах, аэропортах, а также в военной сфере и промышленности.
-
Световое перо имеет светочувствительный элемент на своем кончике. Соприкосновение пера с экраном замыкает фотоэлектрическую цепь и определяет место ввода или коррекции данных. Световое перо используется в различных системах проектирования и дизайна.
-
Дигитайзер, графический планшет, используется для ввода в компьютер чертежей или рисунков. Изображение преобразуется в цифровые данные, отсюда название устройства от английского слова digit, что означает - "цифра". Условия создания изображения приближены к реальным, достаточно специальным пером или пальцем сделать рисунок на специальной поверхности. Результаты работы дигитайзера воспроизводится на экране монитора и в случае необходимости могут быть распечатаны на бумаге. Дигитайзерами обычно пользуются архитекторы, дизайнеры.
-
Интерактивная доска. На ней лектор, используя световое перо, отображает рисунки, которые затем переносятся в компьютеры, соединенные с доской, и фиксируются там.
10. Речевые технологии
10.1. Введение
10.2. Распознавание речи
10.3. Программы распознавания речи
10.4. Подача голосовых команд компьютеру
10.5. Преобразование текст-речь
10.6. Телефонная связь через Internet
10.7. Идентификация по образцу речи
10.1. Введение
Речевые технологии - технологии ХХI века, благодаря которым появилась возможность управлять компьютером с помощью голоса, диктовать текст, слушать, а не читать книги, а в перспективе общаться с компьютером на интеллектуальном уровне. Основными направлениями исследований в этой области являются:
-
распознавание речи,
-
синтез голоса,
-
средства речевого управления,
-
идентификация по образцу речи.
10.2. Распознавание речи
Обучить компьютер понимать человеческую речь и "озвучивать" различные синтезируемые "на лету" сообщения - до сих пор остается чрезвычайно заманчивой задачей. Решить ее означало бы существенно продвинуться на пути к реализации естественного интерфейса пользователя.
Как утверждают психологи, восприятие речи - одно из самых загадочных проявлений человеческого интеллекта. Совершенно непонятно, каким образом дети учатся понимать устную речь и говорить. Речь ведь далеко не однозначна - определить, какому именно слову соответствует произнесенное сочетание звуков, можно только по контексту.
Задача машинного распознавания речи привлекает внимание специалистов в области компьютерных наук уже очень давно. Тем не менее, продвинуться в этом направлении пока удалось относительно недалеко. Чисто формально процесс распознавания речи можно описать буквально в нескольких фразах:
-
Аналоговый сигнал, генерируемый микрофоном, оцифровывается.
-
В речи выделяются так называемые фонемы, то есть элементарные фрагменты, из которых состоят все произносимые слова.
-
Затем определяется, какое слово соответствует сочетанию фонем, и строится соответствующий словарь.
Распознать слово - значит найти его в этом словаре по произнесенному сочетанию фонем.
Все это выглядит столь линейно, разумеется, лишь при таком предельно упрощенном описании. Проблемы всплывают, стоит хоть немного задуматься о том, как эту схему можно было бы реализовать на практике:
-
Во-первых, человек обычно не делает паузы между словами, а при слитном произнесении к задаче распознавания прибавляется еще и задача выделения слов из потока речи, что заведомо более сложно. Особенно "неприятна" необходимость выделять односложные слова - именно с ними и связано максимальное число ошибок реально существующих систем. Можно, конечно, потребовать, чтобы человек произносил слова по одному, делая достаточно продолжительные паузы (а лучше, чтобы каждое следующее слово произносилось после звукового сигнала от компьютера). Не очень удобно, но для подачи простых команд сгодится.
-
Следующая проблема - различие голосов, диалектов, дикций и прочие индивидуальные особенности говорящих. Для того, чтобы система работала устойчиво, она должна, например, "осознавать", что мягкое южное и твердое северное "г" - это одна и та же буква.
-
Существует два существенно различающихся режима работы: с настройкой на голос определенного человека и без такой настройки. Размеры словаря при работе с настройкой на голос (speaker-dependent) в настоящее время могут достигать многих тысяч слов при слитном произнесении. Процедура настройки на голос выглядит следующим образом: человек читает некий специальным образом составленный текст, компьютер распознает слова и выдает вариант распознавания человеку. Человек исправляет ошибки и читает текст снова. После нескольких таких итераций процесс сходится, и компьютер оказывается в состоянии распознавать речь своего "хозяина".
-
Наконец, последний, наиболее сложный для реализации, но одновременно и наиболее перспективный режим работы - распознавание без настройки на голос. При этом гарантируется, что система распознает любое включенное в словарь слово, кем бы оно ни было произнесено. Здесь, как правило, словари насчитывают небольшое количество слов (обычно не более двух десятков) и существуют для относительно небольшого числа языков (примерно тридцати); русский язык в это число хотя и входит, однако количество распознаваемых русских слов совсем уж невелико.Создание словаря для распознавания речи без настройки на голос - дело весьма сложное и дорогое. Для решения этой задачи разработчикам приходится опрашивать большое число (несколько сотен или даже тысяч) носителей языка, выделять некие общие элементы речи, "усреднять" их определенным способом - и все этого для того, чтобы обеспечить распознавание каких-нибудь десяти-двадцати слов. Чаще всего словарь без настройки на голос пользователя требует раздельного произнесения слов. Для целого ряда приложений этого, однако, оказывается вполне достаточно.
10.3. Программы распознавания речи
Один из самых давних игроков на рынке программ распознавания речи, Dragon Systems, была первой компанией, предложившей в 1997 г. программу распознавания непрерывной речи общего пользования. Позже Dragon предложил улучшенный ее вариант - Dragon NaturallySpeaking Preferred Edition 2.0. Вскоре IBM предложил ViaVoice - аналогичную программу, стоившую на сотни долларов меньше конкурента, но обладающую меньшей точностью распознавания.
NaturallySpeaking и ViaVoice могут работать сразу после того, как вы прочтете несколько предложений. Чтобы добиться лучших результатов следует, однако, произвести 30-минутную тренировку. Чтобы еще лучше подготовить программу следует прочитать текст или импортировать документы, содержащие наиболее часто употребляемые вами слова.
NaturallySpeaking включает большой набор команд форматирования и редактирования, хотя предполагает использование только собственного текстового процессора. При тестировании программа оказалась несложной даже для начинающего. Она имеет точность около 89%. Чтобы добиться точности порядка 95% и разобраться со всеми особенностями и возможностями программы вам придется работать с ней ежедневно и длительное время.
Вообще говоря, NaturallySpeaking не заменяет клавиатуру и мышь. Имея неплохую точность, программа устроена так, однако, что обнаруженные ошибки быстрее устраняются вручную, чем голосовыми командами. Dragon рекомендует использовать микрофоны лишь определенных производителей, среди которых Labtec и Vxi.
Вы можете поупражнять программу распознавать специфические слова и импортировать документы (формата DOC, HTML, RTF и TXT), чтобы расширить имеющийся базовый словарь из 230 000 слов (программа может работать лишь с 30 000 словами единовременно). Вы можете добавить также фразы, состоящие из нескольких слов, например, On-Line! Digest, задавая желаемую пунктуацию и орфографию. Данная программа дает возможность работать нескольким пользователям, каждый из которых может провести собственный цикл подготовительных упражнений.
Большим преимуществом NaturallySpeaking является то, что вам нет необходимости прекращать диктование для внесения исправлений. Сделав ошибку, вам следует лишь сказать "Scratch that" [стрэч зэт] и программа удалит последнее сказанное вами слово. Вы можете свободно перемещаться по документу и форматировать его параллельно с диктованием. Произнося "Correct that" [корэкт зэт], вы открываете окно со списком альтернативных вариантов сказанного вами слова. Если желаемое слово есть в списке, вы произносите "Choose" [чуз] и номер слова в списке. Если слова нет в списке вы можете произнести его еще раз полностью или по буквам (Alpha, Bravo . . .). Программа может также воспроизвести пассаж или весь документ.
В заключение отметим наличие голосовых команд управления. Вы можете управлять меню и диалоговыми окнами. Например, произнеся "Click Edit" [клик эдит], вы откроете меню редактирования, а произнеся "Click OK" [клик оукэй] или "Cancel" [кэнсл], вы закроете его. При этом вы можете оперативно работать мышью, выполняя все главные команды - перетаскивание, правый щелчек и т.д.
Чтобы изучить весь набор команд редактирования, форматирования и навигации, имеющиеся в NaturallySpeaking, придется потратить довольно много времени. Этот процесс может быть облегчен заданием вопроса "What Can I Say?" [уот кэн ай сэй] и программа предложит список возможных команд.
NaturallySpeaking очень выиграет, если появится возможность ее интегрирования с другими программами. Хотя и без этого она - лучшая на сегодняшний день программа распознавания непрерывной речи. Программа включена в состав операционной системы Windows. Ее недостаток – отсутствует поддержка русского языка.
"Горыныч" - программа распознавания русской речи. Разработчик - VoiceLock, соразработчик: российская фирма White Computers. Возможности программы:
-
ввод текста с голоса на русском и английском языке,
-
голосовое управление периферийным оборудованием; голосовое управление отдельными функциями операционных систем Microsoft Windows 95/98/NT,
-
голосовое управление функциями текстовых редакторов и прикладных программ,
-
позволяет оформлять документы, дипломные работы (включая формулы) для школьников, абитуриентов, студентов.
В первых версиях программы в качестве ядра системы используется американская программа "Dragon Dictate" и русский модуль, разработанный программистами White; он обеспечивает ввод под диктовку русского текста и голосовое управление по-русски (и те же функции для английского языка). Скорость голосового набора текстов зависит от производительности компьютера и может достигать 500-700 печатных знаков в минуту, что значительно превышает скорость "слепого" метода печатания.