73201-1 (Разговор с машиной: мифы и реалии речевого управления), страница 2
Описание файла
Документ из архива "Разговор с машиной: мифы и реалии речевого управления", который расположен в категории "". Всё это находится в предмете "информатика" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "информатика, программирование" в общих файлах.
Онлайн просмотр документа "73201-1"
Текст 2 страницы из документа "73201-1"
“Неизвестная команда --> известная недоступная команда” - (оператор ошибся, машина не смогла распознать ошибку);
“Неизвестная команда --> известная доступная команда ” - (оператор ошибся, машина не смогла распознать ошибку);
“Известная доступная команда ---> неизвестная команда ” (ошиблась машина);
“Известная недоступная команда --> неизвестная команда ” - (оператор ошибся, машина не смогла распознать ошибку);
“Известная доступная команда --> известная недоступная команда ” (ошиблась машина);
“Известная доступная команда --> известная доступная команда распознана неправильно ” (ошиблась машина).
Поясним изложенные положения и определим возможные направления их практического учета и применения.
Деление известных команд на доступные и недоступные должно осуществляться, исходя из располагаемого конечного множества режимов работы управляемой технической системы, которые, как правило, закладываются уже на этапе ее создания. (Речь идет об использовании ранее упомянутого принципа конечного числа реакций машины на бесконечное множество ситуаций внешнего мира.)
Для простоты восприятия читателем, режим в данном случае, если угодно, - это совокупность нажатых кнопок управления, а доступная известная команда это очередная кнопка (одна из нескольких возможных), которая может быть “нажата голосом” оператора.
Например, на многих моделях автомобилей нельзя включить “мигалку” указателя поворота при вынутом ключе зажигания, но в той же ситуации можно подать звуковой сигнал. В данном иллюстративном примере “вынутый ключ зажигания” - это режим, “мигалка” - это недоступная известная команда, “гудок” - это доступная известная команда для данного режима.
В наиболее общем случае режим – это не только совокупность нажатых кнопок управления, но и совокупность значимых для процесса управления событий, наступление которых машина способна самостоятельно идентифицировать без участия человека.
Например, пусть обзорная система ледокола “Титаник-II” способна самостоятельно фиксировать факты обнаружения появляющихся в зоне обзора айсбергов, нумеровать их и переходить к непрерывному сопровождению наиболее опасных при получении команды от капитана судна. В данном примере наступление значимого события - “обнаружение айсберга” без непосредственного участия человека инициирует возможность использования нового режима – “сопровождение айсберга”. Для данного режима характерна известная машине, но ранее недоступная для выполнения (айсбергов раньше просто не было видно!) речевая команда капитана – “следи за наиболее опасным айсбергом №3”.
Необходимо отметить, что априорное деление известных речевых команд на доступные и недоступные с использованием содержания понятия “режим” позволяет сократить множество альтернатив и тем самым повысить надежность распознавания. Альтернативы (доступные команды) сравниваются в рамках режимов, в которых они выполнимы. Затем на “межрежимном” уровне сравниваются “альтернативы – победительницы”. Результат распознавания – альтернатива победительница для межрежимного уровня.
В условиях стрессовой нагрузки или вследствие слабой подготовки (и такое, оказывается, случается, как пишут в газетах!) оператор может произнести неизвестную для системы команду, например, выругаться в сердцах “по матушке”. В данном случае машина должна самостоятельно, в соответствии с используемыми критериями (например, пороговыми или иными, в зависимости от используемого алгоритма распознавания) идентифицировать команду как неизвестную. Чтобы поведение машины (произносимые ей ответные слова и выполняемые действия) выглядело дружелюбным и “интеллектуальным” возможны следующие основные (перечень возможных реакций машины здесь и далее ограничивается лишь уровнем естественного интеллекта разработчика “софта”, располагаемыми вычислительными ресурсами и прагматической целесообразностью) варианты ее реакции:
промолчать и ничего не делать;
сообщить человеку о возможной ошибке и попросить повторить команду;
предложить помощь, произнося доступные в данном режиме команды.
Вариант реакции можно, например, задать заранее при проектировании системы речевого управления в зависимости от априорной важности того или иного режима в процессе управления “интеллектуальной” машиной. Реализация такого подхода, естественно требует анализа профессиональной деятельности оператора, учета циклограммы его работы в процессе управления технической системой и детального знания режимов ее работы.
Более сложный, но и более “интеллектуальный” вариант - оперативная оценка психофизиологического состояния оператора и использование специализированной экспертной системы - помощника, формирующей апостериорную (de facto) подсказку в реальном масштабе времени с учетом “человеческого фактора” и результатов наблюдений с помощью датчиков информации за изменяющимися условиями внешнего мира. Проектируя подобную экспертную систему, необходимо помнить, что далеко не все доступные речевые команды оптимальны или, по крайней мере, рациональны для конкретной ситуации управления. Более того, выполнение некоторых из них при негативном развитии событий, в принципе, может привести к печальным или трагическим (вспомните Чернобыль!) последствиям.
Здесь, однако, уместно замечание по поводу невозможности блокирования выполнения машиной доступных речевых команд. Современный уровень развития систем искусственного интеллекта и, в частности, экспертных систем в настоящее время таков, что пока не позволяет эффективно решать гуманитарные проблемы и проблемы связанные с порождением новых знаний непосредственно в процессе управления сложной технической системы. Например, сегодня машину сложно научить находить разницу между потерей инстинкта самосохранения и осознанным самопожертвованием в действиях пилота боевого самолета, или отличие непрофессионализма от нетривиального (не содержащегося в инструкции для данной ситуации), но спасительного для сотен людей управленческого решения оператора крупного железнодорожного узла.
Поэтому представляется, что система речевого управления правильно и надежно интерпретирующая волю человека посредством выполнения доступных речевых команд и в необходимых случаях формирующая для него “толковые” подсказки может считаться вполне “интеллектуальной”. При этом ответственность за последствия нерациональной деятельности дилетанта за рычагами управления или перед “ушами” системы речевого управления должен нести он сам или люди, которые его туда допустили, а никак не конструктор “интеллектуальной машины”…
В случае, когда распознанная команда идентифицируется как известная доступная, возможны следующие основные варианты реакции машины:
выполнить команду;
выполнить команду и информировать оператора голосом, или как-то иначе, о ее выполнении;
запросить подтверждение команды у оператора и не выполнять команду до получения подтверждения;
проинформировать оператора о нерациональности его действий, возможных негативных их последствиях и оптимальной с точки зрения машины команде.
В этом месте необходимо сделать небольшое, но важное, “лирическое отступление”, касающееся облика интерфейса экспертных систем, сопрягаемых с командно-речевыми системами. Нужно помнить, что человек “устроен” так, что выступать со своими альтернативными советами и соображениями машина должна крайне осторожно. Работать с “машиной–занудой”, особенно когда у тебя плохое настроение, “запахло жареным” и нет времени на раздумье, или когда имеется собственное и, конечно же, единственно правильное мнение не склонен ни один хомо сапиенс. Вспомните, как поступала пушкинская царица со своим чудо зеркальцем в проблемных случаях. Вспомнили? Правильно! В первый сунула под лавку, а во второй – разбила об пол…
Отдельного рассмотрения заслуживает упомянутый вариант диалогового подтверждения команды. Машина и человек, зная о том, что они обоюдно на 100 % не застрахованы от ошибок (см. приведенные выше возможные типы ошибок), должны иметь “супернадежную” совместную процедуру сертификации принятия решения на выполнение речевой команды.
В основу такой процедуры может быть положен принцип разделения команд по длительности. Например, человек в ответ на распознанную и оглашенную машиной команду может ответить короткое “Да” или произнести длинное “Отставить” (или, возможно, что-то другое длинное и грубое) в случае своего несогласия. Подобный предельно простой принцип распознавания с использованием только 2-х возможных хорошо различимых команд представляется наиболее надежным в отличие от использования любых других известных принципов, предполагающих применение “навороченных” математических методов типа формантного анализа или нейрокомпьютерных технологий.
После получения подтверждения или отказа от выполнения команды возможны следующие основные варианты реакции машины:
На команду человека - “Да”:
выполнить распознанную и “озвученную” команду;
выполнить распознанную и “озвученную” команду и информировать оператора голосом о ее выполнении.
На команду человека - “Отставить”:
не выполнять распознанную и “озвученную” команду;
не выполнять и “озвученную” команду и сообщить об этом оператору.
Кстати, реализуя данную процедуру, совсем не лишним будет заранее “договориться” с машиной о том, как она будет интерпретировать молчание хозяина:
молчит - выполнить команду;
молчит - не выполнять команду;
молчит - у хозяина отказали мозги или пропал голос, запрошу еще раз, а там видно будет…
Особый интерес представляет случай, когда распознанная команда идентифицируется как известная недоступная. В данном случае наступает “пикантная” ситуация, связанная с ошибкой оператора, по каким-то причинам забывшего режимы и логику работы управляемой им технической системы.
Возможны следующие основные варианты реакции машины:
промолчать и ничего не делать;
сообщить оператору о невозможности выполнения команды;
сообщить оператору о невозможности выполнения команды и проинформировать его о причинах этого;
сообщить оператору о невозможности выполнения команды, причинах этого и предложить список доступных команд или наиболее рациональную, по мнению машины, команду.
Рассмотрим еще один безусловно важный с эргономической и психологической точек зрения вопрос, связанный с процессом инициации работы системы речевого управления. Должна ли она работать постоянно, пока осуществляется управление технической системой или включаться вручную на время ввода команды?
На первый взгляд более удобен первый вариант, не требующий никаких дополнительных тактильных действий со стороны оператора, т.к. ничего не нужно нажимать или переключать. Однако не все так просто и для человека и для машины.
Люди в процессе управления имеют обыкновение разговаривать не только с машиной, но и со своими коллегами. Некоторые вообще разговаривают сами с собой (есть и такие!) или поют песню “Вечерний звон” как в фильме “Небесный тихоход”… Постоянное осознание того, что в это время машина как преданный пес пытается уловить известную ей команду и может неверно интерпретировать не обращенные к ней речи хозяина, нервирует человека-оператора и мешает ему нормально работать. Не легче и машине, которая захлебывается в потоке незнакомых слов и звуков. Как уже отмечалось ранее, сегодня существуют серьезные трудности с обеспечением приемлемой вероятности распознавания слитной речи. Поэтому, по мнению автора настоящей статьи, более рациональным является второй вариант – использование единой кнопки ввода, которую, например, следует нажимать перед началом ввода любой речевой команды и отпускать после ее окончания. Это, кстати, дополнительно дисциплинирует оператора, заставляя предварительно подумать над тем, что он на самом деле хочет сказать машине.
Ежели Вы все же склонны остановиться на первом варианте как более “продвинутом”, осмелюсь рекомендовать использование некоторой предварительной уникальной хорошо распознаваемой в различных условиях команды – обращения к машине. И после того как Ваш верный железный Мухтар “пролает” в ответ на обращение к нему о том, что он Вас услышал и ждет команду, можете смело произносить исполнительную команду: “Фас!”. Последующее выделение исполнительной команды из слитной речи может быть эффективно осуществлено по временному признаку: сделайте небольшую паузу до и после исполнительной команды (Твикс при этом можно не кушать!).