Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 327
Текст из файла (страница 327)
Таким образом, он получает возможность исправить погрешности движения всех видов, тогда как решение, полученное от детерминированного планировщика, с указанием единственного пути, может быть гораздо менее надежным. В робототехнике вместо термина политика обычно используют термин Ж функция навигации. Функцию стоимости, показанную на рис. 25.! 3, а можно преобразовать в такую функцию навигации, обеспечив отслеживание градиента. Так же как и в задачах, описанных в главе 17, задачи, рассматриваемые в настоящей главе, становятся гораздо более трудными в условиях частичной наблюдательности.
Возникающая в результате задача управления роботом представляет собой частично наблюдаемую задачу МОР, или РОМОР (ран)а1!у обзегхаЫе МОР). В таких ситуациях робот обычно поддерживает внутреннее доверительное состояние, наподобие описанного в разделе 25.3. Решением задачи РОМОР является политика, определенная на доверительных состояниях робота. Иными словами, входными данными для рассматриваемой политики является все распределение вероятностей.
Это позволяет роботу основывать свое решение не только на том, что ему известно, но и на том, что неизвестно. Например, если робот действует в условиях неопределенности в отношении какой-то важной переменной состояния, он может принять рациональное в этих условиях решение и вызвать на выполнение Ж действие по сбору информации. Такой подход в инфраструктуре МОР невозможен, поскольку в задачах МОР подразумевается наличие полной наблюдаемости.
К сожалению, методы точного решения задач РОМОР не применимы к робототехнике, поскольку не существует известных методов для непрерывных пространств. А в результате дискретиза- 1217 Глава 25. Робототехника ции обычно создаются такие задачи РОМОР, которые слишком велики, чтобы их можно было решить с помошью известных методов. Все, что можно сделать в настоящее время, — это пытаться свести неопределенность в отношении позы к минимуму; например, в эвристике 'и. плавания вдоль берегов требуется, чтобы робот оставался неподалеку от известных отметок в целях уменьшения неопределенности в отношении его позы. Такая ситуация, в свою очередь, приводит к постепенному уменьшению неопределенности при нанесении на карту обнаруженных поблизости новых отметок, а это в дальнейшем позволяет роботу исследовать новые территории. Надежные методы С неопределенностью можно также справиться, используя так называемые 'з.
надежные, а не вероятностные методы. Надежным называется такой метод, в котором подразумевается наличие ограниченного объема неопределенности в каждом аспекте задачи, но не присваиваются вероятности значениям в пределах разрешенного интервала. Надежным называется такое решение, которое приводит к намеченной цели независимо от того, какие значения данных встречаются в действительности, при условии, что они находятся в пределах предполагаемого интервала. Крайней формой надежного метода является подход на основе совместимого планирования, описанный в главе 12, — в нем вырабатываются планы, выполнимые даже без учета информации о состоянии. В настояшем разделе рассматривается один из надежных методов, применяемый для 'з. планирования тонких движений (или сокращенно РМР— Р)пе-Мог!оп Р1апп1пя) в задачах робототехнической сборки. Планирование тонких движений обеспечивает перемещение манипулятора робота в очень тесной близости от объекта в статической среде.
Основная сложность, связанная с планированием тонких движений, состоит в том, что требуемые движения и соответствуюшие характеристики среды очень малы. В таких малых масштабах робот теряет возможность точно измерять или управлять своим положением, кроме того, может возникать неопределенность в отношении формы самой среды; предполагается, что все эти неопределенности ограничены. Решением задачи РМР обычно становится условный план (или политика), в котором используется обратная связь от датчиков и который гарантирует успешное выполнение во всех ситуациях, совместимых с предполагаемыми пределами неопределенности. План проведения тонких движений представляет собой определение ряда охраняемых движений. Каждое охраняемое движение состоит, во-первых, из команды движения и, во-вторых, из условия завершения, которое представляет собой предикат, заданный на сенсорных значениях робота, и возвращает истинное значение в качестве указания на окончание охраняемого движения.
Команды движения обычно задают приспособляемые движения, которые позволяют роботу выполнять скользящие движения, если другие команды движения вызовут столкновение с препятствием. В качестве примера на рис. 25.!6 показано двухмерное пространство конфигураций с узким вертикальным отверстием. Такое пространство конфигураций может возникнуть при решении задачи вставки прямоугольного колышка в отверстие, немного превышающее его по размерам. Команды движения выполняются с постоянными скоростями. Условиями завершения являются ситуации контакта с поверхностью. Для моделирования неопределенности в процессе управления предположим, что факти- Глоб 25. Робо~о~ечщка ! 71~) 1220 Часть Ч11.
Общение, восприятие и осуществление действий ность передвигать захват робота непосредственно в направлении этих степеней свободы в пространстве конфигураций или получать информацию об их позиции. Но оба эти ограничения можно учесть, описывая задачу как задачу РМР, задавая соответствующим образом данные о неопределенностях средств управления и датчиков. В результате возникает сложная, четырехмерная задача планирования, но появляется возможность применять точно такие же методы планирования, как и раньше. Следует отметить, что надежный подход такого рода приводит к созданию планов, в которых учитываются результаты самого неблагоприятного развития событий, а не максимизируется ожидаемое качество плана, в отличие от методов теории решений, описанных в главе 17, Единственным оптимальным аспектом планов действий в наиболее неблагоприятной ситуации (с точки зрения теории решений) является то, что они позволяют предотвратить последствия неудачи во время выполнения плана, намного худшие по сравнению с любыми другими затратами, связанными с его выполнением.
25.6. ОСУЩЕСТВЛЕНИЕ ДВИЖЕНИЙ До сих пор речь в данной главе шла о том, как планировать движения, а не как их осуществлять. В разрабатываемых планах 1особенно в тех, которые были составлены с помощью детерминированных планировшиков пути) предполагалось, что робот может просто проследовать по любому пути, сформированному алгоритмом. Но в реальном мире, безусловно, дело обстоит иначе. Роботы обладают инерцией и не могут выполнять произвольные команды движения по заданному пути, кроме как на произвольно низких скоростях. В большинстве случаев робот, выполняя команды движения, прилагает усилия для перемещения в ту или иную точку, а не просто задает нужные ему позиции.
В данном разделе описаны методы вычисления таких усилий. Динамика и управление В разделе 25.2 введено понятие динамического состояния, которое расширяет представление о кинематическом состоянии робота, позволяя моделировать скорости робота. Например, в описании динамического состояния, кроме данных об угле поворота шарнира робота, отражена скорость изменения этого угла.
В модели перехода для любого представления динамического состояния учитываются влияния усилий на эту скорость изменения. Подобные модели обычно выражаются с помощью ох дифференциальных уравнений, которые связывают количество 1например, кинематическое состояние) с изменением этого количества во времени (например, скоростью). В принципе, можно было бы выбрать способ планирования движений робота с использованием динамических моделей вместо кинематических моделей, которые рассматривались в предыдущих разделах.
Такая методология приводит кдостижению превосходных показателей производительности робота, если удается составить нужные планы. Однако динамическое состояние намного сложнее по сравнению с кинематическим пространством, а из-за большого количества измерений задачи планирования движений становятся неразрешимыми для любых роботов, кроме самых простых. По этой причине применяемые на практике робототехнические системы часто основаны на использовании более простых ки не мати ческих план иро ашиков пути. )222 Часть Ч)!.
Общение, восприятие и осуществление действий Для того чтобы понять, каким должен быть лучший контроллер, опишем формально тот тип контроллера, который допускает перерегулирование. Контроллеры, прикладывающие усилия, обратно пропорциональные наблюдаемой погрешности, называются ъ. Р-коитроллерами. Буква Р является сокращением от ргоропюпа! (пропорциональный) и показывает, что фактическое управляющее воздействие пропорционально погрешности позиционирования манипулятора робота. В качестве более формальной постановки допустим, что у( с) — опорный путь, параметризованный временным индексом с. Управляющее воздействие а„выработанное Р-контроллером, имеет следующую форму: а, = кр(у( с) -х,) где х, — состояние робота во время с; к, — так называемый 'а.
коэффициент усиления контроллера, от которого зависит, какое усилие будет прилагать контроллер, компенсируя отклонения между фактическим состоянием х, и желаемым у(с). В данном примере яр=1. На первый взгляд может показаться, что проблему можно устранить, выбрав меньшее значение для к,. Но, к сожалению, дело обстоит иначе. На рис.
25. )9, б показана траектория манипулятора робота при к,=. 1, в которой все еше проявляется колебательное поведение. Уменьшение величины коэффициента усиления способствует лишь уменьшению интенсивности колебаний, но не устраняет проблему. В действительности в отсутствие трения Р-контроллер действует в соответствии с законом пружины, поэтому он до бесконечности совершает колебания вокруг заданной целевой точки. В традиционной науке задачи такого типа принадлежат к области теории управления, которая приобретает всю большую важность для исследователей в области искусственного интеллекта.