Раздел: Документация
0 ... 115 116 117 118 119 120 121 ... 143 и[0]=2 иГП=1 и[2]=4 Рис. 11.13. Пример оптимальной траектории. AQ за первый шаг и наиденных перед этим значений AQmin за последующие т — 1 шагов из каждой I точек вертикали /. В результате находим оптимальную траекторию в целом, т е от начальной Н до конечной точки К. Решение данной задачи возможно не только при обратном движении от конца к началу, но и при прямом движении от начала к концу [81]. Таким образом, с помощью метода динамического программирования задача выбора оптимальной траектории из 1т~1 вариантов сведена к последовательному выбору из I вариантов. Например, если т = 8, I ----- 10, то выбор из 107 вариантов сводится к последовательному выбору из 10 вариантов. мля математической формулировки задачи динамического программирования предположим, что шаги в решении задачи представляют фиксированные интервалы времени, т. е. происходит квантование по времени. Требуется найти с учетом ряда ограничений закон управления и [я], переводящий объект из точки х [0] фазового пространства в точку х [т] при условии обеспечения минимума критерия оптимальности т (3=2 G(xnl,B[Bl. Здесь я — текущий номер шага (относительное время). Оптимальное управление будем искать, как и раньше, с конечного момента я = т, двигаясь обратно. Находим из I вариантов оптимальное управление и [т — /] для каждого дискретного значения х [т — 1] (для каждой возможной точки (т — /)-й вертикали). Найденные оптимальные значения и [т — Л и AQm i, как функции х[т — 1], фиксируются. Переходя затем к началу (т — 2)-го шага, определяем варьированием и[т — 2] минимальное приращение AQm 2 для каждого значения х [т — 2] (для каждой точки (т — 2)-й вертикали) с учетом ранее найденных значений приращений AQm-i и т. д., вплоть до начальной точки х [0]. В результате находим оптимальное управление и [л], сам оптимальный процесс х [п] и суммарную величину критерия оптимальности Q. Управление записывается в виде последовательности значений и [0], и [1], и lm — 1], например: и [0] = 2, и [1] = = /, и [2] = 6 и т. д. (рис. 11.13). Таким образом, оптимизация функционала, зависящего от искомой функции управления и [п], заменяется последовательностью т оптимизаций более простой функции AQm « одной переменной и[т — i]. Благодаря такому упрощению с помощью метода динамического программирования становится возможным решение задач оптимального управления, которые не решаются путем1 прямой оптимизации исходного функционала классическими методами вариационного исчисления. Метод динамического программирования по существу Рис. 11.14. К принципу максимума: а — оптимальная по быстродействию траектория; б — оптимальные «траектории, соответствующие различным начальным значениям функции i> (0). представляет собой метод составления программы для численного решения задачи на цифровых вычислительных машинах. Лишь в простейших случаях данный метод позволяет получить аналитическое выражение искомого решения и выполнять его исследование. С помощью метода динамического программирования возможно решение задач не только оптимального управления, но и многошаговых задач оптимизации из самых различных областей техники. Принцип максимума Понтрягина Суть принципа максимума Понтрягина можно пояснить на примере задачи о максимальном быстродействии. Пусть требуется за минимальное время перевести изображающую точку из начального положения Н фазового пространства в конечное положение К (рис. 11.14, а). Для каждой точки фазового пространства около точки К существуют оптимальная фазовая траектория и соответствующее минимальное время перехода в точку К. Вокруг точки К можно построить изохроны — поверхности, являющиеся геометрическим местом точек с одинаковым минимальным временем t{ перехода в эту точку. Оптимальная по быстродействию траектория из точки Н в точку К в идеальном случае должна совпадать с нормалями к изохро-нам (на движение вдоль изохрон затрачивается время без уменьшения отрезка времени до момента достижения конечной точки). На практике ограничения, налагаемые на координаты объекта, не всегда позволяют реализовать идеальную, оптимальную по быстродействию, траекторию. Поэтому оптимальной траекторией будет та, которая максимально, насколько это позволяют ограничения, близка к нормалям к изохронам. Это условие математически означает, что на протяжении всей траектории скалярное произведение Н вектора скорости V = dxldt движения изображающей точки на вектор it, обратный (по направлению) градиенту времени перехода в конечную точку, должно быть максимально: п Н = = 2 ifcl/t- = max,(11.10) i=l где Ф = —grad tn — вектор, обратный градиенту времени перехода; ■ф«, Vi — координаты векторов ф (th, ф„) и 1/(1/,, .... VJ. Так как скалярное произведение двух векторов равно произведению их модулей на косинус между ними, то условием оптимальности является максимум проекции вектора скорости V на направление ф. Данное условие оптимальности и есть принцип максимума Понтрягина. В рассматриваемом примере критерием оптимальности является время. Однако условие оптимальности (11.10) справедливо и для общего случая, т. е. для любого критерия оптимальности Q. Поверхности постоянного значения этого критерия в общем случае называются изоповерхностями, а в условии максимума (11.10) вектор \\> представляет собой взятый со знаком минус градиент принятого критерия оптимальности. В общем случае уравнения объекта (11.2) дополняются уравнением (11.9), содержащим координату х0, соответствующую критерию оптимальности, и условие оптимальности (11.10) принимает вид уравнения Гамильтона п Н = фУ = 2 ум: = max,(11.11) где скалярная величина Н называется гамильтонианом. Таким образом, возникает задача определения такого управления и, под влиянием которого вектор скорости V движения изображающей точки в каждый момент времени максимально совпадал бы с нормалью к изоповерхностям, т. е. с вектором г), направленным в каждой точке фазового пространства в сторону наибыстрейшего убывания функции Q. При решении задачи оптимального управления на практике не определяют изоповерхности, а находят векторы ф. В связи с этим, кроме основных переменных, т. е. я + 1 фазовых координат х0, х1г ... х„ и г управляющих воздействий их, иг, иг, необходимо определить я + 1 «вспомогательных» переменных ф0, Фх. •-■» *l>n> т- е-необходимо определить всего 2 (я -f 1) + г переменных. Для этого следует иметь столько же соотношений. Имеем (я + 1) уравнений объекта: x0 = G(x, «) = /0(х, и); \ *i = fi (*• .*, = /,<*.»);(1112) *« = fn (х, U),) где х = (х,, х„), т. е. правая часть уравнений ие зависит от х0. При оптимальном управлении dH($,x,u)/dut=0, 1 = 1, 2,(11.13) что дает еще г соотношений между неизвестными переменными. 0 ... 115 116 117 118 119 120 121 ... 143
|