Методы с суженной матрицей Гессе как возмущенный метод Ньютона–Лагранжа
- Authors: Volkov A.A.1, Izmailov A.F.1, Uskov E.I.2
-
Affiliations:
- Lomonosov Moscow State University
- Derzhavin Tambov State University
- Issue: Vol 29, No 145 (2024)
- Pages: 51-64
- Section: Original articles
- URL: https://journal-vniispk.ru/2686-9667/article/view/288680
- DOI: https://doi.org/10.20310/2686-9667-2024-29-145-51-64
- ID: 288680
Cite item
Full Text
Abstract
For an equality-constrained optimization problem, we consider the possibility to interpret sequential quadratic programming methods employing the Hessian of the Lagrangian reduced to the null space of the constraints’ Jacobian, as a perturbed Newton–Lagrange method. We demonstrate that such interpretation with required estimates on perturbations is possible for certain sequences generated by variants of these methods making use of second-order corrections. This allows to establish, from a general perspective, superlinear convergence of such sequences, the property generally missing for the main sequences of the methods in question.
Full Text
Введение
Методы последовательного квадратичного программирования, использующие вместо настоящей (полной) матрицы Гессе функции Лагранжа ее суженную на ядро матрицы Якоби ограничений версию, направлены на снижения стоимости итерации таких методов, и являются важным инструментом практической условной оптимизации. В данной работе обсуждается возможность интерпретации таких методов как возмущенного метода Ньютона для системы уравнений Лагранжа. Будет показано, что такая интерпретация с нужными оценками на возмущения возможна для определенных последовательностей, генерируемых вариантами метода с поправками второго порядка. Это позволяет с общих позиций установить сверхлинейную скорость сходимости таких последовательностей, вообще говоря отсутствующую для основных последовательностей рассматриваемых методов.
Рассматривается задача оптимизации с ограничениями-равенствами
(0.1)
где и дважды дифференцируемы вблизи Метод последовательного квадратичного программирования для задачи (0.1) состоит в следующем [1, разд. 18.1], [2, разд. 4.3.1, 4.4.1], [3, разд. 4.1.1]: для текущего приближения следующее приближение определяется как где является стационарной точкой квадратичной задачи
(0.2)
а — отвечающим этой стационарной точке множителем Лагранжа. Здесь — функция Лагранжа задачи (0.1):
Система уравнений Лагранжа задачи (0.2), характеризующая ее стационарные точки и отвечающие им множители, имеет вид
(0.3)
Отсюда следует, что итерация метода последовательного квадратичного программирования есть ни что иное, как итерация метода Ньютона–Лагранжа, т. е. метода Ньютона, применяемого к системе уравнений Лагранжа
(0.4)
исходной задачи (0.1): уравнения в (0.3) получаются линеаризацией в текущем приближении уравнений из (0.4).
Методы последовательного квадратичного программирования обладают характерной для ньютоновских методов сверхлинейной локальной сходимостью в естественных предположениях, и относятся к числу наиболее эффективных вычислительных технологий для задач условной оптимизации, и являются основой многих успешных оптимизационных солверов общего назначения. Однако, в своей базовой форме, итерация этих методов может быть весьма затратной, в частности, в связи с необходимостью вычисления полной матрицы Гессе функции Лагранжа, либо ее все более точных (по мере роста номера итерации) аппроксимаций.
Точнее, согласно 3предложение 4.4], для сохранения сверхлинейной скорости сходимости генерируемой прямой последовательности к стационарной точке задачи (0.1) (при наличии сходимости прямодвойственной последовательности к где — некоторый отвечающий множитель Лагранжа) должны удовлетворять итерационной системе
(0.5)
возмущенного метода Ньютона–Лагранжа, получаемой добавлением к уравнениям в (0.3) параметров возмущения и которые должны удовлетворять оценкам
(0.6)
(0.7)
при см. [3, (4.12), (4.13)]. Здесь P — оператор ортогонального проектирования на Более того, при выполнении в стационарной точке с множителем достаточного условия второго порядка оптимальности оценки (0.6), (0.7) являются и достаточными для сверхлинейной сходимости.
Методы с суженной матрицей Гессе, рассматриваемые в данной работе, позволяют избежать необходимости вычисления полной матрицы Гессе функции Лагранжа, поскольку на их итерациях используется только вводимая в разд. 1 так называемая суженная матрица Гессе, размерность которой определяется размерностью что может быть (и обычно является) гораздо меньшим числом, чем n. Интерпретация этих методов как возмущенного метода Ньютона–Лагранжа не позволяет получить оценки (0.6), (0.7), и действительно, как демонстрирует пример, предложенный в [4] (см. пример 2.1 ниже), эти методы, вообще говоря, обладают лишь двухшаговой сверхлинейной скоростью сходимости, что является более слабым свойством, чем обычная (одношаговая) сверхлинейная скорость сходимости. (Отметим также аналогичный пример, построенный в [5]. Однако, корректность его конструкции и приведенные численные результаты вызывают определенные сомнения, главным образом в связи с очевидной ошибочностью выражений для производных по первой переменной в (2.14).)
Вместе с тем, как будет показано в разд. 2, если снабдить метод так называемыми поправками второго порядка, предназначенными для того, чтобы генерируемые прямые приближения были ближе к допустимому множеству задачи (0.1), то получаемый процесс можно интерпретировать как возмущенный метод Ньютона–Лагранжа с требуемыми оценками (0.6), (0.7), но не для основной последовательности метода, а для некоторой последовательности вспомогательных приближений, также генерируемых методом. Это позволяет получить новое общее понимание результата о сверхлинейной скорости сходимости последовательности таких вспомогательных приближений, доказанного в [6].
1. Методы с суженной матрицей Гессе
Обозначим через оператор ортогонального проектирования на и для всякого будем использовать разложение Тогда ограничение в (0.2) принимает вид
(1.1)
и если (условие, которое всюду далее предполагается выполненным), то это уравнение однозначно определяет
(1.2)
как единственное нормальное решение уравнения в ограничении задачи (0.2). Фиксируя это из (2) получаем задачу для определения :
(1.3)
Ключевой момент в конструкции методов с суженной матрицей Гессе состоит в том, что слагаемое в (1.3), содержащее и опускается. Используя равенство так модифицированная задача (1.3) вместе с уравнением (1.1) сводится к задаче
(1.4)
записанной снова относительно исходной переменной задачи (0.2).
Чтобы привести задачу (1.4) к более «практической» форме, потребуется конкретное представление проектора Пусть столбцы матрицы размеров образуют некоторый базис линейного подпространства (Напомним, что предполагается выполненным условие и значит, ) Тогда, как нетрудно видеть, и задача (1.4) принимает вид
(1.5)
где симметричная матрица
(1.6)
и есть суженная матрица Гессе функции Лагранжа.
Если столбцы матрицы образуют ортонормированную систему, то и задача (1.5) принимает вид
(1.7)
Это в точности соответствует подзадаче, использованной в [7, (1.2)]. Заметим, что указанное свойство столбцов матрицы всегда выполняется, если матрица с некоторой матрицей получена QR-факторизацией что дает практический способ вычисления [1, разд. 15.3]. При этом столбцы образуют ортонормированный базис в и
Из сказанного выше ясно, что подзадача (1.4), а значит, и ее «практические» версии (1.5) и (1.7), отличаются от подзадачи (0.2) базового метода последовательного квадратичного программирования по существу только отсутствием в целевой функции слагаемого, содержащего оба и В частности, эти методы совпадают, если для каждого k.
(факт, отмеченный в [7, с. 286]). Если же
(1.8)
для предельной пары то методы, вообще говоря, не совпадают, но методы с суженной матрицей Гессе могут быть интерпретированы как возмущенный метод Ньютона–Лагранжа с требуемыми оценками (0.6), (0.7) (см. разд. 2), а значит, имеют в соответствующих предположениях сверхлинейную скорость сходимости (что соответствует сказанному в [5, с. 231]).
(1.9)
в которой используется матрица задаваемая равенством
где введено в (13). Если столбцы и ортонормированы, то
и поэтому
(1.10)
причем
Вспоминая, что, как обсуждалось выше, однозначно определяется ограничением в (1.7), а значит и идентичным ему в (1.9), отсюда получаем, что второе слагаемое в правой части (1.10) не играет в целевой функции подзадачи (1.9) никакой роли, и эта подзадача сводится к (1.7).
Далее, умножением обеих частей первого уравнения в системе Лагранжа
(1.11)
задачи (1.7) на необходимые условия первого порядка оптимальности для этой задачи могут быть записаны в следующей «прямой» форме, не использующей :
(1.12)
откуда следует выполнение равенства (1.2), а в дополнительном предположении о невырожденности и равенства
Последнее также можно записать в виде явного выражения
(1.13)
Вместе с тем, умножая обе части первого уравнения в (1.11) на получаем
(1.14)
Дальнейшее умножение на приводит это уравнение к «инвариантому» виду
(поскольку ), не зависящему от выбора Если взять, например, что обеспечивается требуемую здесь базисность столбцов этой матрицы в (но, разумеется, не их ортонормированность), то из (1.14) получаем уравнение
(1.15)
Отсюда следует явное выражение
(1.16)
Это соответствует [7, (2.13)], где, правда, заменяется на : (и ) используются для определения и это возможно, поскольку здесь, в отличие от обычного метода Ньютона–Лагранжа, итерация естественным образом разделяется на прямую и двойственную фазы. Использование (1.16) также соответствует выбору как решения задачи квадратичной задачи безусловной оптимизации
относительно Существуют и другие способы задания например [7, (2.14)], где, впрочем, этот способ приводится без объяснения его происхождения.
Уравнения (1.12) и (1.15), порождающие явные выражения (1.2), (1.13) и (1.16), характеризуют класс методов последовательного квадратичного программирования, в форме методов Ньютона–Лагранжа, с суженной матрицей Гессе. В частности, (1.12) соответствует методу в [5, (1.5), (1.6)], который, в свою очередь, был взят из [8, алгоритм 4.1], где, собственно, и была установлена двухшаговая сверхлинейная сходимость методов такого типа. См. также [9, (14.41), теорема~14.7]. Следует также упомянуть так называемый «горизонтально-вертикальный» алгоритм из [10], который также рассматривался в [4](cм. также [9, (14.40)]): в нем используются выражения (1.2), (1.13), но только сначала вычисляется согласно (1.13), и затем согласно (1.2), где вместо используется
Разные варианты методов указанного класса могут отличаться способами выбора Кроме того, важнейшее значение имеют методы, использующие не саму суженную матрицу Гессе из (1.6), а ее аппроксимации, и прежде всего квазиньютоновские. Эти вопросы обсуждаются [8] и в последующих цитированных публикациях, но здесь они не рассматриваются.
В некоторых изложениях (см., например, [1, разд. 18.3]) методов с суженной матрицей Гессе используют представления и где и однозначно определяются. Если столбцы ортонормированы, то, подставляя эти выражения в (1.12), получаем уравнения
для определения и
2. Методы с поправками второго порядка
Помимо метода из [10], обсуждавшегося в [4], в [6] рассматривается вариант метода последовательного квадратичного программирования с суженной матрицей Гессе, снабженный так называемыми поправками второго порядка [1, разд. 15.6], [2, разд. 5.4.2], [3, разд. 4.3.6, 6.2.2]. А именно, следующее приближение определяется равенством где — стационарная точка подзадачи (1.7), т. е. решение системы (1.12), а — нормальное решение уравнения
(2.1)
т. е.
(2.2)
Заметим, что при этом т. е. Новое двойственное приближение по-прежнему определяется уравнением (1.15).
Лемма 2.1. Пусть функция и отображение дважды непрерывно дифференцируемы вблизи точки Пусть является стационарной точкой задачи (0.1), а — отвечающим ей множителем Лагранжа, причем выполнено условие регулярности ограничений и достаточное условие второго порядка оптимальности
(2.3)
Пусть последовательность сгенерированная описанной выше процедурой, сходится к
Тогда
(2.4)
(2.5)
(2.6)
при
Доказательство. Оценка (2.4) следует из (1.2) и (1.13), поскольку в сделанных предположениях матрицы и равномерно обратимы для достаточно близких к
Кроме того, в силу второго уравнения в (1.12),
и поэтому, согласно (2.2),
Из последних двух оценок и из (2.4) следуют оценки (2.5), (2.6).
Согласно первому равенству в (0.5), используя представление и оценку (2.6), выводим
(2.7)
где в последнем равенстве использовано определение в (1.6) и первое уравнение в (1.12). Заметим, что в обеих частях этой оценки можно заменить на поскольку
(2.8)
при Это следует, например, из явного представления
(2.9)
и равномерной обратимости матриц для близких к
Далее, согласно второму равенству в (0.5), используя второе уравнение в (1.12), (2.1), и оценку (2.5), выводим
Таким образом, оценка (0.7) имеет место, а вот (0.6) можно гарантировать лишь при выполнении (1.8), причем эти рассуждения тем более проходят и при использовании т. е. сделанные выводы верны как для метода без поправок второго порядка, так и с такими поправками. В частности, гарантировать сверхлинейную скорость сходимости последовательности по-прежнему нельзя и для метода с поправками второго порядка.
Теперь обратимся к поведению последовательности генерируемой по правилу
Иными словами, будем рассматривать следующий двухшаговый процесс:
Из оценок в лемме 2.1 вытекает, что последовательности сходится к тому же пределу что и последовательность
Помимо оценок из леммы 2.1, приведем некоторые дополнительные оценки на ингредиенты рассматриваемого итерационного процесса, следующие из [6, леммы 3.1, 3.3].
Лемма 2.2. В предположениях леммы 2.1
(2.10)
(2.11)
при
Теорема 2.1. В предположениях леммы 2 для
(2.12)
и
(2.13)
выполняются оценки
(2.14)
(2.15)
при и, в частности, последовательность сходится к со сверхлинейной скоростью.
Последнее утверждение теоремы согласуется с [6, теорема 3.5].
Доказательство. Согласно (2.12), привлекая теорему о среднем, выводим
где последнее равенство выводится по аналогии с (2.7). Замечая, что согласно (2.9),
отсюда и из оценок (2.10), (2.11) следует оценка
(2.16)
Принимая во внимание (2.8) и вытекающую из (2.10) оценку,
имеем
откуда и из (2.16) следует оценка (2.14).
Далее, согласно (2.13), используя (2.1), выводим
откуда и из оценок (2.10), (2.11) следует оценка (2.15).
Последнее утверждение теоремы вытекает из полученных оценок (2.14), (2.15) и из[3, предложение 4.4].
Следующий пример был предложен в [4, пример 2].
Пример 2.1. Рассмотрим задачу (0.1), в которой
где — вещественный параметр. Вблизи локального решения такие f и h бесконечно дифференцируемы, причем в этом решении выполняется условие регулярности (поскольку ) и достаточное условие второго порядка оптимальности (2.3) с единственным отвечающим множителем Лагранжа
В таблицах 1, 2 для каждой итерации и полученного на ней приближения (и для метода с поправками второго порядка) приводятся следующие сведения:
- “Pert” есть величина (см. (6); нормы везде евклидовы);
- “Res” есть невязка системы Лагранжа (4);
- “Dist” есть расстояние до прямого решения;
- “PR” (от “primal ratio”) есть величина
- “PDR” (от “primal-dual ratio”) есть величина
- “PR-SOC” есть величина (для метода с поправками второго порядка).
Таблица 1. Численные результаты для примера 2.1: метод без поправок второго порядка
k | Pert | Res | Dist | PR | PDR |
0 | – | 5.8e+0 | 1.0e-1 | – | – |
1 | 7.4e-1 | 6.7e+0 | 5.0e-1 | 5.0e+0 | 4.7e+1 |
2 | 4.9e-2 | 2.0e+0 | 1.0e-4 | 2.0e-4 | 4.2e-1 |
3 | 8.2e-1 | 7.4e-3 | 5.0e-4 | 5.0e+0 | 2.5e-3 |
4 | 5.0e-5 | 2.5e-3 | 9.2e-16 | 1.8e-12 | 5.1e-1 |
5 | 9.7e-1 | 1.1e-14 | 8.9e-16 | 9.7e-1 | 2.9e-12 |
6 | 0 | 3.6e-15 | 0.0e+0 | 0.0e+0 | 5.0e-1 |
Таблица 2. Численные результаты для примера 2.1: метод с поправками второго порядка
k | Pert | Res | Dist | PR | PDR | PR-SOC |
0 | – | 5.8e+0 | 1.0e-1 | – | – | – |
1 | 7.4e-1 | 7.1e+0 | 5.0e-1 | 5.0e+0 | 4.7e+1 | – |
2 | 8.6e-3 | 2.7e+0 | 5.1e-2 | 1.0e-1 | 5.1e-1 | 5.1e-2 |
3 | 5.9e-7 | 2.5e-1 | 5.1e-4 | 1.0e-2 | 1.0e-1 | 8.5e-4 |
4 | 0.0e+0 | 2.5e-3 | 5.3e-8 | 1.0e-4 | 1.0e-2 | 1.0e-6 |
5 | 0.0e+0 | 2.6e-7 | 8.9e-16 | 1.7e-8 | 1.0e-4 | 1.7e-12 |
6 | 0.0e+0 | 3.6e-15 | 0.0e+0 | 0.0e+0 | 1.4e-8 | 0.0e+0 |
Результаты в таблицах 1, 2 получены с использованием и начального приближения
Таблица 1 демонстрирует наличие у метода последовательного квадратичного программирования с суженной матрицей Гессе двухшаговой сверхлинейной сходимости, но отсутствие настоящей сверхлинейной сходимости: на каждой второй итерации расстояние до прямого решения (см. столбцы “Dist” и “PR”) возрастает, по крайней мере пока приближения не попадают в достаточно малую окрестность решения, где существенную роль начинают играть ошибки округления. Это согласуется с поведением величин в столбце “Pert”.
Согласно таблице 2, для варианта метода с поправками второго порядка очевидно имеет место сверхлинейная (квадратичная) сходимость последовательности (столбец “PR-SOC”). Основная последовательность здесь тоже асимптотически сходится сверхлинейно (и даже квадратично; столбцы “Dist” и “PR”). Вместе с тем, шаг из точки в точку увеличивает расстояние до решения (примерно в 5 раз; столбцы “Dist” и “PR”), и эта ситуация сохраняется, каким бы близким не было к Это является свидетельством принципиальных трудностей доказательства сверхлинейной сходимости основной последовательности метода последовательного квадратичного программирования с суженной матрицей Гессе, снабженного поправками второго порядка. Вместе с тем, примеры, демонстрирующие отсутствие сверхлинейной сходимости таких последовательностей, авторам не известны.
About the authors
Andrey A. Volkov
Lomonosov Moscow State University
Email: and_rei99@mail.ru
Master, Operations Research Department
Russian Federation, 1 Leninskiye Gory, Moscow 119991Alexey F. Izmailov
Lomonosov Moscow State University
Author for correspondence.
Email: izmaf@cs.msu.ru
ORCID iD: 0000-0001-9851-0524
Doctor of Physical and Mathematical Sciences, Professor of the Operations Research Department
Russian Federation, 1 Leninskiye Gory, Moscow 119991Evgeniy I. Uskov
Derzhavin Tambov State University
Email: euskov@cs.msu.ru
ORCID iD: 0000-0002-3639-0317
Researcher
Russian Federation, 33 Internatsionalnaya St., Tambov 392000References
- J. Nocedal, S. J. Wright, Numerical Optimization, 2nd ed., Springer, New York, 2006.
- А. Ф. Измаилов, М. В. Солодов, Численные методы оптимизации, 2-е изд., перераб. и доп., Физматлит, М., 2008. [A. F. Izmailov, M. V. Solodov, Chislenniye Metody Optimizatzii, Fizmatlit Publ., Moscow, 2008 (In Russian)].
- A. F. Izmailov, M. V. Solodov, Newton-Type Methods for Optimization and Variational Problems, Springer Series in Operations Research and Financial Engineering, Springer, Cham, 2014.
- R. H. Byrd, “An example of irregular convergence in some constrained optimization methods that use the projected Hessian”, Mathematical Programming, 32 (1985), 232–237.
- Y. Yuan, “An only 2-step Q-superlinear convergence example for some algorithms that use reduced Hessian approximations”, Mathematical Programming, 32 (1985), 224–231.
- R. H. Byrd, “On the convergence of constrained optimization methods with accurate Hessian information on a subspace”, SIAM J. on Numerical Analysis, 27 (1990), 141–153.
- R. H. Byrd, J. Nocedal, “An analysis of reduced Hessian methods for constrained optimization”, Mathematical Programming, 49 (1990), 285–323.
- J. Nocedal, M. L. Overton, “Projected Hessian updating algorithms for nonlinearly constrained optimization”, SIAM J. on Numerical Analysis, 22 (1985), 821–850.
- J. F. Bonnans, J. Ch. Gilbert, C. Lemar´echal, C. Sagastiz´abal, Numerical Optimization: Theoretical and Practical Aspects, 2nd ed., Springer, Berlin, 2006.
- T. F. Coleman, A. R. Conn, “On the Local Convergence of a Quasi-Newton Method for a Nonlinear Programming Problem”, SIAM Journal on Numerical Analysis, 21:4 (1984).
Supplementary files
