Методы с суженной матрицей Гессе как возмущенный метод Ньютона–Лагранжа

Cover Page

Cite item

Full Text

Abstract

For an equality-constrained optimization problem, we consider the possibility to interpret sequential quadratic programming methods employing the Hessian of the Lagrangian reduced to the null space of the constraints’ Jacobian, as a perturbed Newton–Lagrange method. We demonstrate that such interpretation with required estimates on perturbations is possible for certain sequences generated by variants of these methods making use of second-order corrections. This allows to establish, from a general perspective, superlinear convergence of such sequences, the property generally missing for the main sequences of the methods in question.

Full Text

Введение

Методы последовательного квадратичного программирования, использующие вместо настоящей (полной) матрицы Гессе функции Лагранжа ее суженную на ядро матрицы Якоби ограничений версию, направлены на снижения стоимости итерации таких методов, и являются важным инструментом практической условной оптимизации. В данной работе обсуждается возможность интерпретации таких методов как возмущенного метода Ньютона для системы уравнений Лагранжа. Будет показано, что такая интерпретация с нужными оценками на возмущения возможна для определенных последовательностей, генерируемых вариантами метода с поправками второго порядка. Это позволяет с общих позиций установить сверхлинейную скорость сходимости таких последовательностей, вообще говоря отсутствующую для основных последовательностей рассматриваемых методов.

Рассматривается задача оптимизации с ограничениями-равенствами

f(x)min,h(x)=0, (0.1)

где f:n и h:nl дважды дифференцируемы вблизи x¯n. Метод последовательного квадратичного программирования для задачи (0.1) состоит в следующем [1, разд. 18.1], [2, разд. 4.3.1, 4.4.1], [3, разд. 4.1.1]: для текущего приближения (xk,λk)n×l следующее приближение определяется как (xk+1,λk+1), где xk+1=xk+ξk, ξk является стационарной точкой квадратичной задачи

f'(xk),ξ+122Lx2(xk,λk)ξ,ξmin,h(xk)+h'(xk)ξ=0, (0.2)

а λk+1 — отвечающим этой стационарной точке множителем Лагранжа. Здесь L:n×l — функция Лагранжа задачи (0.1):

L(x,λ)=f(x)+λ,h(x).

Система уравнений Лагранжа задачи (0.2), характеризующая ее стационарные точки и отвечающие им множители, имеет вид

f'(xk)+2Lx2(xk,λk)ξ+(h'(xk))Tλ=0,h(xk)+h'(xk)ξ=0. (0.3)

Отсюда следует, что итерация метода последовательного квадратичного программирования есть ни что иное, как итерация метода Ньютона–Лагранжа, т. е. метода Ньютона, применяемого к системе уравнений Лагранжа

Lx(x,λ)=0,h(x)=0 (0.4)

исходной задачи (0.1): уравнения в (0.3) получаются линеаризацией в текущем приближении (xk,λk) уравнений из (0.4).

Методы последовательного квадратичного программирования обладают характерной для ньютоновских методов сверхлинейной локальной сходимостью в естественных предположениях, и относятся к числу наиболее эффективных вычислительных технологий для задач условной оптимизации, и являются основой многих успешных оптимизационных солверов общего назначения. Однако, в своей базовой форме, итерация этих методов может быть весьма затратной, в частности, в связи с необходимостью вычисления полной матрицы Гессе функции Лагранжа, либо ее все более точных (по мере роста номера итерации) аппроксимаций.

Точнее, согласно 3предложение 4.4], для сохранения сверхлинейной скорости сходимости генерируемой прямой последовательности {xk} к стационарной точке x¯n задачи (0.1) (при наличии сходимости прямодвойственной последовательности {(xk,λk)} к (x¯,λ¯), где λ¯l — некоторый отвечающий x¯ множитель Лагранжа) должны удовлетворять итерационной системе

f'(xk)+2Lx2(xk,λk)(xxk)+(h'(xk))Tλ+ω1k=0,h(xk)+h'(xk)(xxk)+ω2k=0, (0.5)

возмущенного метода Ньютона–Лагранжа, получаемой добавлением к уравнениям в (0.3) параметров возмущения ω1kn и ω2kl, которые должны удовлетворять оценкам

Pω1k=o(xk+1xk+xkx¯), (0.6)

ω2k=o(xk+1xk+xkx¯) (0.7)

при k см. [3, (4.12), (4.13)]. Здесь P — оператор ортогонального проектирования на kerh'(x¯). Более того, при выполнении в стационарной точке x¯ с множителем λ¯ достаточного условия второго порядка оптимальности оценки (0.6), (0.7) являются и достаточными для сверхлинейной сходимости.

Методы с суженной матрицей Гессе, рассматриваемые в данной работе, позволяют избежать необходимости вычисления полной матрицы Гессе функции Лагранжа, поскольку на их итерациях используется только вводимая в разд. 1 так называемая суженная матрица Гессе, размерность которой определяется размерностью kerh'(xk), что может быть (и обычно является) гораздо меньшим числом, чем n. Интерпретация этих методов как возмущенного метода Ньютона–Лагранжа не позволяет получить оценки (0.6), (0.7), и действительно, как демонстрирует пример, предложенный в [4] (см. пример 2.1 ниже), эти методы, вообще говоря, обладают лишь двухшаговой сверхлинейной скоростью сходимости, что является более слабым свойством, чем обычная (одношаговая) сверхлинейная скорость сходимости. (Отметим также аналогичный пример, построенный в [5]. Однако, корректность его конструкции и приведенные численные результаты вызывают определенные сомнения, главным образом в связи с очевидной ошибочностью выражений для производных по первой переменной в (2.14).)

Вместе с тем, как будет показано в разд. 2, если снабдить метод так называемыми поправками второго порядка, предназначенными для того, чтобы генерируемые прямые приближения были ближе к допустимому множеству задачи (0.1), то получаемый процесс можно интерпретировать как возмущенный метод Ньютона–Лагранжа с требуемыми оценками (0.6), (0.7), но не для основной последовательности метода, а для некоторой последовательности вспомогательных приближений, также генерируемых методом. Это позволяет получить новое общее понимание результата о сверхлинейной скорости сходимости последовательности таких вспомогательных приближений, доказанного в [6].

1. Методы с суженной матрицей Гессе

Обозначим через Pk оператор ортогонального проектирования на kerh'(xk), и для всякого ξn будем использовать разложение ξ=ξ1+ξ2, ξ1=(IPk)ξ, ξ2=Pkξ. Тогда ограничение в (0.2) принимает вид

h(xk)+h'(xk)ξ1=0, (1.1)

и если rankh'(xk)= (условие, которое всюду далее предполагается выполненным), то это уравнение однозначно определяет

ξ1k=(h'(xk))T(h'(xk)(h'(xk))T)1h(xk) (1.2)

как единственное нормальное решение уравнения в ограничении задачи (0.2). Фиксируя это ξ1k, из (2) получаем задачу для определения ξ2k:

f'(xk)+2Lx2(xk,λk)ξ1k,ξ2+122Lx2(xk,λk)ξ2,ξ2min,ξ2kerh'(xk). (1.3)

Ключевой момент в конструкции методов с суженной матрицей Гессе состоит в том, что слагаемое в (1.3), содержащее ξ1k и ξ2, опускается. Используя равенство ξ2=Pkξ, так модифицированная задача (1.3) вместе с уравнением (1.1) сводится к задаче

f'(xk),ξ+12P2Lx2(xk,λk)Pξ,ξmin,h(xk)+h'(xk)ξ=0, (1.4)

записанной снова относительно исходной переменной ξ задачи (0.2).

Чтобы привести задачу (1.4) к более «практической» форме, потребуется конкретное представление проектора Pk. Пусть столбцы матрицы Zk размеров n×(nl) образуют некоторый базис линейного подпространства kerh'(xk). (Напомним, что предполагается выполненным условие rankh'(xk)=l, и значит, dimkerh'(xk)=nl.) Тогда, как нетрудно видеть, Pk=Zk(ZkTZk)1ZkT, и задача (1.4) принимает вид

f'(xk),ξ+12Zk(ZkTZk)1Hk(ZkTZk)1ZkTξ,ξmin,h(xk)+h'(xk)ξ=0, (1.5)

где симметричная (nl)×(nl) матрица

Hk=ZkT2Lx2(xk,λk)Zk (1.6)

и есть суженная матрица Гессе функции Лагранжа.

Если столбцы матрицы Zk образуют ортонормированную систему, то ZkTZk=I, Pk=ZkZkT, и задача (1.5) принимает вид

f'(xk),ξ+12ZkHkZkTξ,ξmin,h(xk)+h'(xk)ξ=0. (1.7)

Это в точности соответствует подзадаче, использованной в [7, (1.2)]. Заметим, что указанное свойство столбцов матрицы Zk всегда выполняется, если матрица (YkZk) с некоторой n×l матрицей Yk получена QR-факторизацией (h'(xk))T, что дает практический способ вычисления Zk [1, разд. 15.3]. При этом столбцы Yk образуют ортонормированный базис в (kerh'(xk)), и IPk=YkYkT.

Из сказанного выше ясно, что подзадача (1.4), а значит, и ее «практические» версии (1.5) и (1.7), отличаются от подзадачи (0.2) базового метода последовательного квадратичного программирования по существу только отсутствием в целевой функции слагаемого, содержащего оба ξ1 и ξ2. В частности, эти методы совпадают, если для каждого k

2Lx2(xk,λk)ξ1,ξ2=0ξn

(факт, отмеченный в [7, с. 286]). Если же

2Lx2(x¯,λ¯)ξ1,ξ2=0ξn (1.8)

для предельной пары (x¯,λ¯), то методы, вообще говоря, не совпадают, но методы с суженной матрицей Гессе могут быть интерпретированы как возмущенный метод Ньютона–Лагранжа с требуемыми оценками (0.6), (0.7) (см. разд. 2), а значит, имеют в соответствующих предположениях сверхлинейную скорость сходимости (что соответствует сказанному в [5, с. 231]).

f'(xk),ξ+12Hkξ,ξmin,h(xk)+h'(xk)ξ=0, (1.9)

в которой используется матрица Hk, задаваемая равенством

(ZkYk)THk(ZkYk)=(Hk00I),

где Hk введено в (13). Если столбцы Zk и Yk ортонормированы, то

(ZkYk)(ZkYk)T=ZkZkT+YkYkT=I,

и поэтому

Hkξ,ξ=Hk(ZkYk)(ZkYk)Tξ,(ZkYk)(ZkYk)Tξ=(ZkYk)THk(ZkYk)(ZkYk)Tξ,(ZkYk)Tξ=(HkZkTξ,YkTξ),(ZkTξ,YkTξ)=ZkHkZkTξ,ξ+YkTξ,YkTξ,              (1.10)

причем

YkTξ,YkTξ=YkTYkYkTξ,YkTξ=YkYkTξ,YkYkTξ=(IPk)ξ2=ξ12.

Вспоминая, что, как обсуждалось выше, ξ1k однозначно определяется ограничением в (1.7), а значит и идентичным ему в (1.9), отсюда получаем, что второе слагаемое в правой части (1.10) не играет в целевой функции подзадачи (1.9) никакой роли, и эта подзадача сводится к (1.7).

Далее, умножением обеих частей первого уравнения в системе Лагранжа

f'(xk)+ZkHkZkTξ+(h'(xk))Tλ=0,h(xk)+h'(xk)ξ=0 (1.11)

задачи (1.7) на ZkT, необходимые условия первого порядка оптимальности для этой задачи могут быть записаны в следующей «прямой» форме, не использующей λ:

ZkTf'(xk)+HkZkTξ=0,h(xk)+h'(xk)ξ=0, (1.12)

откуда следует выполнение равенства (1.2), а в дополнительном предположении о невырожденности Hk и равенства

ZkTξ2k=Hk1ZkTf'(xk).

Последнее также можно записать в виде явного выражения

ξ2k=Pkξ2k=ZkZkTξ2=ZkHk1ZkTf'(xk). (1.13)

Вместе с тем, умножая обе части первого уравнения в (1.11) на YkT, получаем

YkTf'(xk)+YkT(h'(xk))Tλ=0, (1.14)

Дальнейшее умножение на Yk приводит это уравнение к «инвариантому» виду

(IPk)f'(xk)+(h'(xk))Tλ=0

(поскольку (IPk)(h'(xk))T=(h'(xk)(IPk))T=(h'(xk))T), не зависящему от выбора Yk. Если взять, например, Yk=(h'(xk))T, что обеспечивается требуемую здесь базисность столбцов этой матрицы в kerh'(xk) (но, разумеется, не их ортонормированность), то из (1.14) получаем уравнение

h'(xk)Tf'(xk)+h'(xk)(h'(xk))Tλ=0. (1.15)

Отсюда следует явное выражение

λk+1=(h'(xk)(h'(xk))T)1h'(xk)f'(xk). (1.16)

Это соответствует [7, (2.13)], где, правда, xk заменяется на xk+1: λk+1 (и xk+1) используются для определения Hk+1, и это возможно, поскольку здесь, в отличие от обычного метода Ньютона–Лагранжа, итерация естественным образом разделяется на прямую и двойственную фазы. Использование (1.16) также соответствует выбору λk+1 как решения задачи квадратичной задачи безусловной оптимизации

f'(xk)+(h'(xk))Tλ2min

относительно λl. Существуют и другие способы задания λk+1, например [7, (2.14)], где, впрочем, этот способ приводится без объяснения его происхождения.

Уравнения (1.12) и (1.15), порождающие явные выражения (1.2), (1.13) и (1.16), характеризуют класс методов последовательного квадратичного программирования, в форме методов Ньютона–Лагранжа, с суженной матрицей Гессе. В частности, (1.12) соответствует методу в [5, (1.5), (1.6)], который, в свою очередь, был взят из [8, алгоритм 4.1], где, собственно, и была установлена двухшаговая сверхлинейная сходимость методов такого типа. См. также [9, (14.41), теорема~14.7]. Следует также упомянуть так называемый «горизонтально-вертикальный» алгоритм из [10], который также рассматривался в [4](cм. также [9, (14.40)]): в нем используются выражения (1.2), (1.13), но только сначала вычисляется ξ2k согласно (1.13), и затем ξ1k согласно (1.2), где вместо h(xk) используется h(xk+ξ2k).

Разные варианты методов указанного класса могут отличаться способами выбора Zk. Кроме того, важнейшее значение имеют методы, использующие не саму суженную матрицу Гессе из (1.6), а ее аппроксимации, и прежде всего квазиньютоновские. Эти вопросы обсуждаются [8] и в последующих цитированных публикациях, но здесь они не рассматриваются.

В некоторых изложениях (см., например, [1, разд. 18.3]) методов с суженной матрицей Гессе используют представления ξ1=Ykη и ξ2=Zkζ, где ηl и ζnl однозначно определяются. Если столбцы Zk ортонормированы, то, подставляя эти выражения в (1.12), получаем уравнения ZkTf'(xk)+Hkζ=0,h(xk)+h'(xk)Ykη=0,

для определения η и ζ.

2. Методы с поправками второго порядка

Помимо метода из [10], обсуждавшегося в [4], в [6] рассматривается вариант метода последовательного квадратичного программирования с суженной матрицей Гессе, снабженный так называемыми поправками второго порядка [1, разд. 15.6], [2, разд. 5.4.2], [3, разд. 4.3.6, 6.2.2]. А именно, следующее приближение определяется равенством xk+1=xk+ξk+ξ¯k, где ξk — стационарная точка подзадачи (1.7), т. е. решение системы (1.12), а ξ¯k — нормальное решение уравнения

h(xk+ξk)+h'(xk)ξ=0, (2.1)

т. е.

ξ¯k=(h'(xk))T(h'(xk)(h'(xk))T)1h(xk+ξk). (2.2)

Заметим, что при этом ξ¯kim(h'(xk))T=(kerh'(xk)), т. е. ξ¯2k=0. Новое двойственное приближение λk+1 по-прежнему определяется уравнением (1.15).

Лемма 2.1. Пусть функция f:n и отображение h:nl дважды непрерывно дифференцируемы вблизи точки x¯n. Пусть x¯ является стационарной точкой задачи (0.1), а λ¯l — отвечающим ей множителем Лагранжа, причем выполнено условие регулярности ограничений rankh'(x¯)=l и достаточное условие второго порядка оптимальности

2Lx2(x¯,λ¯)ξ,ξ>0ξkerh'(x¯)\{0}. (2.3)

Пусть последовательность {(xk,λk)}, сгенерированная описанной выше процедурой, сходится к (x¯,λ¯).

Тогда

ξk=O(xkx¯), (2.4)

h(xk+ξk)=O(xkx¯2), (2.5)

ξ¯k=O(xkx¯2), (2.6)

при k. 

Доказательство. Оценка (2.4) следует из (1.2) и (1.13), поскольку в сделанных предположениях матрицы h'(xk)(h'(xk))T и Hk равномерно обратимы для (xk,λk) достаточно близких к (x¯,λ¯).

Кроме того, в силу второго уравнения в (1.12),

h(xk+ξk)=h(xk)+h'(xk)ξk+O(ξk2)=O(ξk2),

и поэтому, согласно (2.2),

ξ¯k=O(h(xk+ξk))=O(ξk2).

Из последних двух оценок и из (2.4) следуют оценки (2.5), (2.6).

Согласно первому равенству в (0.5), используя представление Pk=ZkZkT и оценку (2.6), выводим

Pkω1k=Pk(f'(xk)+2Lx2(xk,λk)(ξk+ξ¯k)+(h'(xk))Tλk+1)=Zk(ZkTf'(xk)+ZkT2Lx2(xk,λk)ZkZkTξk+ZkT2Lx2(xk,λk)ξ1k)+O(xkx¯2)=Pk2Lx2(xk,λk)ξ1k+O(xkx¯2), (2.7)

где в последнем равенстве использовано определение Hk в (1.6) и первое уравнение в (1.12). Заметим, что в обеих частях этой оценки Pk можно заменить на P, поскольку

PkP=O(xkx¯) (2.8)

при k. Это следует, например, из явного представления

Pk=(I(h'(xk))T(h'(xk)(h'(xk))T)1h'(xk) (2.9)

и равномерной обратимости матриц (h'(xk)(h'(xk))T для xk близких к x¯.

Далее, согласно второму равенству в (0.5), используя второе уравнение в (1.12), (2.1), и оценку (2.5), выводим

ω2k=h(xk)h'(xk)(ξk+ξ¯k)=h'(xk)ξ¯k=h(xk+ξk)=O(xkx¯2).

Таким образом, оценка (0.7) имеет место, а вот (0.6) можно гарантировать лишь при выполнении (1.8), причем эти рассуждения тем более проходят и при использовании ξ¯k=0, т. е. сделанные выводы верны как для метода без поправок второго порядка, так и с такими поправками. В частности, гарантировать сверхлинейную скорость сходимости последовательности {xk} по-прежнему нельзя и для метода с поправками второго порядка.

Теперь обратимся к поведению последовательности {x~k}, генерируемой по правилу

x~k+1=xk+ξk=xk1+ξk1+ξ¯k1+ξk=x~k+ξ¯k1+ξk.

Иными словами, будем рассматривать следующий двухшаговый процесс:

xk10.5emx~k=xk1+ξk10.5emxk=x~k+ξ¯k1=xk1+ξk1+ξ¯k10.5emx~k+1=xk+ξk=x~k+ξ¯k1+ξk.

Из оценок в лемме 2.1 вытекает, что последовательности {x~k} сходится к тому же пределу x¯, что и последовательность {xk}.

Помимо оценок из леммы 2.1, приведем некоторые дополнительные оценки на ингредиенты рассматриваемого итерационного процесса, следующие из [6, леммы 3.1, 3.3].

Лемма 2.2. В предположениях леммы 2.1

ξ¯k1=O(x~kx¯), (2.10)

h'(xk)ξk=o(x~kx¯) (2.11)

при k. 

Теорема 2.1. В предположениях леммы 2 для

ω~1k=f'(xk)2Lx2(x~k,λk)(x~k+1x~k)(h'(x~k))Tλk+1 (2.12)

и

ω~2k=h(x~k)h'(x~k)(x~k+1x~k) (2.13)

выполняются оценки

Pω~1k=o(x~kx¯), (2.14)

ω~2k=o(x~kx¯) (2.15)

при k, и, в частности, последовательность {x~k} сходится к x¯ со сверхлинейной скоростью.

Последнее утверждение теоремы согласуется с [6, теорема 3.5].

Доказательство. Согласно (2.12), привлекая теорему о среднем, выводим

Pkω~1k=Pk(f'(xk1+ξk1)+2Lx2(xk1+ξk1,λk)(ξ¯k1+ξk)+(h'(xk1+ξk1))Tλk+1)=Pk(Lx(xk1+ξk1,λk)+2Lx2(xk,λk)(ξ¯k1+ξk)+(h'(xk))T(λk+1λk))+O(ξkξ¯k1)+O(λk+1λkξ¯k1)+O(ξ¯k12)=Pk(Lx(xk1+ξk1+ξ¯k1,λk)Lx(xk1+ξk1,λk)2Lx2(xk,λk)ξ¯k1)Pk(Lx(xk1+ξk1+ξ¯k1,λk)+2Lx2(xk,λk)ξk)

+O(ξkξ¯k1)+O(λk+1λkξ¯k1)+O(ξ¯k12)=Pk(Lx(xk,λk)+2Lx2(xk,λk)ξk)+O(ξkξ¯k1)+O(λk+1λkξ¯k1)+O(ξ¯k12)=Pk(f'(xk)+2Lx2(xk,λk)ξk+(h'(xk))Tλk)+O(ξkξ¯k1)+O(λk+1λkξ¯k1)+O(ξ¯k12)=Pk2Lx2(xk,λk)ξ1k+O(ξkξ¯k1)+O(λk+1λkξ¯k1)+O(ξ¯k12),

где последнее равенство выводится по аналогии с (2.7). Замечая, что согласно (2.9),

ξ1k=(IPk)ξk=(h'(xk))T(h'(xk)(h'(xk))T)1h'(xk)ξk,

отсюда и из оценок (2.10), (2.11) следует оценка

Pkω~1k=o(x~kx¯). (2.16)

Принимая во внимание (2.8) и вытекающую из (2.10) оценку,

xkx¯=x~kx¯+ξ¯k1=O(x~kx¯),

имеем

PkP=O(x~kx¯),

откуда и из (2.16) следует оценка (2.14).

Далее, согласно (2.13), используя (2.1), выводим

ω~2k=h(xk1+ξk1)h'(xk1+ξk1)(ξ¯k1+ξk)=h(xk1+ξk1)h'(xk1)ξ¯k1(h'(xk1+ξk1)h'(xk1))ξ¯k1h'(xk1+ξk1)ξk=(h'(xk1+ξk1)h'(xk))ξkh'(xk)ξk+O(ξk1ξ¯k1)=h'(xk)ξk+O(ξk1ξ¯k1)+O(ξkξ¯k1),

откуда и из оценок (2.10), (2.11) следует оценка (2.15).

Последнее утверждение теоремы вытекает из полученных оценок (2.14), (2.15) и из[3, предложение 4.4].

Следующий пример был предложен в [4, пример 2].

Пример 2.1. Рассмотрим задачу (0.1), в которой n=2, l=1,

f(x)=12x12αx1x2+12x22+13α(x1α)3,

h(x)=1(x22)21,  

где α — вещественный параметр. Вблизи локального решения x¯=(α,1) такие f и h бесконечно дифференцируемы, причем в этом решении выполняется условие регулярности rankh'(x¯)=l (поскольку h'(x¯)=0) и достаточное условие второго порядка оптимальности (2.3) с единственным отвечающим x¯ множителем Лагранжа λ¯=α21.  

В таблицах 1, 2 для каждой итерации  и полученного на ней приближения (xk,λk) (и x~k для метода с поправками второго порядка) приводятся следующие сведения: 

  • “Pert” есть величина Pkω1k1/(xkxk1+xk1x¯) (см. (6); нормы везде евклидовы);
  • “Res” есть невязка системы Лагранжа (4);
  • “Dist” есть расстояние xkx¯ до прямого решения;
  • “PR” (от “primal ratio”) есть величина xkx¯/xk1x¯;
  • “PDR” (от “primal-dual ratio”) есть величина (xkx¯,λkλ¯)/(xk1x¯,λk1λ¯);
  • “PR-SOC” есть величина x~kx¯/x~k1x¯ (для метода с поправками второго порядка).

 

Таблица 1. Численные результаты для примера 2.1: метод без поправок второго порядка

   k

 Pert

 Res

 Dist

 PR

 PDR

  0

 –

 5.8e+0

 1.0e-1

 –

 –

 1

 7.4e-1

 6.7e+0

 5.0e-1

 5.0e+0

 4.7e+1

 2

 4.9e-2

 2.0e+0

 1.0e-4

 2.0e-4

 4.2e-1

 3

 8.2e-1

 7.4e-3

 5.0e-4

 5.0e+0

 2.5e-3

 4

 5.0e-5

 2.5e-3

 9.2e-16

 1.8e-12

 5.1e-1

 5

 9.7e-1

 1.1e-14

 8.9e-16

 9.7e-1

 2.9e-12

 6

 0

 3.6e-15

 0.0e+0

 0.0e+0

 5.0e-1

 

Таблица 2. Численные результаты для примера 2.1: метод с поправками второго порядка

   k

 Pert

 Res

 Dist

 PR

 PDR

 PR-SOC

  0

 –

 5.8e+0

 1.0e-1

 –

 –

 –

 1

 7.4e-1

 7.1e+0

 5.0e-1

 5.0e+0

 4.7e+1

 –

 2

 8.6e-3

 2.7e+0

 5.1e-2

 1.0e-1

 5.1e-1

 5.1e-2

 3

 5.9e-7

 2.5e-1

 5.1e-4

 1.0e-2

 1.0e-1

 8.5e-4

 4

 0.0e+0

 2.5e-3

 5.3e-8

 1.0e-4

 1.0e-2

 1.0e-6

 5

 0.0e+0

 2.6e-7

 8.9e-16

 1.7e-8

 1.0e-4

 1.7e-12

 6

 0.0e+0

 3.6e-15

 0.0e+0

 0.0e+0

 1.4e-8

 0.0e+0

 

Результаты в таблицах 1, 2 получены с использованием α=5 и начального приближения x0=x¯+(0,0.1), λ0=λ¯.  

Таблица 1 демонстрирует наличие у метода последовательного квадратичного программирования с суженной матрицей Гессе двухшаговой сверхлинейной сходимости, но отсутствие настоящей сверхлинейной сходимости: на каждой второй итерации расстояние до прямого решения (см. столбцы “Dist” и “PR”) возрастает, по крайней мере пока приближения не попадают в достаточно малую окрестность решения, где существенную роль начинают играть ошибки округления. Это согласуется с поведением величин в столбце “Pert”.

Согласно таблице 2, для варианта метода с поправками второго порядка очевидно имеет место сверхлинейная (квадратичная) сходимость последовательности {x~k} (столбец “PR-SOC”). Основная последовательность {xk} здесь тоже асимптотически сходится сверхлинейно (и даже квадратично; столбцы “Dist” и “PR”). Вместе с тем, шаг из точки x0 в точку x1 увеличивает расстояние до решения (примерно в 5 раз; столбцы “Dist” и “PR”), и эта ситуация сохраняется, каким бы близким x0 не было к x¯. Это является свидетельством принципиальных трудностей доказательства сверхлинейной сходимости основной последовательности метода последовательного квадратичного программирования с суженной матрицей Гессе, снабженного поправками второго порядка. Вместе с тем, примеры, демонстрирующие отсутствие сверхлинейной сходимости таких последовательностей, авторам не известны.

×

About the authors

Andrey A. Volkov

Lomonosov Moscow State University

Email: and_rei99@mail.ru

Master, Operations Research Department

Russian Federation, 1 Leninskiye Gory, Moscow 119991

Alexey F. Izmailov

Lomonosov Moscow State University

Author for correspondence.
Email: izmaf@cs.msu.ru
ORCID iD: 0000-0001-9851-0524

Doctor of Physical and Mathematical Sciences, Professor of the Operations Research Department

Russian Federation, 1 Leninskiye Gory, Moscow 119991

Evgeniy I. Uskov

Derzhavin Tambov State University

Email: euskov@cs.msu.ru
ORCID iD: 0000-0002-3639-0317

Researcher

Russian Federation, 33 Internatsionalnaya St., Tambov 392000

References

  1. J. Nocedal, S. J. Wright, Numerical Optimization, 2nd ed., Springer, New York, 2006.
  2. А. Ф. Измаилов, М. В. Солодов, Численные методы оптимизации, 2-е изд., перераб. и доп., Физматлит, М., 2008. [A. F. Izmailov, M. V. Solodov, Chislenniye Metody Optimizatzii, Fizmatlit Publ., Moscow, 2008 (In Russian)].
  3. A. F. Izmailov, M. V. Solodov, Newton-Type Methods for Optimization and Variational Problems, Springer Series in Operations Research and Financial Engineering, Springer, Cham, 2014.
  4. R. H. Byrd, “An example of irregular convergence in some constrained optimization methods that use the projected Hessian”, Mathematical Programming, 32 (1985), 232–237.
  5. Y. Yuan, “An only 2-step Q-superlinear convergence example for some algorithms that use reduced Hessian approximations”, Mathematical Programming, 32 (1985), 224–231.
  6. R. H. Byrd, “On the convergence of constrained optimization methods with accurate Hessian information on a subspace”, SIAM J. on Numerical Analysis, 27 (1990), 141–153.
  7. R. H. Byrd, J. Nocedal, “An analysis of reduced Hessian methods for constrained optimization”, Mathematical Programming, 49 (1990), 285–323.
  8. J. Nocedal, M. L. Overton, “Projected Hessian updating algorithms for nonlinearly constrained optimization”, SIAM J. on Numerical Analysis, 22 (1985), 821–850.
  9. J. F. Bonnans, J. Ch. Gilbert, C. Lemar´echal, C. Sagastiz´abal, Numerical Optimization: Theoretical and Practical Aspects, 2nd ed., Springer, Berlin, 2006.
  10. T. F. Coleman, A. R. Conn, “On the Local Convergence of a Quasi-Newton Method for a Nonlinear Programming Problem”, SIAM Journal on Numerical Analysis, 21:4 (1984).

Supplementary files

Supplementary Files
Action
1. JATS XML


Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».