Lagrange-Dualität

Die Lagrange-Dualität ist eine wichtige Dualität in der mathematischen Optimierung, die sowohl Optimalitätskriterien mittels der Karush-Kuhn-Tucker-Bedingungen oder der Lagrange-Multiplikatoren liefert als auch äquivalente Umformulierungen von Optimierungsproblemen möglich macht. Ziel ist es das ursprüngliche (primale) Problem in ein duales Problem zu überführen.

Lagrange-Funktion, duales Problem

Gegeben sei folgendes Optimierungsproblem:

{\begin{aligned}{\text{Minimiere }}&f(x)&\\{\text{unter den Nebenbedingungen }}&g_{i}(x)\leq 0&i=1,\dotsc ,p\\&h_{j}(x)=0&j=1,\dotsc ,q\\&x\in X&\end{aligned}}

Dabei kann die abstrakte Restriktion $x\in X$ beispielsweise Forderungen wie $x\in \mathbb {Z} ^{n}$ (Ganzzahligkeit) oder $x\in {\mathcal {K}}$ für einen Kegel ${\mathcal {K}}$ aufnehmen. Die auftretenden Funktionen müssen weder konvex noch differenzierbar sein.

Die Funktion

L(x,\lambda ,\mu ):=f(x)+\sum _{i=1}^{p}\lambda _{i}g_{i}(x)+\sum _{j=1}^{q}\mu _{j}h_{j}(x)

heißt dann die zu dem obigen Optimierungsproblem gehörende Lagrange-Funktion. Gelegentlich werden die Funktionen $g_{i},h_{j}$ sowie die Skalare $\lambda _{i},\mu _{j}$ zu Vektoren $g(x)=(g_{1}(x),\dots ,g_{p}(x))^{T},h(x)=(h_{1}(x),\dots ,h_{q}(x))^{T}$ und $\lambda =(\lambda _{1},\dots ,\lambda _{p})^{T},\mu =(\mu _{1},\dots ,\mu _{q})^{T}$ zusammengefasst. Die Lagrange-Funktion vereinfacht sich dann zu

L(x,\lambda ,\mu ):=f(x)+\lambda ^{T}g(x)+\mu ^{T}h(x).

$(\lambda ,\mu )$ werden duale Variablen oder Lagrange-Multiplikatoren genannt. Die Funktion

q(\lambda ,\mu )=\inf _{x\in X}L(x,\lambda ,\mu )

heißt dann die duale Funktion zu dem obigen Optimierungsproblem. Das Optimierungsproblem

{\begin{aligned}{\text{Maximiere }}&q(\lambda ,\mu )\\{\text{unter den Nebenbedingungen }}&\lambda \geq 0\end{aligned}}

heißt das duale Problem des obigen Optimierungsproblems. Dabei ist $\lambda \geq 0$ komponentenweise zu verstehen. Das ursprüngliche Problem wird dann auch als primales Problem bezeichnet. Im Allgemeinen muss die duale Funktion nicht reellwertig sein, sie kann durchaus auch den Wert $-\infty$ annehmen. Man definiert dann

\operatorname {dom} _{q}:=\{(\lambda ,\mu )\in \mathbb {R} ^{p}\times \mathbb {R} ^{q}\,|\,\lambda \geq 0,q(\lambda ,\mu )>-\infty \}

als den wesentlichen Definitionsbereich der dualen Funktion. Die dualen Variablen $(\lambda ,\mu )$ werden dual zulässig genannt, wenn sie zulässig bezüglich des dualen Problems sind, das heißt, wenn $\lambda \geq 0$ gilt.

Beispiel

Betrachtet man als Beispiel ein lineares Optimierungsproblem in Ungleichungsform:

{\begin{aligned}{\text{Minimiere }}&f(x)=c^{T}x\\{\text{unter den Nebenbedingungen }}&Ax-b\leq 0\end{aligned}}

Dabei ist $x,c\in \mathbb {R} ^{n}\,,b\in \mathbb {R} ^{m}$ und $A\in \mathbb {R} ^{m\times n}$ . Der Vollständigkeit halber setzt man $X=\mathbb {R} ^{n}$ , was in diesem Fall keine Einschränkung bedeutet. Die Lagrange-Funktion ist dann

L(x,\lambda )=c^{T}x+\lambda ^{T}(Ax-b)=(c^{T}+\lambda ^{T}A)x-\lambda ^{T}b

.

Ist $c^{T}=-\lambda ^{T}A$ , so ist $L(x,\lambda )$ unabhängig von $x$ und damit ist $\inf _{x\in X}L(x,\lambda )=-\lambda ^{T}b$ . Ist aber $c^{T}\neq -\lambda ^{T}A$ , so ist $L(x,\lambda )$ in eine Richtung nach unten unbeschränkt und demnach gilt $\inf _{x\in X}L(x,\lambda )=-\infty$ . Somit lautet die duale Funktion:

q(\lambda )={\begin{cases}-\lambda ^{T}b&{\text{ falls }}c^{T}+\lambda ^{T}A=0\\-\infty &{\text{ sonst }}\end{cases}}

Schreibt man nun die Fallunterscheidung aus der dualen Funktion als Nebenbedingung in das duale Problem, so erhält man:

{\begin{aligned}{\text{Maximiere }}&-\lambda ^{T}b\\{\text{unter den Nebenbedingungen }}&A^{T}\lambda +c=0\\&\lambda \geq 0\end{aligned}}

Dies ist genau ein lineares Optimierungsproblem in Standardform.

Eigenschaften des dualen Problems

Die Definitionsmenge $\operatorname {dom} _{q}$ der dualen Funktion ist konvex.
Die duale Funktion ist konkav. Für fixiertes ${\tilde {x}}$ ist $L({\tilde {x}},\lambda ,\mu )$ eine affine Funktion und damit ist $q(\lambda ,\mu )$ als punktweises Infimum von affinen Funktionen konkav. Somit ist das duale Problem immer ein konvexes Optimierungsproblem, unabhängig von der Struktur des primalen Problems.
Daher sind konvexe Optimierungsprobleme eine Klasse von Problemen, deren duales Problem wieder in derselben Problemklasse liegt. Weitere solche Klassen sind die lineare Optimierungsprobleme (siehe Beispiel), die konischen Programme sowie die semidefiniten Programme und die SOCPs.

Schwache Dualität

Sei $R_{P}$ die Restriktionsmenge des primalen Problems und $\operatorname {dom} _{q}$ die Definitionsmenge des dualen Problems. Dann gilt für alle $x\in R_{P}$ und $(\lambda ,\mu )\in \operatorname {dom} _{q}$

q(\lambda ,\mu )\leq f(x).

Der Wert $f(x)-q(\lambda ,\mu )$ heißt dann die Dualitätslücke (des zulässigen Punktes $(x,\lambda ,\mu )$ ). Die duale Funktion ist also immer eine untere Schranke für die Zielfunktion des primalen Problems. Somit lässt sich auch das duale Problem motivieren: Es stellt die Frage nach der größten unteren Schranke für das primale Problem, die noch zulässig ist.

Ist $P=f(R_{P})$ die Wertemenge des primalen Problems und $D=q(\operatorname {dom} _{q})$ die des dualen Problems, so gilt

\sup(D)\leq \inf(P)

.

Der Wert der dualen Optimallösung ist also stets kleiner als der Wert der primalen Optimallösung. Diese Aussage wird auch schwache Dualität genannt. Der Wert $\inf(P)-\sup(D)$ heißt dann die optimale Dualitätslücke.

Diese Aussagen folgen direkt aus

{\begin{aligned}q(\lambda ,\mu )&=\inf _{x\in X}L(x,\lambda ,\mu )\leq L({\tilde {x}},\lambda ,\mu )\\&=f({\tilde {x}})+\sum _{i=1}^{p}\lambda _{i}g_{i}({\tilde {x}})+\sum _{j=1}^{q}\mu _{j}h_{j}({\tilde {x}})\leq f({\tilde {x}})\quad {\text{für alle }}(\lambda ,\mu )\in \operatorname {dom} _{q}{\text{ und }}{\tilde {x}}\in R_{P}.\end{aligned}}

Dabei folgt die letzte Ungleichung, da $g_{i}({\tilde {x}})\leq 0$ und $h_{j}({\tilde {x}})=0$ (Zulässigkeit von ${\tilde {x}}$ ) und $\lambda _{i}\geq 0$ (Zulässigkeit von $\lambda$ ) und damit $\lambda _{i}g_{i}({\tilde {x}})\leq 0$ und $\mu _{i}h_{i}({\tilde {x}})=0$ . Da die Ungleichung für beliebige $(\lambda ,\mu )\in \operatorname {dom_{q}}$ und ${\tilde {x}}\in R_{P}$ gilt, folgen die beiden obigen Aussagen.

Starke Dualität

Unter gewissen Umständen stimmen der Optimalwert des primalen Problems und der des dualen Problems überein, die optimale Dualitätslücke ist also Null. Es gilt dann

\sup(D)=\inf(P)

.

Dieser Fall wird dann starke Dualität genannt. Gilt starke Dualität und ist der Optimalwert endlich und wird in $x^{*}$ bzw. $(\lambda ^{*},\mu ^{*})$ angenommen, so gilt:

\sup(D)=\inf(P)=f(x^{*})=q(\lambda ^{*},\mu ^{*})=L(x^{*},\lambda ^{*},\mu ^{*})

Im Allgemeinen gilt starke Dualität nicht, sondern es müssen noch weitere Regularitätsvoraussetzungen (im Englischen constraint qualifications) an das Problem erfüllt sein. Eine der wichtigsten Voraussetzungen für konvexe Optimierungsprobleme und fast-konvexe Funktionen, unter der starke Dualität gilt, ist zum Beispiel die Slater-Bedingung.

Komplementärer Schlupf

Gilt die starke Dualität, sind $x^{*}$ und $(\lambda ^{*},\mu ^{*})$ primal bzw. dual optimal und ist der Optimalwert endlich, so gilt die complementary slackness, auch komplementärer Schlupf genannt:

\lambda _{i}g_{i}(x^{*})=0{\text{ für alle }}i=1,\dotsc ,p

Ist der $i$ -te Lagrange-Multiplikator (die $i$ -te Ungleichungsrestriktion) ungleich null, so muss die $i$ -te Ungleichungsrestriktion (der $i$ -te Lagrange-Multiplikator) gleich null sein:

{\begin{aligned}\lambda _{i}>0\implies g_{i}(x^{*})=0\\g_{i}(x^{*})<0\implies \lambda _{i}=0\end{aligned}}

Dies folgt aus $\lambda _{i}\geq 0$ und $g_{i}(x^{*})\leq 0$ . Es muss also stets mindestens einer der beiden Faktoren null sein.

Sattelpunkte

Ein Punkt $(x^{*},\lambda ^{*},\mu ^{*})$ heißt ein Sattelpunkt der Lagrange-Funktion, wenn für alle $(x,\lambda ,\mu )$ mit $\lambda \geq 0$

L(x^{*},\lambda ,\mu )\leq L(x^{*},\lambda ^{*},\mu ^{*})\leq L(x,\lambda ^{*},\mu ^{*})

gilt. Äquivalent dazu ist

\inf _{x\in X}\sup _{(\lambda ,\mu )\in dom_{q}}L(x,\lambda ,\mu )=L(x^{*},\lambda ^{*},\mu ^{*})=\sup _{(\lambda ,\mu )\in dom_{q}}\inf _{x\in X}L(x,\lambda ,\mu ).

Dies bedeutet, dass $(\lambda ^{*},\mu ^{*})$ ein Maximum der Lagrange-Funktion für fixiertes $x^{*}$ und $x^{*}$ ein Minimum der Lagrange-Funktion für fixiertes $(\lambda ^{*},\mu ^{*})$ ist.

Es lässt sich zeigen, dass $(x^{*},\lambda ^{*},\mu ^{*})$ genau dann ein Sattelpunkt der Lagrange-Funktion ist, wenn $x^{*}$ primal optimal ist, $(\lambda ^{*},\mu ^{*})$ dual optimal ist und starke Dualität gilt.

Sattelpunkte spielen eine wichtige Rolle bei der Bestimmung von Optimalpunkten und schlagen eine Verbindung zu den Karush-Kuhn-Tucker-Bedingungen und den Lagrange-Multiplikatoren. Sind zum Beispiel alle beteiligten Funktionen stetig differenzierbar, so lässt sich aus dem Sattelpunktkriterium ableiten, dass an einem Optimalpunkt $x^{*}$

\nabla _{x}L(x^{*},\lambda ^{*},\mu ^{*})=0

gelten muss, da $x^{*}$ nach der Sattelpunktcharakterisierung $L(x,\lambda ^{*},\mu ^{*})$ minimiert. Diese Forderung findet sich zum Beispiel in den Karush-Kuhn-Tucker-Bedingungen zur Bestimmung eines Optimalpunktes und als notwendiges Optimalitätskriterium wieder.

Allgemeinere Formulierungen

Formulierung für Hilberträume

Betrachtet man ein Optimierungsproblem mit verallgemeinerten Ungleichungen zwischen reellen Hilberträumen (also reellen vollständigen Vektorräumen, die mit einem Skalarprodukt versehen sind), so ist dies meist von folgender Form:

{\begin{aligned}{\text{Minimiere }}&f(x)&\\{\text{unter den Nebenbedingungen }}&g_{i}(x)\preccurlyeq _{K_{i}}0&i=1,\dotsc ,p\\&h_{j}(x)=0&j=1,\dotsc ,q\\&x\in X&\end{aligned}}

Hierbei sind $f:V_{0}\mapsto \mathbb {R}$ die Zielfunktion, $g_{i}:V_{0}\mapsto V_{i}$ die Ungleichungsrestriktionsfunktionen und $h_{j}:V_{0}\mapsto V_{j}$ die Gleichheitsrestriktionsfunktionen. Die $V_{i}$ seien mit dem echten Kegel $K_{i}$ ausgestattet, der die verallgemeinerte Ungleichung $\preccurlyeq _{K_{i}}$ induziert. Das zum Vektorraum $V_{s}$ gehörende Skalarprodukt sei mit $\langle \cdot ;\cdot \rangle _{s}$ bezeichnet. Man setzt dann $\lambda :=(\lambda _{1},\dots ,\lambda _{p})^{T},\mu :=(\mu _{1},\dots ,\mu _{q})^{T}$ . Dabei gilt $\lambda _{i}\in V_{i}$ und $\mu _{j}\in V_{j}$ . Dann ist die Lagrange-Funktion von der Form

L(x,\lambda ,\mu ):=f(x)+\sum _{i=1}^{p}\langle \lambda _{i};g_{i}(x)\rangle _{i}+\sum _{j=1}^{q}\langle \mu _{j};h_{j}(x)\rangle _{j}

und die duale Funktion lautet

q(\lambda ,\mu )=\inf _{x\in X}L(x,\lambda ,\mu ).

Das duale Problem lautet dann:

{\begin{aligned}{\text{Maximiere }}&q(\lambda ,\mu )&\\{\text{unter den Nebenbedingungen }}&\lambda _{i}\succcurlyeq _{K^{D}}0&i=1,\dotsc ,p\end{aligned}}

,

Dabei ist $K^{D}$ der duale Kegel von $K$ .

Alternative Formulierungen fassen alle Ungleichungsrestriktionen und Gleichheitsrestriktionen zusammen:

g(x)=(g_{1}(x),\dots ,g_{p}(x))^{T}\,,\,h(x)=(h_{1}(x),\dots ,h_{j}(x))^{T},K:=K_{1}\times \dots \times K_{p}

Dies führt zu einer kompakteren Schreibweise, die ohne Summenzeichen und Indizes auskommt und daher für theoretische Betrachtungen bevorzugt wird. Alternativ wird auch die Forderung nach einem echten Kegel abgeschwächt, stattdessen definiert man die Ungleichung nur durch einen Ordnungskegel, der zumindest konvex sein muss. Manchmal wir auch komplett auf Gleichheitsnebenbedingungen verzichtet, man modelliert diese dann stattdessen als Ordnungskegel mit leerem Inneren. Statt $g(x)\in -K\,,\,h(x)=0$ zu fordern, definiert man einen Kegel $K'=K\times \{0\}$ . Dann gilt $(g(x),h(x))\in -K'$ genau dann, wenn $g(x)\in -K\,,\,h(x)=0$ . Für alle drei Varianten sind die Lagrange-Funktion und das duale Problem in der untenstehenden Tabelle angegeben. Die duale Funktion ist stets von der Form $q(\lambda ,\mu )=\inf _{x\in X}L(x,\lambda ,\mu )$ bzw., wenn nur eine duale Variable verwendet wird, von der Form $q(\lambda )=\inf _{x\in X}L(x,\lambda )$ .

Primales Problem	Lagrange-Funktion	Duales Problem
${\begin{aligned}{\text{Minimiere }}&f(x)&\\{\text{unter den Nebenbedingungen }}&g(x)\preccurlyeq _{K}0\\&h(x)=0\\&x\in X&\end{aligned}}$	$L(x,\lambda ,\mu )=f(x)+\langle \lambda ;g(x)\rangle _{1}+\langle \mu ;h(x)\rangle _{2}$	${\begin{aligned}{\text{Maximiere }}&q(\lambda ,\mu )&\\{\text{unter den Nebenbedingungen }}&\lambda \succcurlyeq _{K^{D}}0\end{aligned}}$
${\begin{aligned}{\text{Minimiere }}&f(x)&\\{\text{unter den Nebenbedingungen }}&g(x)\in -K\\&h(x)=0\\&x\in X&\end{aligned}}$	$L(x,\lambda ,\mu )=f(x)+\langle \lambda ;g(x)\rangle _{1}+\langle \mu ;h(x)\rangle _{2}$	${\begin{aligned}{\text{Maximiere }}&q(\lambda ,\mu )&\\{\text{unter den Nebenbedingungen }}&\lambda \in K^{D}\end{aligned}}$
${\begin{aligned}{\text{Minimiere }}&f(x)&\\{\text{unter den Nebenbedingungen }}&g(x)\in -K\\&x\in X&\end{aligned}}$	$L(x,\lambda )=f(x)+\langle \lambda ;g(x)\rangle _{1}$	${\begin{aligned}{\text{Maximiere }}&q(\lambda )&\\{\text{unter den Nebenbedingungen }}&\lambda \in K^{D}\end{aligned}}$

Dabei ist $f:V_{0}\mapsto \mathbb {R}$ die Zielfunktion, $g:V_{0}\mapsto V_{1}$ , wobei auf $V_{1}$ ein Kegel $K$ ausgezeichnet ist, der im ersten Fall ein echter Kegel ist, im zweiten und dritten Fall ein konvexer Kegel ist. Es ist $h:V_{0}\mapsto V_{2}$ und $\lambda \in V_{1},\,\mu \in V_{2}$ .

Formulierung für normierte Räume

Für Probleme mit Abbildungen zwischen reellen normierten Vektorräumen ist zu beachten, dass kein Skalarprodukt definiert ist. Man wählt stattdessen die duale Paarung. Dementsprechend sind die dualen Variablen aus dem Dualraum des Vektorraumes. Ist ein Problem der Form

{\begin{aligned}{\text{Minimiere }}&f(x)&\\{\text{unter den Nebenbedingungen }}&g(x)\in -K\\&h(x)=0\\&x\in X&\end{aligned}}

gegeben, wobei $f:V_{0}\mapsto \mathbb {R}$ die Zielfunktion, $g_{i}:V_{0}\mapsto V_{1}$ die Ungleichungsrestriktionsfunktionen und $h_{j}:V_{0}\mapsto V_{2}$ die Gleichungsrestriktionsfunktion sind. $K$ sei ein Ordnungskegel auf $V_{1}$ und es seien $V_{0},V_{1},V_{2}$ Banachräume. Die Lagrange-Funktion lautet dann

L(x,u,v)=f(x)+u(g(x))+v(h(x)).

Dabei ist $u$ aus dem Dualraum $V_{1}^{*}$ und $v$ aus dem Dualraum $V_{2}^{*}.$ Die duale Funktion ist dann wieder

q(u,v)=\inf _{x\in X}L(x,u,v)

und damit lautet das duale Problem:

{\begin{aligned}{\text{Maximiere }}&q(u,v)&\\{\text{unter den Nebenbedingungen }}&u\in K^{*}\end{aligned}}

Dabei ist $K^{*}$ der duale Kegel, der in diesem Fall aber eine Teilmenge von $V_{1}^{*}$ ist. Formulierungen für alternative Problemstellungen laufen analog zu den Problemen für Abbildungen zwischen Hilberträumen. Die duale Paarung ersetzt jeweils das Skalarprodukt, die dualen Variablen befinden sich im Dualraum.

Schwache und starke Dualität

Die schwache Dualität gilt auch für die beiden allgemeineren Formulierungen. Für den Beweis in der Hilbertraumformulierung nutzt man aus, dass $\langle a;b\rangle \leq 0$ ist, wenn $a\succcurlyeq _{K^{D}}0$ und $b\preccurlyeq _{K}$ gilt (für Ordnungskegel erhält man $a\in K^{D},\,b\in -K\implies \langle a;b\rangle \leq 0$ ). In normierten Räumen gelten analoge Aussagen mit dem Unterschied, dass $a$ ein Element des Dualraumes ist: Gilt $a\in K^{*},b\in -K$ , so folgt $a(b)\leq 0$ .

Die starke Dualität wird in den allgemeineren Fällen identisch zum gewöhnlichen Fall definiert. Auch im verallgemeinerten Fall existieren Regularitätsvoraussetzungen wie die Slater-Bedingung, die starke Dualität garantieren.

Literatur

Florian Jarre, Josef Stoer: Optimierung. Springer, Berlin 2004, ISBN 3-540-43575-1.
Stephan Boyd, Lieven Vandenberghe: Convex Optimization. Cambridge University Press, 2004, ISBN 978-0-521-83378-3 (online).
C. Geiger, C. Kanzow: Theorie und Numerik restringierter Optimierungsaufgaben. Springer, 2002, ISBN 3-540-42790-2.
Johannes Jahn: Introduction to the Theory of Nonlinear Optimization. 3. Auflage. Springer, Berlin 2007, ISBN 978-3-540-49378-5.