Kullback-Leibler-Divergenz

Die Begriffe Kullback-Leibler-Divergenz (kurz KL-Divergenz), Kullback-Leibler-Abstand und relative Entropie bezeichnen ein Maß für die Unterschiedlichkeit zweier Wahrscheinlichkeitsverteilungen. Typischerweise repräsentiert dabei eine der Verteilungen empirische Beobachtungen oder eine präzise Wahrscheinlichkeitsverteilung, während die andere ein Modell oder eine Approximation darstellt.

Weitere geläufige Bezeichnungen für die KL-Divergenz sind auch Kullback-Leibler-Entropie oder Kullback-Leibler-Information, nach Solomon Kullback und Richard Leibler; englisch Information Gain.

Ein Spezialfall der KL-Divergenz ist die Transinformation.

Definition[Bearbeiten | Quelltext bearbeiten]

Die KL-Divergenz wird häufig mit einem $D$ (für "Divergenz") oder mit einem $H$ bzw. $\mathrm {H}$ notiert. Letzteres kommt daher, dass die Entropie mit einem Eta notiert wird.

Diskreter Fall[Bearbeiten | Quelltext bearbeiten]

Für zwei diskrete Wahrscheinlichkeitsverteilungen $P$ und $Q$ mit Wahrscheinlichkeitsfunktionen $p(x)=P(\{x\})$ und $q(x)=Q(\{x\})$ auf einer Menge $X$ ist die KL-Divergenz als

D(P\|Q)=KL(P,Q)=\sum _{x\in X}p(x)\log \left({p(x) \over q(x)}\right)

definiert.

Stetiger Fall[Bearbeiten | Quelltext bearbeiten]

Für zwei stetige Wahrscheinlichkeitsverteilungen $P$ und $Q$ mit Dichten $p$ und $q$ ist die KL-Divergenz als

D(P\|Q)=\int _{-\infty }^{\infty }p(x)\log \left({\frac {p(x)}{q(x)}}\right)\;\mathrm {d} x

definiert.

Allgemeiner Fall[Bearbeiten | Quelltext bearbeiten]

Geben ist ein messbarer Raum $(E,{\mathcal {F}})$ mit zwei Wahrscheinlichkeitsmaßen $\mu$ und $\nu$ , weiter sei $\mu$ absolut stetig bezüglich $\nu$ . Dann ist die Kullback-Leibler-Divergenz

H(\mu \mid \nu )=\int _{E}\log \left({\frac {d\mu }{d\nu }}\right)d\mu =\int _{E}{\frac {d\mu }{d\nu }}\log \left({\frac {d\mu }{d\nu }}\right)d\nu

,

wobei ${\frac {d\mu }{d\nu }}$ die Radon-Nikodým-Ableitung von $\mu$ bezüglich $\nu$ ist.

Erläuterungen[Bearbeiten | Quelltext bearbeiten]

Die Kullback-Leibler-Divergenz gibt aus informationstheoretischer Sicht an, wie viel Platz pro Zeichen im Mittel verschwendet wird, wenn eine auf $Q$ basierende Kodierung auf eine Informationsquelle angewendet wird, die der tatsächlichen Verteilung $P$ folgt. Somit besteht ein Zusammenhang zur Kanalkapazität. Mathematisch ist dies verträglich mit der Aussage, dass die KL-Divergenz $\geq 0$ ist und Gleichheit nur dann gilt, wenn P und Q identisch sind.

Die konkrete Wahl der Basis des Logarithmus in der Berechnung hängt dabei davon ab, in welcher Informationseinheit gerechnet werden soll. In der Praxis gibt man die KL-Divergenz häufig in Bit bzw. Shannon an und verwendet dafür die Basis 2, seltener werden auch Nit (Basis $e$ ) und Ban (Basis 10) gebraucht.

Anstatt der Kullback-Leibler-Divergenz wird auch oft die Kreuzentropie verwendet. Diese liefert qualitativ vergleichbare Werte, kann jedoch ohne die genaue Kenntnis von $P$ geschätzt werden. In praktischen Anwendungen ist dies vorteilhaft, da die tatsächliche Hintergrundverteilung der Beobachtungsdaten meist unbekannt ist.

Die Minimierung der Kullback-Leibler-Divergenz ist äquivalent zur Maximierung der Evidence lower bound.

Abgrenzung Distanz[Bearbeiten | Quelltext bearbeiten]

Obwohl die Kullback-Leibler-Divergenz teilweise auch als Kullback-Leibler-Distanz bezeichnet wird, erfüllt sie eine fundamentale Anforderung an Distanzmaße nicht: Sie ist nicht symmetrisch, es gilt also im Allgemeinen $D(P\|Q)\neq D(Q\|P)$ . Um Symmetrie herzustellen, kann alternativ die Summe der beiden Divergenzen verwendet werden, die offensichtlich symmetrisch ist:

D_{2}(P\|Q)=D_{2}(Q\|P)=D(P\|Q)+D(Q\|P)

Multivariate Normalverteilungen[Bearbeiten | Quelltext bearbeiten]

Für zwei mehrdimensionale Normalverteilungen (mit Dimension $k$ ), mit Mittelwerten $\mu _{0},\mu _{1}$ und (nicht-singulären) Kovarianzmatrizen $\Sigma _{0},\Sigma _{1}$ ist die Kullback-Leibler-Divergenz gegeben durch:^[1]

D_{\text{KL}}({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1})={\frac {1}{2}}\left(\operatorname {Spur} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)+(\mu _{1}-\mu _{0})^{\mathsf {T}}\Sigma _{1}^{-1}(\mu _{1}-\mu _{0})-k+\log \left({\frac {\det \Sigma _{1}}{\det \Sigma _{0}}}\right)\right).

Belege[Bearbeiten | Quelltext bearbeiten]

S. Kullback, R. A. Leibler: On information and sufficiency. In: Annals of Mathematical Statistics. Band 22, Nr. 1, März 1951, S. 79–86.
S. Kullback: Information theory and statistics. Hrsg.: John Wiley & Sons. 1959.

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

↑ J. Duchi: Derivations for Linear Algebra and Optimization. S. 13.

[1] J. Duchi: Derivations for Linear Algebra and Optimization. S. 13.

[1]

Kullback-Leibler-Divergenz

Inhaltsverzeichnis

Definition[Bearbeiten | Quelltext bearbeiten]

Diskreter Fall[Bearbeiten | Quelltext bearbeiten]

Stetiger Fall[Bearbeiten | Quelltext bearbeiten]

Allgemeiner Fall[Bearbeiten | Quelltext bearbeiten]

Erläuterungen[Bearbeiten | Quelltext bearbeiten]

Abgrenzung Distanz[Bearbeiten | Quelltext bearbeiten]

Multivariate Normalverteilungen[Bearbeiten | Quelltext bearbeiten]

Belege[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

Navigationsmenü

Kullback-Leibler-Divergenz

Definition[Bearbeiten | Quelltext bearbeiten]

Diskreter Fall[Bearbeiten | Quelltext bearbeiten]

Stetiger Fall[Bearbeiten | Quelltext bearbeiten]

Allgemeiner Fall[Bearbeiten | Quelltext bearbeiten]

Erläuterungen[Bearbeiten | Quelltext bearbeiten]

Abgrenzung Distanz[Bearbeiten | Quelltext bearbeiten]

Multivariate Normalverteilungen[Bearbeiten | Quelltext bearbeiten]

Belege[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

Navigationsmenü

Suche