Suffiziente Statistik

Eine suffiziente Statistik (erschöpfende Statistik) ist in der mathematischen Statistik eine Statistik, die bezüglich der unbekannten Parameter (oder der unbekannten Wahrscheinlichkeitsverteilung) alle relevante Information aus der Zufallsstichprobe enthält.^[1] (→ Abschnitt Hintergrund und für eine formale Definition Abschnitt Definition).

Mit Hilfe einer suffizienten Statistik kann die Suche bzw. Konstruktion von für die Fragestellung geeigneten Statistiken auf jene Statistiken reduziert werden, die sich mit Hilfe der suffizienten Statistik funktional konstruieren lassen. Diese Reduktion auf funktionale Konstruktionen aus einer speziellen Statistik heraus kann bei Verwendung einer suffizienten Statistik ohne relevanten Informationsverlust vorgenommen werden.

Eine suffiziente Statistik kann auch zu einer Reduktion der Datenmenge beitragen, ohne dass dabei relevante Information verloren wird.

Hintergrund[Bearbeiten | Quelltext bearbeiten]

Für ein statistisches Zufallsexperiment werden im Statistischen Modell die Ergebnisse von Zufallsstichproben als Realisierungen von Zufallsvariablen $X$ aufgefasst. Diese Zufallsvariablen, und somit die Ergebnisse des Experiments, können maximal jene Information liefern, die maßtheoretisch am Ereignisraum durch die von den Zufallsvariablen $X$ induzierte Initial-σ-Algebra $\sigma (X)$ beschrieben wird.

Eine Statistik $T$ , zum Beispiel ein Schätzer zum Schätzen von Parametern, würde typischerweise mit $X$ zusammengesetzt, um die Komposition $T\circ X$ zu liefern. Ergebnisse $x$ (als Realisierung von $X$ ) würden mit $T$ zu $T(x)$ weiterverarbeitet werden, die Komposition $T\circ X$ selber dient dazu, diese Verwendung von $T$ (zum Beispiel den Schätzvorgang) im Rahmen des Statistischen Modells theoretischerseits zu beurteilen.

Aufgrund des Faktorisierungslemmas der Maßtheorie ist $T\circ X$ insbesondere auch $\sigma (X)$ -messbar, die von der Komposition $T\circ X$ induzierte σ-Algebra $\sigma (T\circ X)$ muss aber nicht mit $\sigma (X)$ übereinstimmen, könnte also je nach der Statistik $T$ und je nach Verhältnis der beiden σ-Algebren zueinander einen anderen Informationsgehalt haben.

(Nicht-)Beispiel 1[Bearbeiten | Quelltext bearbeiten]

Begleitendes Beispiel 1 (radikale Reduktion mit Informationsverlust): Würde man mit $T=0$ die Nullfunktion wählen, also jede Stichprobe nur auf Null abbilden, dann wäre die zusammengesetzte Funktion $T\circ X=0\circ X=0$ ebenfalls die konstante Nullfunktion. Die von ihr induzierte initiale σ-Algebra wäre nur trivial, $\sigma (0\circ X)=\{\emptyset ,\Omega \},$ und wäre unter allen möglichen σ-Algebren die gröbste, liefert also keinerlei Auflösung in feinere Detailinformation. Man hätte also alle Information verloren, die man mit einer feineren σ-Algebra vielleicht erhalten könnte, gleichzeitig hätte man die gesamte Datenmenge aber auf den einzigen Wert Null alleine reduziert. Man hätte also einerseits eine maximale Reduktion der Datenmenge auf eine einzige Zahl, aber andererseits auch einen maximalen Informationsverlust. Beispiel 1 Ende

"Relevante" Information[Bearbeiten | Quelltext bearbeiten]

Für die Fragestellungen der Statistik tritt bei einem statistischen Modell $({\mathcal {X}},{\mathcal {A}},{\mathcal {P}})$ eine Familie ${\mathcal {P}}$ von Wahrscheinlichkeitsmaßen $\mathbb {P}$ auf. Informationen sind für die statistische Fragestellung also nur in Bezug auf die Familie ${\mathcal {P}}$ relevant oder irrelevant. Insbesondere interessiert die Frage, ob sich mit Hilfe der verwendeten Statistiken die einzelnen Wahrscheinlichkeitsmaße $\mathbb {P}$ aus der Familie ${\mathcal {P}}$ unterscheiden lassen.

Im Zusammenwirken mit σ-Algebren $\sigma (T\circ X)$ interessiert also die Einschränkung $\mathbb {P} \vert _{\sigma (T\circ X)}$ der Maße $\mathbb {P} \in {\mathcal {P}}$ auf die σ-Algebren.

Grundidee[Bearbeiten | Quelltext bearbeiten]

Die Grundidee besteht nun darin, beim Suchen nach brauchbaren Statistiken $T$ eine suffiziente Statistik $T_{suff}$ zu verwenden, um im Raum aller Statistiken mit Hilfe des Faktorisierungslemmas der Maßtheorie und der faktorisierten bedingten Wahrscheinlichkeit die Suche auf Statistiken zu reduzieren, die in dem Sinn einfacher sind, dass sie sich bereits mit Hilfe von $T_{suff}$ funktional konstruieren lassen, zum Beispiel über eine Zusammensetzung $T=F\circ T_{suff}$ mit einer weiteren Funktion $F$ . Durch $T_{suff}$ könnte zum Beispiel eine Daten-Vorverarbeitung für eine Reduktion umgesetzt werden, und nur die vorverarbeiteten Daten werden dann mit anderen Funktionen $F$ "weiterverarbeitet".

Eine solche Reduktion sollte für die betrachteten Wahrscheinlichkeitsmaße $\mathbb {P} \in {\mathcal {P}}$ jedenfalls zu keinem Informationsverlust gegenüber der Stichprobe führen, also immer noch maximal informativ sein.

Aus maßtheoretischer Sicht ist also Suffizienz bezüglich eines Modells eine mögliche Eigenschaft messbarer Funktionen $T$ , die aus dem Stichprobenraum in einen beliebigen Messraum abbilden. Man charakterisiert dabei zum Beispiel solche Abbildungen als suffizient (auch: erschöpfend), die einen hochdimensionalen Datenvektor in eine einfachere Form transformieren, ohne dabei wesentliche Informationen über die zu Grunde liegende Wahrscheinlichkeitsverteilung zu verlieren.

Gegenstück der Suffizienz ist die Verteilungsfreiheit, sie entspricht einer uninformativen Transformation.

Anschaulich formuliert sind also solche Statistiken suffizient, die sämtliche Informationen über die zu schätzenden Parameter des Modells beibehalten, die aus der Stichprobe gewonnen werden können.

Die Suffizienz zählt neben der Erwartungstreue und der Äquivarianz/Invarianz zu den klassischen Reduktionsprinzipien der mathematischen Statistik. Ihre Bedeutung erhält die Suffizienz durch den Satz von Rao-Blackwell. Aus ihm folgt, dass „optimale“ Schätzer im Bezug auf den mittleren quadratischen Fehler oder entsprechende Verallgemeinerungen immer in der Menge der suffizienten Schätzer zu finden sind.

Stephen Stigler merkte 1973 an, dass damals das Konzept der Suffizienz in der deskriptiven Statistik unbeliebter wurde, da es stark auf Verteilungsannahmen beruht, allerdings ist es noch immer ein wichtiges Mittel in der Theorie und natürlich in der Schätztheorie und Testtheorie.^[2]

Beispiel 2[Bearbeiten | Quelltext bearbeiten]

Beispiel 2 (mehrmaliger Münzwurf): Gegeben sei eine gewöhnliche Münze, die unabhängig voneinander n-mal geworfen wird. Das Ergebnis des i-ten Wurfs (Kopf oder Zahl) wird mit einer Bernoulli-verteilten Zufallsvariable $X_{i}$ beschrieben. Ein Elementarereignis $\omega$ des Modells liefere im i-ten Versuch bei "Kopf oben" den Wert $X_{i}(\omega )=1$ , bei "Zahl oben" den Wert $X_{i}(\omega )=0$ .

Die Zufallsvariablen $X_{1},...,X_{n}$ seien unabhängig und identisch Bernoulli-verteilt mit der (uns unbekannten) Wahrscheinlichkeit $\pi _{\text{Kopf}}$ für das Auftreten von "Kopf oben", und der Wahrscheinlichkeit $1-\pi _{\text{Kopf}}$ für das Auftreten von "Zahl oben" (bzw. "nicht Kopf oben").

Das gesamte Experiment der n Münzwürfe wird durch die Zufallsvariable (Zufallsvektor)

X:=(X_{1},...,X_{n})

beschrieben.

Angenommen man interessiert sich für die Wahrscheinlichkeit „Kopf oben“ ( $\pi _{\text{Kopf}}$ ), um zu beurteilen, ob die Münze fair ist. Um den unbekannten Parameter $\pi _{\text{Kopf}}$ zu schätzen, würde man $n$ mal das Zufallsexperiment „Wurf der Münze“ durchführen und eine Eins notieren, wenn Kopf oben landet, und eine Null, wenn Zahl oben ist. Aus den Beobachtungswerten

x_{i}={\begin{cases}0&{\text{ Zahl oben}}\\1&{\text{ Kopf oben}}\end{cases}}

würde man für den Parameter ${\pi }_{\text{Kopf}}$ einen Schätzwert berechnen mit

{\hat {\pi }}_{\text{Kopf}}=T(x_{1},\dots ,x_{n}):={\frac {x_{1}+x_{2}+\dots +x_{n}}{n}}={\frac {t}{n}}

.

Die Statistik "Anzahl der erhaltenen Köpfe oben"

T_{suff}(x_{1},\dots ,x_{n}):=x_{1}+x_{2}+\dots +x_{n}

wäre nun eine suffiziente Statistik: Für eine Schätzung des unbekannten Parameters $\pi _{\text{Kopf}}$ wird aus den Beobachtungswerten nur die Information benötigt wie oft Kopf oben war. Die ebenfalls in den Beobachtungswerten enthaltene zusätzliche Information, bei welchem der Würfe Kopf oben war, wird jedoch nicht benötigt. Durch die Statistik $T_{suff}$ wird von den n Zahlen $x_{1},\dots ,x_{n}$ auf eine einzige Zahl reduziert, nämlich auf deren Summe.

Die für die Schätzung von $\pi _{\text{Kopf}}$ verwendete Statistik $T(x_{1},\dots ,x_{n})={\frac {x_{1}+x_{2}+\dots +x_{n}}{n}}$ ergibt sich funktional aus $T_{suff}$ , indem man noch durch die Anzahl n der Würfe dividiert. Sie ist also die Zusammensetzung

T={\frac {.}{n}}\circ T_{suff}

.

Wenn es für die Schätzung der unbekannten Parameter (bzw. für die Ermittlung der unbekannten Verteilung $\mathbb {P} \in {\mathcal {P}}$ ) ausreichend ist, die Statistik $T_{suff}$ zu kennen und nicht notwendigerweise alle Beobachtungswerte, dann ist $T_{suff}$ eine suffiziente Statistik.

Definition[Bearbeiten | Quelltext bearbeiten]

Es seien $(\Omega ,{\mathcal {A}},{\mathcal {P}})$ ein statistischer Raum mit Verteilungsfamilie ${\mathcal {P}}$ , $({\mathcal {X}},{\mathcal {F}})$ der Stichprobenraum, $X\colon (\Omega ,{\mathcal {A}})\to ({\mathcal {X}},{\mathcal {F}})$ eine Zufallsvariable. Weiters sei $(\Omega _{T},{\mathcal {A}}_{T})$ ein beliebiger Messraum und $T\colon ({\mathcal {X}},{\mathcal {F}})\to (\Omega _{T},{\mathcal {A}}_{T})$ eine messbare Abbildung. Die Statistik $T\;$ heißt suffizient für die Familie ${\mathcal {P}}$ (und die Zufallsvariable $X$ ), falls es eine Version der faktorisierten bedingten Verteilung von $X\;|\;T(X)=t$ gibt, die nicht von $\mathbb {P} \in {\mathcal {P}}$ abhängt.

Allgemeiner lässt sich die Suffizienz einer Statistik mittels der Suffizienz von σ-Algebren definieren: Eine Statistik $T$ heißt suffizient, oder erschöpfend wenn die von ihr erzeugte σ-Algebra eine suffiziente σ-Algebra ist.

Beachte, dass eine Suffiziente Statistik nicht unbedingt nur skalarwertig sein muss, sondern auch mehrdimensional oder in allgemeine Mengen gehen kann.

Beispiel: Binomialverteilung[Bearbeiten | Quelltext bearbeiten]

Ein einfaches Beispiel für suffiziente Statistiken erhalten wir bei der Untersuchung identisch unabhängig Bernoulli-verteilter Zufallsvariablen. Das zugrundeliegende Modell ist also ein Bernoulli-Prozess. Die Zähldichte der Zufallsvariable $X=(X_{1},\ldots ,X_{n})$ ist in diesem Fall durch $f_{\vartheta }(x)=\vartheta ^{\sum _{i=1}^{n}x_{i}}(1-\vartheta )^{n-\sum _{i=1}^{n}x_{i}}$ gegeben, wobei die $x_{i}$ entweder 0 oder 1 sind. Man beachte, dass das Zählmaß auf $\left(\left\{0,1\right\}^{n},{\mathcal {P}}\left(\left\{0,1\right\}^{n}\right)\right)$ endlich (insbesondere also $\sigma$ -endlich) ist und wegen der Existenz der Dichten die Klasse dominiert. Daher erkennt man anhand der Neyman-Charakterisierung, dass $\sum _{i=1}^{n}X_{i}$ suffizient für $\vartheta$ ist.

Mithilfe der Definition zeigt man die Suffizienz von $\sum _{i=1}^{n}X_{i}$ , indem man $f_{\vartheta }(x)|(\sum _{i=1}^{n}X_{i}=t)$ berechnet. Benutzt man nun bedingte Wahrscheinlichkeiten erhält man:

f_{\vartheta }(x)|(\sum _{i=1}^{n}X_{i}=t)={\frac {\vartheta ^{t}(1-\vartheta )^{n-t}}{{\binom {n}{t}}\vartheta ^{t}(1-\vartheta )^{n-t}}}={\frac {1}{\binom {n}{t}}}

.

Diese bedingte Dichte ist nun unabhängig von $\vartheta$ und somit ist $\sum _{i=1}^{n}X_{i}$ suffizient.

Heuristisch gesprochen genügt es also, an Stelle des gesamten Datenvektors bloß die Anzahl der Erfolge in diesem Experiment zu kennen, um alle Informationen über den unbekannten Parameter $\vartheta$ zu erhalten.

Sätze über Suffizienz bei dominierten Verteilungsklassen[Bearbeiten | Quelltext bearbeiten]

Satz von Halmos-Savage[Bearbeiten | Quelltext bearbeiten]

Der Satz von Halmos-Savage liefert ein Suffizienzkriterium unter der Annahme, dass die Verteilungsklasse dominiert ist. Lassen sich dann abzählbar unendlich viele Maße der Verteilungsklasse zu einem Maß $P^{*}$ kombinieren, so dass dieses die Verteilungsklasse dominiert und jedes Wahrscheinlichkeitsmaß der Verteilungsklasse eine ${\mathcal {S}}$ -messbare Dichte bezüglich $P^{*}$ besitzt, dann ist ${\mathcal {S}}$ eine suffiziente σ-Algebra.

Neyman-Kriterium[Bearbeiten | Quelltext bearbeiten]

Unter der Voraussetzung, dass ${\mathcal {P}}$ eine dominierte Verteilungsklasse ist, ist eine Statistik $T\;$ genau dann suffizient, wenn messbare Funktionen $g_{\vartheta }\ \left(\vartheta \in \Theta \right)$ und $h\;$ existieren, so dass die Dichte $f_{\vartheta }$ wie folgt zerlegt werden kann: $f_{\vartheta }(x)=h(x)g_{\vartheta }(T(x)).$ Diese Charakterisierung der Suffizienz geht auf Jerzy Neyman zurück. Insbesondere sind bijektive Transformationen suffizienter Statistiken wieder suffizient. Das Neyman-Kriterium leitet sich aus dem Satz von Halmos-Savage ab, ist aber leichter zu handhaben.

Weitere Suffizienzbegriffe[Bearbeiten | Quelltext bearbeiten]

Minimalsuffizienz[Bearbeiten | Quelltext bearbeiten]

Die Minimalsuffizienz ist eine stärkere Forderung als die Suffizienz, die ebenfalls für Statistiken und σ-Algebren definiert wird. Sie stellt die Frage nach der maximal möglichen Datenkompression, also nach einer kleinstmöglichen suffizienten σ-Algebra.

Starke Suffizienz[Bearbeiten | Quelltext bearbeiten]

Die starke Suffizienz ist eine Abwandlung des herkömmlichen Suffizienzbegriffes, die mittels Markow-Kernen definiert wird. Für borelsche Räume stimmen starke Suffizienz und Suffizienz überein.

Wichtige Sätze[Bearbeiten | Quelltext bearbeiten]

Einen Zusammenhang zwischen Suffizienz, Verteilungsfreiheit und Vollständigkeit treffen die Sätze von Basu.
Der Satz von Lehmann-Scheffé und der Satz von Rao-Blackwell treffen mithilfe suffizienter Statistiken Aussagen über die Existenz gleichmäßig bester erwartungstreuer Schätzer.

Weblinks[Bearbeiten | Quelltext bearbeiten]

A.S. Kholevo: Sufficient statistic. In: Michiel Hazewinkel (Hrsg.): Encyclopedia of Mathematics. Springer-Verlag und EMS Press, Berlin 2002, ISBN 1-55608-010-7 (englisch, encyclopediaofmath.org).

Literatur[Bearbeiten | Quelltext bearbeiten]

Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, doi:10.1007/978-3-642-41997-3.
Helmut Pruscha: Vorlesungen über Mathematische Statistik. B. G. Teubner, Stuttgart 2000, ISBN 3-519-02393-8, Abschnitt II.3.

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

↑ Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 41.
↑ Stephen Stigler: Studies in the History of Probability and Statistics. XXXII: Laplace, Fisher and the Discovery of the Concept of Sufficiency. In: Biometrika. Vol. 60, Nr. 3, Dezember 1973, S. 439–445, doi:10.1093/biomet/60.3.439, JSTOR:2334992 (englisch).

[1] Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 41.

[Stigler1973-2] Stephen Stigler: Studies in the History of Probability and Statistics. XXXII: Laplace, Fisher and the Discovery of the Concept of Sufficiency. In: Biometrika. Vol. 60, Nr. 3, Dezember 1973, S. 439–445, doi:10.1093/biomet/60.3.439, JSTOR:2334992 (englisch).

[1]

[2]