Benutzer:Boomdiada/Kolmogorow-Smirnow-Test

Der Kolmogorow-Smirnow-Test (KS-Test) (nach A. N. Kolmogorow und W. I. Smirnow) ist ein statistischer Test auf Übereinstimmung zweier eindimensionaler Wahrscheinlichkeitsverteilungen. Mit seiner Hilfe kann anhand von Zufallsstichproben geprüft werden, ob

zwei Zufallsvariablen die gleiche Verteilung besitzen (Zweistichprobenproblem) oder
eine Zufallsvariable einer zuvor angenommenen Wahrscheinlichkeitsverteilung folgt.

Im Kontext des letzteren Anwendungsproblems spricht man auch vom Kolmogorow-Smirnow-Anpassungstest (KSA-Test). Die korrekte Anwendung als Anpassungstest setzt voraus, dass alle Parameter der hypothetischen Verteilung bekannt sind. Für eine Anpassung des KSA-Tests für das Testen auf Normalverteilung mit unbekannten Parametern sei auf den Lilliefors-Test verwiesen.

Konzept[Bearbeiten | Quelltext bearbeiten]

Die Grundidee soll anhand des Anpassungstests erläutert werden, wobei der Vergleich zweier Merkmale analog zu verstehen ist. Man betrachtet ein statistisches Merkmal X. Anhand dessen Beobachtungen x_i muss überprüft werden, ob X eine hypothetische Verteilung F₀ befolgt. Die zweiseitig formulierten Hypothesen lauten:

Nullhypothese	Alternativhypothese
$\!\,H_{0}:F_{X}(x)=F_{0}(x)$	$H_{1}:F_{X}(x)\neq F_{0}(x)$
Die Zufallsvariable X besitzt die Wahrscheinlichkeitsverteilung F₀.	Die Zufallsvariable X besitzt eine andere Wahrscheinlichkeitsverteilung als F₀.

Das Verfahren bedient sich der empirischen Verteilungsfunktion $F_{n}$ , die aus den n Beobachtungen x_i (i = 1,...,n) der Zufallsvariable X ermittelt wird:

F_{n}(x)={1 \over n}\sum _{i=1}^{n}I_{X_{i}\leq x}

$I_{X_{i}\leq x}$ stellt dabei die Indikatorfunktion dar.

Der Kolmogorow-Smirnow-Test vergleicht die so ermittelte empirische Verteilungsfunktion $F_{n}$ mit der hypothetischen Verteilungsfunktion $F_{0}$ , mittels der Teststatistik

d_{n}=\|F_{n}-F_{0}\|=\sup _{x}|F_{n}(x)-F_{0}(x)|,

wobei sup das Supremum bezeichnet. Diese Teststatistik ist unter der Nullhypothese unabhängig von der hypothetischen Verteilung F₀, solange F₀ stetig ist.^[1]

Nach dem Gliwenko-Cantelli-Satz strebt die empirische Verteilung gleichmäßig gegen die Verteilungsfunktion von X (unter H₀ also gegen F₀). Dementsprechend ist unter der Alternativhypothese ein größerer Abstand zwischen den Verteilungfunktionen zu erwarten als unter der Nullhypothese.

Die Testentscheidung wird mit Hilfe der Grenzverteilung der Größe √n $d_{n}$ unter H₀ gefällt. Die Nullhypothese wird zu einem Signifikanzniveau α abgelehnt, falls der Wert der Teststatistik größer als der kritische Wert d_α=b(α)/√n ist, wobei b(α) das obere α-Fraktil der sogenannten Kolmogorow-Verteilung darstellt. Bis n=40 liegen die kritischen Werte für den Kolmogorow-Smirnow-Anpassungstest tabelliert vor. ^[2] Für größere n können sie näherungsweise mit Hilfe folgender Formel bestimmt werden:

{\text{d}}_{\alpha }={\frac {\sqrt {\ln \left({\sqrt {\frac {2}{\alpha }}}\right)}}{\sqrt {n}}}

Bemerkungen[Bearbeiten | Quelltext bearbeiten]

Das Anpassungstestverfahren kann invertiert werden, um ein Vertrauensintervall für F(x) zu konstruieren. Es wird ein kritischer Wert d_α gewählt, so dass P(d_n > d_α) = α. Die Verteilungsfunktion F(x) ist dann mit Wahrscheinlichkeit (1 − α) im Intervall F_n(x) ± d_α vollständig enthalten, wobei F_n die empirische Verteilungsfunktion der Zufallsstichprobe bezeichnet, die aus F(x) gezogen wird. Hier sind die kritischen Werte d_α für n>40:

α	20%	10%	5%	2%	1%
d_α	1.07/√n	1.22/√n	1.36/√n	1.52/√n	1.63/√n

Die einseitige Hypothesenformulierung beim Anpassungstest, i.e.

Nullhypothese	Alternativhypothese
$\!\,H_{0}:F_{X}(x)\leq F_{0}(x)$	$\!\,H_{1}:F_{X}(x)>F_{0}(x)$
$\!\,H_{0}:F_{X}(x)\geq F_{0}(x)$	$\!\,H_{1}:F_{X}(x)<F_{0}(x)$

führt zu der entsprechenden Teststatistik $d_{n}$ ^± (Smirnow-Statistik oder einseitige Kolmogorow-Statistik). Die kritischen Werte d_α^± werden mit Hilfe der Smirnow-Verteilung gebildet. Für n ≥ 40 gilt:

{\text{d}}_{\alpha }^{\pm }\approx {\frac {\sqrt {\ln \left({\sqrt {\frac {1}{\alpha }}}\right)}}{\sqrt {n}}}

Sollen die Verteilungen von zwei Zufallsvariablen verglichen werden, lautet die Kolmogorow–Smirnow-Teststatistik bei zweiseitiger Fragestellung:

d_{n,n'}=\sup _{x}|F_{1,n}(x)-F_{2,n'}(x)|,

wobei $F_{1,n}$ und $F_{2,n'}$ die empirischen Verteilungsfunktionen der zwei Stichproben darstellen. Die Nullhypothese der Gleichheit wird bei Signifikanzniveau α verworfen, falls der Wert der Statistik d_n,n' den kritischen Wert b(α)/√[(nn')/(n+n')] übersteigt. b(α) ist wieder das obere α-Fraktil der Kolmogorow-Verteilung.

Der Kolmogorow-Smirnow-Anpassungstest (Zahlenbeispiel)[Bearbeiten | Quelltext bearbeiten]

Vergleich von empirischer und theoretischer Verteilung des Zahlenbeispiels: Links ein Histogramm mit Normalverteilungskurve, rechts die theoretische und die empirische Verteilungsfunktion

In einem Unternehmen, das hochwertige Parfüms herstellt, wurde im Rahmen der Qualitätssicherung an einer Abfüllanlage die abgefüllte Menge für n=8 Flakons gemessen. Es ist das Merkmal x: abgefüllte Menge in ml.

Es soll geprüft werden, ob noch die bekannten Parameter der Verteilung von X gelten.

Zunächst soll bei einem Signifikanzniveau α=0,05 getestet werden, ob das Merkmal X in der Grundgesamtheit überhaupt normalverteilt mit den bekannten Parametern $\mu =11$ und $\sigma ^{2}=\sigma =1$ ist, also

Nullhypothese	Alternativhypothese
$\!\,H_{0}:F(x)=\Phi (x\|11;1)$	$H_{1}:F(x)\neq \Phi (x\|11;1)$

mit Φ als Normalverteilungssymbol. Aus den acht Beobachtungen x_i wird die empirische Verteilungsfunktion $F_{8}(x_{i})$ (äquivalent zu der relativen Summenfunktion S(x_i)) ermittelt. Die Werte der hypothetischen Wahrscheinlichkeitsverteilung $\Phi (x|11;1)$ werden an den Stellen x_i bestimmt. Für jedes i={1,...,8} werden die absoluten Differenzen

d_{oi}=|F_{8}(x_{i})-\Phi (x_{i}|11;1)|~

und auch

d_{ui}=|F_{8}(x_{i-1})-\Phi (x_{i}|11;1)|~

berechnet. Es ergibt sich folgende Tabelle:

i	x_i	$F_{8}(x_{i})$	$\Phi (x_{i}\|11;1)$	$F_{8}(x_{i-1})-\Phi (x_{i}\|11;1)$	$F_{8}(x_{i})-\Phi (x_{i}\|11;1)$
1	9,41	0,125	0,056	-0,056	0,069
2	9,92	0,250	0,140	-0,015	0,110
3	11,55	0,375	0,709	-0,459	-0,334
4	11,60	0,500	0,726	-0,351	-0,226
5	11,73	0,625	0,767	-0,267	-0,142
6	12,00	0,750	0,841	-0,216	-0,091
7	12,06	0,875	0,855	-0,105	0,020
8	13,02	1,000	0,978	-0,103	0,022

Hier bezeichnen x_i die i-te Beobachtung, $F_{8}(x_{i})$ den Wert der empirischen Verteilungsfunktion der i-ten Beobachtung und $\Phi (x_{i}|11;1)$ den Wert der Normalverteilungsfunktion an der Stelle x_i mit den genannten Parametern. Die nächsten Spalten geben die oben angeführten Differenzen an. Der kritische Wert, der bei $n=8$ und $\alpha =0,05$ zur Ablehnung führte, wäre der Betrag 0,457 ^[2]. Die größte absolute Abweichung in der Tabelle ist 0,459 in der 3. Zeile. Dieser Wert ist größer als der kritische Wert, daher wird die Hypothese gerade noch abgelehnt. Es ist also zu vermuten, dass die Verteilungshypothese falsch ist. Das kann bedeuten, dass die abgefüllte Menge nicht mehr normalverteilt ist, dass sich die durchschnittliche Abfüllmenge $\mu$ verschoben hat oder auch, dass sich die Varianz $\sigma ^{2}$ der Abfüllmenge verändert hat.

Der Kolmogorow-Smirnow-Test im Zweistichprobenproblem (Zahlenbeispiel)[Bearbeiten | Quelltext bearbeiten]

Betrachtet werden die Zufallsvariablen $X_{1}$ und $X_{2}$ mit unbekannten, jedoch stetigen Verteilungsfunktionen $F_{1}$ und $F_{2}$ . Zu überprüfen gilt, ob es sich um die selbe Verteilung handelt, i.e.

Nullhypothese	Alternativhypothese
$\!\,H_{0}:F_{1}(x)=F_{2}(x)$	$H_{1}:F_{1}(x)\neq F_{2}(x)$

Von den Variablen $X_{1}$ und $X_{2}$ liegen n=10 bzw n'=12 Beobachtungen vor. Mit deren Hilfe werden die empirischen Verteilungsfunktionen $F_{1,10}$ und $F_{2,12}$ errechnet. Im nächsten Schritt werden die Verteilungsfunktionen an den Stellen x = {x_1,1,...,x_1,n,x_2,1,...,x_2,n' } miteinander verglichen. Folgende Tabelle gibt die entsprechenden Werte an. Die Beobachtungen wurden ihrer Größe nach geordnet.

x_1,i	-2,209	-1,900	-	-	-	-0,782	-0,592	-0,419	-	-0,148	-	0,040	-	-	-	0,348	-	0,602	1,204	-	-	-
x_2,j	-	-	-1,093	-1,089	-0,983	-	-	-	-0,359	-	-0,044	-	0,084	0,119	0,226	-	0,431	-	-	1,221	1,247	1,533
$F_{1,10}$	0,100	0,200	0,200	0,200	0,200	0,300	0,400	0,500	0,500	0,600	0,600	0,700	0,700	0,700	0,700	0,800	0,800	0,900	1,000	1,000	1,000	1,000
$F_{2,12}$	0,000	0,000	0,083	0.167	0,250	0,250	0,250	0,250	0,333	0,333	0,417	0,417	0,500	0,583	0,667	0,667	0,750	0,750	0,750	0,833	0,917	1,000
$F_{1,10}$ (x)- $F_{2,12}$ (x)	0,100	0,200	0,117	0,200	-0,050	0,050	0,150	0,250	0,167	0,267	0,183	0,283	0,200	0,117	0,033	0,133	0,050	0,150	0,250	0,167	0,083	0,000

Die absolut größte Differenz zwischen den empirischen Verteilungsfunktionen d_10,12 = 0,283 ergibt sich an der Stelle x_1,7 . Der kritische Wert bei zweiseitiger Fragestellung d_10,12(0,05) beträgt 0.533. ^[3]Die Nullhypothese der gleichen Verteilung kann auf fünfprozentigem Signifikanzniveau nicht verworfen werden.

Eigenschaften des Kolmogorow-Smirnow-Tests[Bearbeiten | Quelltext bearbeiten]

Der Kolmogorow-Smirnow-Test ist konsistent, als nichtparametrischer Test auch sehr stabil und unanfällig. Als Anpassungstest ist er im Gegensatz zum χ²-Test auch für kleine Stichproben geeignet.^[4] Einen großen Vorteil der nichtparametrischen Verfahren besitzt der Kolmogorow-Smirnow-Anpassungstest auch: Die zugrundeliegende Zufallsvariable muss keiner bestimmten Verteilung folgen. Unter der weniger restriktiven Stetigkeitsannahme ist die Verteilung der Teststatistik d_n für alle (stetigen) Verteilungen identisch. Ähnliches gilt für den Kolmogorow-Smirnow-Test im Kontext der Zweistichprobenanwendung: Solange beide Verteilungen stetig sind, hängt die Teststatistik nur vom Rang der Beobachtungen x_1,i, x_2,j innerhalb der Stichprobe mit Umfang n+n' ab.

Der KSA-Test kann für diskrete Merkmale adaptiert werden. Aufgrund der kritischen Werte von d_n sollten jedoch keine Testentscheidungen getroffen werden, da die Modifikation der Teststatistik ihre asymptotische Verteilung deutlich ändert.^[5] Angepasste kritische Werte für den diskreten Fall findet man unter anderem bei Pettitt und Stephens.^[6]

Mithilfe des KSA-Tests kann überprüft werden, ob die Daten die Voraussetzungen einiger (parametrischer) Verfahren erfüllen (z.B. ob von einer Normalverteilung der untersuchten Variablen in der Grundgesamtheit ausgegangen werden kann). Doch wenn die Parameter der hypothetischen Verteilung aus der Stichprobe geschätzt werden, ändert sich die asymptotische Verteilung der Teststatistik unter der Nullhypothese.^[7] Falls auf Normalität der vorliegenden Daten getestet wird, erweisen sich die Entscheidungen aufgrund der kritischen Werte für d_n als konservativ: Die Wahrscheinlichkeit eine richtige Nullhypothese zu verwerfen ist viel kleiner, als die Tabelle mit den kritischen Werten vermuten lässt.^[8] Für eine Anpassung des KSA-Tests für das Testen auf Normalverteilung mit unbekannten Parametern sei auf den Lilliefors-Test verwiesen.

Als Normalverteilungstest ist der Kolmogorow-Smirnow-Anpassungstest anderen Tests unterlegen. Er ist in den meisten Fällen weniger teststark als der Shapiro-Wilk-Test, der Anderson-Darling-Test und der Cramér-von-Mises-Test.^[9] ^[10] Der Cramér-von-Mises-Test lässt sich im Gegenteil zu den anderen zwei Tests auch im Zweistichprobenproblem anwenden und ist damit eine brauchbare Alternative zum Kolmogorow-Smirnow-Test.

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

↑ B. Rüger: Test- und Schätztheorie: Bd.2. Statistische Tests. Oldenbourg, 2002, ISBN 3-486-25130-9, S. 193.
↑ ^a ^b Tabelle der kritischen Werte
↑ W. Wetzel, M.-D. Jöhnk, P. Naeve: Statistische Tabellen. Walter de Gruyter & Co., 1967.
↑ J. Janssen, W. Laatz: Statistische Datenanalyse mit SPSS für Windows. 6. Auflage. Springer, 2007, S. 569.
↑ M. A. Stephens: Kolmogorov–Smirnov Statistics. In: Encyclopedia of Statistical Sciences. 6. Jahrgang, 2006, S. 3869–3872, doi:10.1002/0471667196.ess1359.pub2.
↑ A. N. Pettitt, M. A. Stephens: The Kolmogorov-Smirnov Goodness-of-Fit Statistic with Discrete and Grouped Data. In: Technometrics. 19. Jahrgang, Nr. 2, 1977, S. 205–210 (jstor.org).
↑ J. Durbin: Kolmogorov-Smirnov tests when parameters are estimated. In: Lecture Notes in Mathematics. 566. Jahrgang, 1976, S. 33–44, doi:10.1007/BFb0096877.
↑ H. Lilliefors: On the Kolmogorov-Smirnov Test for Normality with Mean and Variance Unknown. In: Journal of the American Statistical Association. 62. Jahrgang, Nr. 318, 1967, S. 399–402 (jstor.org).
↑ E. Seier: Comparison of tests for univariate normality. 2002 (statjournals.net [PDF]).
↑ M. A. Stephens: EDF Statistics for Goodness of Fit and Some Comparisons. In: Journal of the American Statistical Association. 69. Jahrgang, Nr. 347, 1974, S. 730–737 (jstor.org).

Kategorie:Nicht-Parametrischer Test

[1] B. Rüger: Test- und Schätztheorie: Bd.2. Statistische Tests. Oldenbourg, 2002, ISBN 3-486-25130-9, S. 193.

[TabelleEridlc-2] Tabelle der kritischen Werte

[3] W. Wetzel, M.-D. Jöhnk, P. Naeve: Statistische Tabellen. Walter de Gruyter & Co., 1967.

[Janssen2007-4] J. Janssen, W. Laatz: Statistische Datenanalyse mit SPSS für Windows. 6. Auflage. Springer, 2007, S. 569.

[5] M. A. Stephens: Kolmogorov–Smirnov Statistics. In: Encyclopedia of Statistical Sciences. 6. Jahrgang, 2006, S. 3869–3872, doi:10.1002/0471667196.ess1359.pub2.

[6] A. N. Pettitt, M. A. Stephens: The Kolmogorov-Smirnov Goodness-of-Fit Statistic with Discrete and Grouped Data. In: Technometrics. 19. Jahrgang, Nr. 2, 1977, S. 205–210 (jstor.org).

[7] J. Durbin: Kolmogorov-Smirnov tests when parameters are estimated. In: Lecture Notes in Mathematics. 566. Jahrgang, 1976, S. 33–44, doi:10.1007/BFb0096877.

[8] H. Lilliefors: On the Kolmogorov-Smirnov Test for Normality with Mean and Variance Unknown. In: Journal of the American Statistical Association. 62. Jahrgang, Nr. 318, 1967, S. 399–402 (jstor.org).

[9] E. Seier: Comparison of tests for univariate normality. 2002 (statjournals.net [PDF]).

[10] M. A. Stephens: EDF Statistics for Goodness of Fit and Some Comparisons. In: Journal of the American Statistical Association. 69. Jahrgang, Nr. 347, 1974, S. 730–737 (jstor.org).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Benutzer:Boomdiada/Kolmogorow-Smirnow-Test

Inhaltsverzeichnis

Konzept[Bearbeiten | Quelltext bearbeiten]

Bemerkungen[Bearbeiten | Quelltext bearbeiten]

Der Kolmogorow-Smirnow-Anpassungstest (Zahlenbeispiel)[Bearbeiten | Quelltext bearbeiten]

Der Kolmogorow-Smirnow-Test im Zweistichprobenproblem (Zahlenbeispiel)[Bearbeiten | Quelltext bearbeiten]

Eigenschaften des Kolmogorow-Smirnow-Tests[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

Navigationsmenü

Benutzer:Boomdiada/Kolmogorow-Smirnow-Test

Konzept[Bearbeiten | Quelltext bearbeiten]

Bemerkungen[Bearbeiten | Quelltext bearbeiten]

Der Kolmogorow-Smirnow-Anpassungstest (Zahlenbeispiel)[Bearbeiten | Quelltext bearbeiten]

Der Kolmogorow-Smirnow-Test im Zweistichprobenproblem (Zahlenbeispiel)[Bearbeiten | Quelltext bearbeiten]

Eigenschaften des Kolmogorow-Smirnow-Tests[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

Navigationsmenü

Suche