Hosmer-Lemeshow-Test

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Der Hosmer-Lemeshow-Test wird zur Bewertung der Anpassungsgüte von Klassifikationsmodellen, wie beispielsweise der logistischen Regression, verwendet.[1][2] Die Berechnung der Testgröße beruht auf den beobachteten Werten von Bernoulli-verteilten Zufallsvariablen mit unbekannten Eintrittswahrscheinlichkeiten (Bernoulli-Parametern) und den aus einer logistischen Regression mit Hilfe der Maximum-Likelihood-Methode gewonnenen Schätzwerten für diese unbekannten Eintrittswahrscheinlichkeiten. Dabei bezeichnet die Anzahl der Beobachtungen (Untersuchungseinheiten). Die Grundidee des Tests ist, aus den beobachteten Werten und den geschätzten Wahrscheinlichkeiten eine Testgröße zu bilden, mit deren Hilfe auf die Gültigkeit der Modellannahmen geschlossen werden kann.

Der Hosmer-Lemeshow-Test wird zur Überprüfung der Kalibrierung eines Modells eingesetzt[3].

Kalibrierungskurven

Hosmer-Lemeshow-Test für die logistische Regression[Bearbeiten | Quelltext bearbeiten]

Testidee[Bearbeiten | Quelltext bearbeiten]

Mit

seien die mit Hilfe der Maximum-Likelihood-Methode aus einem logistischen Regressionsmodell gewonnenen Schätzwerte für die unbekannten Eintrittswahrscheinlichkeiten bezeichnet.

Die Grundidee des Hosmer-Lemeshow-Tests ist, dass sich für eine Teilmenge mit Elementen, die ähnliche geschätzte Eintrittswahrscheinlichkeiten haben, die beobachtete relative Häufigkeit der eingetretenen Ereignisse und die durchschnittliche durch die logistische Regression geschätzte Eintrittswahrscheinlichkeit nicht zu stark unterscheiden und dass sich diese Abweichungen durch eine Wahrscheinlichkeitsverteilung beschreiben lassen, falls das Modell richtig ist.

Testgröße[Bearbeiten | Quelltext bearbeiten]

Für die Testdurchführung werden die Untersuchungseinheiten in disjunkte Gruppen aufgeteilt, wobei die Anzahl der Gruppen abhängig von den Beobachtungswerten fixiert werden. Eine typische Gruppenzahl ist . Die Zuordnung zu den Gruppen erfolgt anhand der geschätzten Eintrittswahrscheinlichkeiten . Dabei gibt es zwei Methoden für die Gruppenbildung. Bei der ersten Methode erfolgt die Zuordnung anhand von vorgegebenen festen Intervalle, z. B. , , . Bei der zweiten Methode werden die Intervallgrenzen durch die Dezile der geschätzten Eintrittswahrscheinlichkeiten festgelegt, so dass etwa 10 gleichgroße Gruppen entstehen. Die so gebildeten Gruppen sind durch disjunkte Teilmengen mit charakterisiert, die jeweils die Indizes derjenigen Untersuchungseinheiten enthalten, die zur Gruppe gehören. Diese beiden Varianten sind der Grund für die Abschnittsüberschrift 5.2.2 The-Hosmer-Lemeshow-Tests.[2]

Die Testgröße ist

Dabei bezeichnen

die Anzahl der Beobachtungseinheiten in der Gruppe ,

die Anzahl der beobachteten (englisch observed) Ereignisse in der Gruppe und

die mittlere geschätzte Eintrittswahrscheinlichkeit in der Gruppe .

Das Produkt kann als die geschätzte erwartete (englisch expected) Anzahl der Ereignisse in der Gruppe interpretiert werden. Damit ergibt sich für die Hosmer-Lemeshow-Prüfgröße die äquivalente Darstellung

die an eine Chi-Quadrat-Statistik erinnert. Im Unterschied zu dieser hängen alle Größen von den Beobachtungen ab, da die nicht, wie bei der Chi-Quadrat-Statistik die aufgrund eines Modells erwarteten Häufigkeiten, sondern geschätzte erwartete Häufigkeiten sind, die über die geschätzten Eintrittswahrscheinlichkeiten von allen beobachteten Werten der erklärten und der erklärenden Variablen abhängen.

Eine weitere in der Literatur anzutreffende äquivalente Darstellung[4] der Testgröße mit anstelle von Summenaden ergibt sich aus einer Unterscheidung zwischen Erfolgen () und Misserfolgen (). Die Hosmer-Lemeshow-Prüfgröße wird dann als

geschrieben, wobei – ergänzend zu obiger Notation –

die Anzahl der beobachteten Misserfolge in Gruppe ist und

die geschätzte erwartete Anzahl der Misserfolge in der Gruppe ist.

Die beiden Varianten der Testgröße, die sich aus der Gruppenbildung mit festen Grenzen und mit beobachtungsabhängigen Grenzen ergeben, werden in der Literatur häufig mit und bezeichnet. Dabei wird häufig weder in der Notation, noch in der Sprechweise zwischen der Testgröße als aus den beobachteten Werten berechneter Zahl und der Teststatistik, die als Stichprobenvariable eine Zufallsvariable mit einer Wahrscheinlichkeitsverteilung ist.

Testdurchführung[Bearbeiten | Quelltext bearbeiten]

Hosmer und Lemeshow vertreten die Position, dass die Testgröße unter sehr allgemeinen Bedingungen der realisierte Wert einer Zufallsvariablen ist, die bei Richtigkeit des logistischen Regressionsmodells für hinreichend großen Stichprobenumfang näherungsweise einer Chi-Quadrat-Verteilung mit Freiheitsgraden folgt.

Die berechnete Testgröße wird daher mit den Quantilen einer Chi-Quadrat-Verteilung mit Freiheitsgraden verglichen, wobei kleine Werte für eine gute Anpassungsgüte sprechen.

Theoretische Grundlage[Bearbeiten | Quelltext bearbeiten]

Anders als es sonst bei statistischen Testverfahren üblich, liegt kein bewiesener Satz vor, aus dem hervorgeht, unter welchen Bedingungen eine Teststatistik, deren Realisation die Hosmer-Lemeshow-Testgröße ist, approximativ oder asymptotisch einer Chi-Quadrat-Verteilung mit Freiheitsgraden folgt. Die Basis ist vielmehr eine Vermutung, die durch Simulationsuntersuchungen gestützt wird. „Using an extensive set of simulations, Hosmer and Lemeshow (1980) demonstrated that, when and the fitted model is the correct model, the distribution of is well approximated by the chi-square distribution with degrees of freedom . While not specically examined, it is likely that also approximated the distribution when .“[5] Hierbei bezeichnet die Anzahl der beobachteten Wertekonstellationen der erklärenden Variablen (Kovariablen) (covariate pattern[6]) und die Anzahl der beobachteten Werte. „This is the case most frequently encountered in practice, when there is at least one continuous covariate in the model.“[7] Jedenfalls setzen damit die Autoren des Tests ein Warnsignal für Anwendungen, bei denen deutlich kleiner als ist.

Hosmer-Lemeshow-Test für die multinomiale logistische Regression[Bearbeiten | Quelltext bearbeiten]

Eine Verallgemeinerung der logistischen Regression, bei der die erklärte Variable die beiden Wert 0 und 1 annehmen kann, ist die multinomiale logistische Regression, bei der die erklärte Variable Werte in der Menge annimmt und die Anzahl der Kategorien ist.[8] Für diesen Fall existiert eine Verallgemeinerung des Hosmer-Lemeshow-Tests.[9][10]

In diesem Fall gibt es Gruppen und Kategorien, wobei die Kategorie als Referenzkategorie dient. Die zu berechnende Testgröße hat dann Summanden und besitzt die Form

wobei die die beobachteten Ereignisse und die erwarteten geschätzten Ereignisse in Gruppe und Kategorie sind.

Literatur[Bearbeiten | Quelltext bearbeiten]

  • Morten M. Fagerland, David M. Hosmer, A. M. Bofin: Multinomial goodness-of-fit tests for logistic regression models. In: Statistics in Medicine. Band 27, S. 4238–4253, doi:10.1002/sim.3202.
  • David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression (= Wiley Series in Probability and Statistics). 3. Auflage. Wiley, Hoboken 2013, ISBN 978-0-470-58247-3, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 157–169, doi:10.1002/9781118548387.
  • David W. Hosmer, Stanley Lemeshow: Goodness of fit tests for the multiple logistic regression model. In: Communications in Statistics – Theory and Methods. Band 9, Nr. 10, 1980, S. 1043–1069, doi:10.1080/03610928008827941.

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. David W. Hosmer, Stanley Lemeshow: Goodness of fit tests for the multiple logistic regression model. In: Communications in Statistics – Theory and Methods. Band 9, Nr. 10, 1980, S. 1043–1069, doi:10.1080/03610928008827941.
  2. a b David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests.
  3. Yingxiang Huang, Wentao Li, Fima Macheret, Rodney A Gabriel, Lucila Ohno-Machado: A tutorial on calibration measurements and calibration models for clinical prediction models. In: Journal of the American Medical Informatics Association. Band 27, Nr. 4, 2020, S. 621–633, doi:10.1093/jamia/ocz228.
  4. Prabasaj Paul, Michael L. Pennell, Stanley Lemeshow: Standardizing the power of the Hosmer–Lemeshow goodness of fit test in large data sets. In: Statistics in Medicine. Band 32, 2013, S. 67–80, Formel (1), S. 68, doi:10.1002/sim.5525.
  5. David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 158.
  6. David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 154.
  7. David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 5.2.2 The Hosmer-Lemeshow Tests, S. 155.
  8. David M. Hosmer, Stanley Lemeshow, Rodney X. Sturdivant: Applied Logistic Regression. 2013, Abschnitt 8.1 The multinomial logistic regression, S. 269–289.
  9. Morten M. Fagerland, David M. Hosmer, A. M. Bofin: Multinomial goodness-of-fit tests for logistic regression models. In: Statistics in Medicine. Band 27, S. 4238–4253, doi:10.1002/sim.3202.
  10. Morten M. Fagerland, David M. Hosmer: A generalized Hosmer–Lemeshow goodness-of-fit test for multinomial logistic regression models. In: The Stata Journal. Band 12, Nr. 3, S. 447–453.