Probit-Modell

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Dieser Artikel wurde auf der Qualitätssicherungsseite des Portals Mathematik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Mathematik auf ein akzeptables Niveau zu bringen.

Bitte hilf mit, die Mängel dieses Artikels zu beseitigen, und beteilige dich bitte an der Diskussion! (Artikel eintragen)

Das Probit-Modell ist in der Statistik die Spezifikation eines verallgemeinerten linearen Modells. Probit ist ein Kofferwort für prob(ability un)it, das aus den zwei englischen, überlappenden Wörtern für Wahrscheinlichkeit und Einheit (0 oder 1) entstanden ist.

Die statistische Spezifikation bezeichnet denjenigen Prozess der Modellentwicklung, in dem ein statistisch schätzbares Modell (Schätzmodell) festgelegt wird. Verallgemeinerte lineare Modelle sind nichtlineare Erweiterungen der klassischen linearen Regression. Das Probit-Modell verwendet die Probit-Funktion als Kopplungsfunktion, die den Erwartungswert der Zielgröße in Beziehung zum linearen Prädiktor des Modells setzt. Probit-Modelle wurden von Chester Ittner Bliss eingeführt, der diese willkürlichen Wahrscheinlichkeitseinheiten als 'Probits' bezeichnete (These arbitrary probability units have been called ‘probits’).[1]

Anwendung[Bearbeiten | Quelltext bearbeiten]

Die Probit-Modelle werden wie die Logit-Modelle dazu verwendet, binäre Zielgrößen in binären diskreten Entscheidungsmodellen abzubilden. Sie verwenden Zielgrößen , die nur zwei Werte annehmen können. Beispiele:

„Lässt sich scheiden“ → Ja/Nein,
„Kunde hat Produkt A gekauft“ → Ja/Nein,
 → .

Als Stichprobe werden Kunden beim Ausgang befragt, ob sie das Produkt A gekauft haben. Das Probit-Modell kann erstens – analog zur Regression – berechnen, ob die gleichzeitig erhobenen Merkmale das Kaufverhalten „gut“ erklären. Im positiven Fall ist eine Schätzung möglich, wie groß der Absatz ist, wenn den ganzen Markt beschreibt.

Diese Modelle haben in der Anwendung eine sehr weite Verbreitung. Innerhalb der verallgemeinerten linearen Modelle liefert das Logit-Modell bessere Resultate bei extrem unabhängigen Variablenebenen. Umgekehrt ist das Probit-Modell im Allgemeinen besser bei Zufallseffekten mit Datensätzen mittlerer Größe.

Definition[Bearbeiten | Quelltext bearbeiten]

Probit-Modelle sind nichtlineare Modelle, die zur Erklärung binärer Zielgrößen dienen, wobei 0 das Nicht-Eintreten und 1 das Eintreten eines Ereignisses kodiert. Der Vektor der erklärenden Variablen, dargestellt als , repräsentiert die verschiedenen Beobachtungen, die durch den Index unterscheidbar sind, und beeinflusst die Wahrscheinlichkeit des Eintretens von Ereignis 0 oder 1.

Wenn die Zielgröße und die Einflussgrößen sind, dann lautet das Probit-Modell als Formel:

,

Notation:

  • , gesprochen „Phi von x“, bezeichnet die Verteilungsfunktion einer Standardnormalverteilung mit der Wahrscheinlichkeit, dass die zugehörige Zufallsvariable einen Wert kleiner oder gleich annimmt.
  • Die Normierungskonstante gehört zum Integral von minus unendlich bis , geschrieben über die Exponentialfunktion , und ist eine gebundene Variable.
  • Das nichtelementare Integral ist notwendig, um die Normalverteilungsdichte an der Wahrscheinlichkeitsdichte zu normieren. Es wurde 1782 von Pierre-Simon Laplace entwickelt.

Die Formel zum Probit-Modell heißt: Die auf die erklärenden Variablen bedingte Wahrscheinlichkeit“, dass die Antwortvariable gleich ist, entspricht einer Funktion mit der Linearkombination der erklärenden Variablen . Der Parametervektor wird typischerweise mit der Maximum-Likelihood-Methode geschätzt. Bei dieser Methode der größten Dichte wird derjenige Vektor als Schätzung ausgewählt, gemäß dessen Verteilung die Realisierung der beobachteten Daten am plausibelsten erscheint.

Modell[Bearbeiten | Quelltext bearbeiten]

Generalisiertes lineares Modell[Bearbeiten | Quelltext bearbeiten]

In vielen praktischen Szenarien sind die grundlegenden Annahmen des klassischen linearen Modells, insbesondere in Bezug auf eine normalverteilte Zielgröße , nicht erfüllt. Das generalisierte lineare Modell bietet eine Erweiterung, die es ermöglicht, solche Situationen angemessen zu modellieren.

Das generalisierte lineare Modell wird durch folgende Gleichung definiert

wobei den erwarteten Wert der Zufallsvariablen bei einem bestimmten Wert von beschreibt. Der lineare Prädiktor wird durch die Gleichung:

oder äquivalent durch:

.

repräsentiert. Hierbei sind die Zufallsvariablen, die die Zielgröße an der Stelle beschreiben, die Responsefunktion oder die Linkfunktion und die Regressionskoeffizienten des linearen Prädiktors.

Die Linkfunktion hat die Aufgabe, den Wertebereich des linearen Prädiktors, der die reelle Zahlen umfasst, auf den Wertebereich von abzubilden. Das bedeutet , wobei der Wertebereich von darstellt. Der Fehlerterm wird in einem generalisierten linearen Modell nicht explizit aufgeschrieben, sondern ist in der Verteilung von enthalten.

Das Probit-Modell ist ein spezielles generalisiertes Modell, bei dem die

.

Bernoulli verteilt sind. Hierbei ist die Wahrscheinlichkeit dafür, dass ist. Um die Wahrscheinlichkeit mit dem linearen Prädiktor zu verbinden, gibt es verschiedene Möglichkeiten, da eine Funktion gesucht wird mit .

Im Probit-Modell wird die Linkfunktion als die Verteilungsfunktion der Standardnormalverteilung definiert:

und es ergibt sich

.

Im Probit-Modell wird also die Wahrscheinlichkeit für geschätzt in Abhängigkeit der erklärenden Variablen .

Grundsätzlich könnte man auch die Verteilungsfunktion einer beliebigen Normalverteilung als Linkfunktion wählen, jedoch würden sich nur die Regressionskoeffizienten ändern, während die grundlegende Struktur des Modells erhalten bliebe.

Eine Alternative zum Probit-Modell ist das Logit-Modell mit einer anderen Linkfunktion. Jedoch wurde das Probit-Modell in den 1930er Jahren von Chester Ittner Bliss eingeführt[1], einem Statistiker, der für seine Arbeit in der Agrarstatistik und Biometrie bekannt ist. Das Logit-Modell wurde erst später von Joseph Berkson in den 1940er Jahren entwickelt.[2] Die Verwendung des Probit-Modells vor der Einführung des Logit-Modells war nicht auf eine bewusste Präferenz für das Probit-Modell zurückzuführen, sondern auf die begrenzten statistischen Methoden und das Verständnis zu dieser Zeit.

Latentes Variablenmodell[Bearbeiten | Quelltext bearbeiten]

Das Probit-Modell kann auch als latentes Variablenmodell interpretiert werden.[3] Eine latente Variable ist eine Variable, deren Wert nicht direkt beobachtbar ist. Man kann lediglich bestimmte Eigenschaften der Variable erkennen, wie zum Beispiel, ob ihr Wert größer oder kleiner gleich Null ist. Man startet mit einem normalen linearen Regressionsmodell für die latente Variable , was bedeutet, dass:

Für die Fehler nimmt man an, dass sie unabhängig und identisch verteilt (i.i.d.) sind und symmetrisch um Null verteilt sind, jedoch nicht unbedingt normalverteilt sein müssen.

Kann man den tatsächlichen Wert von nicht beobachten, sondern nur feststellen, ob er größer als Null ist oder nicht, erhält man als beobachtbare Zielgröße eine andere Variable, bezeichnet als mit

Ein Beispiel ist das Gehen lernen bei einem Kleinkind. Man kann die neuro-motorischen Fähigkeiten nicht direkt messen, aber man sieht, ob das Kleinkind bereits in der Lage ist zu laufen oder nicht.

Da einer Bernoulliverteilung folgt, kann der Zusammenhang zwischen und mit einem Probit- oder Logit-Modell modelliert werden.

Mit der Symmetrie der Verteilung von folgt

Folgt einer Standardnormalverteilung mit der Verteilungsfunktion , dann gilt:

und man erhält das Probit-Modell. Setzt man eine logistische Fehlerverteilung an, dann bekommt man das Logit-Modell.

Modellschätzung[Bearbeiten | Quelltext bearbeiten]

Maximum-Likelihood-Schätzung[Bearbeiten | Quelltext bearbeiten]

Die Maximum-Likelihood-Schätzung ist eine statistische Methode die Parameter eines Modells (hier: ) so zu wählen, dass die Wahrscheinlichkeit, die beobachteten Daten zu erhalten, maximiert wird.

Die Wahrscheinlichkeit mit der eine Beobachtung im Probit-Modell auftritt ist

mit .

Da die Zufallsvariablen als unabhängig und identisch verteilt angenommen werden, ist die Wahrscheinlichkeit der gesamten Stichprobe gleich dem Produkt der Wahrscheinlichkeiten der einzelnen Beobachtungen:

Da die aus Stichprobe bekannt sind, hängt die Wahrscheinlichkeit nur von den unbekannten 's ab. Die Likelihood-Funktion ist daher

und die Loglikelihood-Funktion ergibt sich zu

.

Die Schätzwerte für die sind die Werte bei denen die Wahrscheinlichkeit des Auftretens der Stichprobe am größten ist

.

Die Wahrscheinlichkeitsdichtefunktion der Standardnormalverteilung führt zu einer nichtlinearen Likelihood-Funktion bzw. Loglikelihood-Funktion. Daher sind numerische Optimierungsmethoden erforderlich, um die Maximum-Likelihood-Schätzer für die Parameter zu finden. Typischerweise werden iterative Methoden wie das Newton-Raphson-Verfahren oder das Gradientenabstiegsverfahren verwendet, um numerische Näherungslösungen zu finden.

Der Schätzer der die Likelihood-Funktion maximiert, ist konsistent, asymptotisch normal und effizient, vorausgesetzt, dass existiert und nicht singulär ist. Es kann gezeigt werden, dass die Loglikelihood-Funktion global konkav ist in und daher standardmäßige numerische Algorithmen für die Optimierung schnell zum eindeutigen Maximum konvergieren werden.

Die asymptotische Verteilung für ist gegeben durch

wobei die Inverse der Fisher-Informationsmatrix ist.

Geschichte[Bearbeiten | Quelltext bearbeiten]

Das Probit-Modell wird meist Chester Bliss und John Gaddum zugeschrieben, die das Modell in den 1930er Jahren formalisierten. Chester Bliss ist bekannt für seine grundlegende Arbeit zur formalen Einführung und Entwicklung des Probit-Modells.[1] Insbesondere prägte er den Begriff „Probit“ im Jahr 1934, der fortan zur Beschreibung dieses statistischen Modells verwendet wurde. sein Beitrag zur Systematisierung früherer Arbeiten auf diesem Gebiet war wichtig. Bliss trug dazu bei, das Probit-Modell in den 1930er Jahren als eigenständiges statistisches Werkzeug zu etablieren, indem er die mathematischen Grundlagen des Modells klärte und seine Anwendbarkeit auf verschiedene Forschungsbereiche demonstrierte. John Gaddums Beitrag zur Systematisierung früherer Arbeiten auf diesem Gebiet war dabei wichtig. Durch die Zusammenstellung und Strukturierung vorhandener Erkenntnisse trug Gaddum dazu bei, das Probit-Modell in den 1930er Jahren als eigenständiges statistisches Werkzeug zu etablieren.

Die Ursprungsidee auf das Weber-Fechner-Gesetz von Gustav Fechner aus dem Jahr 1860 zurück[4], das die Beziehung zwischen Reizintensität und Wahrnehmung beschrieb. Bos 1930 wurde der Probit-Ansatz verschiedentlich wieder entdeckt, siehe Finney (1971, Kapitel 3.6)[5] und Aitchson & Brown (1957, Kapirel 1.2).[6] oder Cramer (2004).[7]

Vor der formalen Etablierung des Probit-Modells wurden verschiedene Ansätze zur Analyse binärer Daten von Forschern wie Francis Galton und Karl Pearson erforscht. Die Vorarbeit von Francis Galton zur Regression und Korrelation sowie seine Forschung zur Messung von Variationen in Populationen trugen zur Entwicklung statistischer Konzepte bei, die später in der Modellierung von binären Daten verwendet wurden.[8] Karl Pearson's Vorarbeit zur Entwicklung statistischer Methoden und zur Formalisierung statistischer Modelle, insbesondere im Bereich der multivariaten Statistik und der Korrelationsanalyse, trug ebenfalls zur Entwicklung des Probit-Modells bei.[9]

Ronald Fisher trug zur Verbreitung des Probit-Modells bei, indem er eine schnelle Methode zur Berechnung des Maximum-Likelihood-Schätzer vorschlug.[10] Sein Beitrag stärkte das Probit-Modell als eines der grundlegenden Werkzeuge der statistischen Analyse von binären Daten.

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. a b c Bliss, C. I. (1934). The method of probits. Science, 79, 38–39. https://doi.org/10.1126/science.79.2037.38
  2. Berkson, J. (1944), Application of the Logistic Function to Bio-Assay, in: Journal of the American Statistical Association 39, 357-365. https://doi.org/10.2307/2280041
  3. Kalisch, M., Meier, L. (2021). Das logistische Regressionsmodell. In: Logistische Regression. essentials. Springer Spektrum, Wiesbaden. https://doi.org/10.1007/978-3-658-34225-8_3
  4. Fechner, G. T. (1860). Elemente der Psychophysik. Leipzig: Breitkopf und Härtel.
  5. Finney, D. J. (1971). Probit analysis (3rd ed.). Cambridge, UK: Cambridge University Press.
  6. Aitchison, J., & Brown, J. A. (1957). Lognormal distribution. Cambridge, UK: Cambridge University Press.
  7. Cramer, J. S. (2004). The early origins of the logit model. Studies in History and Philosophy of Science Part C: Studies in History and Philosophy of Biological and Biomedical Sciences, 35(4), 613-626.
  8. Galton, F. (1886). Regression towards mediocrity in hereditary stature. The Journal of the Anthropological Institute of Great Britain and Ireland, 15, 246-263.
  9. Pearson, K. (1904). On the Theory of Contingency and Its Relation to Association and Normal Correlation. Drapers' Company Research Memoirs: Biometric Series, 1(6), 1-88.
  10. Fisher, R. A. (1935). The Case of Zero Survivors in Probit Assays. Annals of Applied Biology. 22: 164–165. doi:10.1111/j.1744-7348.1935.tb07713.x