Youden-Index

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Der Youden-Index (auch Youdens J[1]) ist ein Wert, welcher hilft in der Receiver Operating Characteristic den optimalen Schwellenwert zu wählen, um den jeweiligen Recall zweier Gruppen in einer Trade-off-Situation zu maximieren. Der optimale Schwellenwert ist derjenige, welcher den maximalen Youden-Index besitzt.

Der Youden-Index wurde von William J. Youden im Jahr 1950 entwickelt[2] und wird wie folgt berechnet:[3]

wobei Sensitivität (Recall der Klasse 1) und Spezifität (Recall der Klasse 0) Maße zur Beurteilung eines Klassifikators für die Gruppenunterscheidung sind.

Wertebereich[Bearbeiten | Quelltext bearbeiten]

In der Originalarbeit von 1950 gibt Youden einen Wertebereich zwischen 0 und 1 an.[2] Dieser Wertebereich wird in der Literatur häufig übernommen.[4][5] Seltener wird in der Literatur auch ein Wertebereich zwischen −1 und 1 angegeben.[6] Wenn man alleine von der Formel ausgeht und annimmt, dass die Sensitivität und die Spezifität für sich genommen jeweils 0 annehmen können, nähme der Youden-Index in diesem Fall −1 an. Dies würde bedeuten, dass der Test mit dem gewählten Testtrennwert beispielsweise alle kranken Testpersonen fälschlich als gesund und alle gesunden Testpersonen fälschlich als krank klassifizieren würde. Da der Test in diesem Fall allerdings perfekt zwischen gesunde und kranke Testpersonen unterscheiden würde, müsste er lediglich umgekehrt ausgewertet werden, was einem Youden-Index von 1 entspräche. Ein Youden-Index von 0 hingegen würde bedeuten, dass beide Gruppen mit der Wahrscheinlichkeit eines Münzwurfes korrekt oder falsch klassifiziert werden, was sich auch durch eine umgekehrte Auswertung nicht verbessern ließe.

Praktische Abwägung des Trennwertes[Bearbeiten | Quelltext bearbeiten]

Beispiel einer ROC-Kurve (rot). Gestrichelte Linie Klassifikator ohne Vorhersagekraft (den no-skill classifier). Die vertikale Linie (J) kennzeichnet den maximalen Youden-index für die ROC-Kurve. Die Kurve entsteht durch anwenden unterschiedlicher Thresholds bei der Entscheidung für die Klassenzuordnung.

Die Trennung der Gruppen gelingt am besten, wenn der Youden-Index am größten wird.[3] Der Index ist unabhängig von der Grundquote (Prävalenz) einer Störung.[7] Anders ist das beispielsweise bei der Gesamttrefferquote (engl. Accuracy, also die Wahrscheinlichkeit richtig zu diagnostizieren). Hier gehen die Fallzahlen der beiden zu trennenden Gruppen ein, was zu einer Verzerrung führen kann, wenn der Wert von der Fehlerrate der größeren Gruppe dominiert wird.[8] Der Youden-Index ist zu unterscheiden von den Maßen Gesamttrefferquote und Aufdeckungsrate.[7] Beim Youden-Index werden falsch negative Klassifikationen ebenso gewichtet, wie falsch positive. Beispielsweise würde ein Test mit einer Sensitivität von 0,25 und einer Spezifität von 0,9 den gleichen Wert für den Youden-Index ergeben, wie ein Test mit einer Sensitivität von 0,9 und einer Spezifität von 0,25.[9] In der Praxis kann allerdings ein Klassifikationsfehler der einen Art schwerwiegender sein als ein Klassifikationsfehler der anderen Art, weshalb es sinnvoll sein kann diese Klassifikationsfehler getrennt zu betrachten. So könnte man sich beispielsweise dafür entscheiden einen Schwellenwert zu wählen, bei dem zwar einige Gesunde fälschlich als krank kategorisiert werden, aber dafür weniger wirklich Kranke übersehen werden.

Alternativen[Bearbeiten | Quelltext bearbeiten]

Precision-Recall Curve, die Farben zeigen die Thresholds an durch die die Precision und Recall-Werte erlangt wurden. Der Punkt mit maximalem F-score ist rot.

Alternativ zur Receiver Operating Characteristic kann der optimale Schwellenwert auch anhand der Precision-Recall-Curve bestimmt werden. In diesem Fall, ist der optimale Schwellenwert derjenige, welcher den F-Score maximiert (wobei mehr Gewicht auf dem Erkennen einer Klasse liegt).

Eine weitere ausgewogene Alternative, welche beide Klassen berücksichtigt, ist der Matthew-Korrelationskoeffizient.

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Lothar Kreienbrock, Iris Pigeot, Wolfgang Ahrens: Epidemiologische Methoden. Springer-Verlag, 2012, ISBN 978-3-8274-2334-4, S. 171 (google.de).
  2. a b William J. Youden: Index for rating diagnostic tests. In: Cancer. 3. Jahrgang, Nr. 1, 1950, S. 32–35, doi:10.1002/1097-0142(1950)3:1<32::aid-cncr2820030106>3.0.co;2-3.
  3. a b Helfried Moosbrugger, Augustin Kelava: Testtheorie und Fragebogenkonstruktion. Springer, 2011, ISBN 978-3-642-20072-4, S. 186–187 (eingeschränkte Vorschau in der Google-Buchsuche).
  4. Helfried Moosbrugger, Augustin Kelava: Testtheorie und Fragebogenkonstruktion. Springer-Verlag, 2011, ISBN 978-3-642-20072-4, S. 186 (google.de [abgerufen am 6. Oktober 2020]).
  5. Louisa Lorenz: Diagnostik von Anpassungsstörungen: Ein Fragebogen zum neuen ICD-11-Modell. Springer-Verlag, 2016, ISBN 978-3-658-13051-0, S. 44 (google.de [abgerufen am 6. Oktober 2020]).
  6. Stephanie Stock, Marcus Radaélli, Karl W. Lauterbach: Wörterbuch Gesundheitsökonomie. Kohlhammer Verlag, 2008, ISBN 978-3-17-027230-9 (google.de [abgerufen am 6. Oktober 2020]).
  7. a b Heinrich Tröster: Früherkennung im Kindes- und Jugendalter: Strategien bei Entwicklungs-, Lern- und Verhaltensstörungen. Hogrefe Verlag, 2009, ISBN 978-3-8409-2078-3, S. 94 (eingeschränkte Vorschau in der Google-Buchsuche).
  8. Martin Schumacher, Gabriele Schulgen-Kristiansen: Methodik klinischer Studien: Methodische Grundlagen der Planung, Durchführung und Auswertung. Springer-Verlag, 2008, ISBN 978-3-540-85136-3 (google.de [abgerufen am 17. Februar 2019]).
  9. Noel S. Weiss, Thomas D. Koepsell: Epidemiologic Methods: Studying the Occurrence of Illness. Oxford University Press, 2014, ISBN 978-0-19-938778-6 (google.de [abgerufen am 16. Februar 2019]).