Diskussion:Box-Plot

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Diese Diskussionsseite dient dazu, Verbesserungen am Artikel „Box-Plot“ zu besprechen. Persönliche Betrachtungen zum Thema gehören nicht hierher. Für allgemeine Wissensfragen gibt es die Auskunft.

Füge neue Diskussionsthemen unten an:

Klicke auf Abschnitt hinzufügen, um ein neues Diskussionsthema zu beginnen.

Ausschließlich kardinalskaliert?[Quelltext bearbeiten]

Ein Dozent erwähnte, dass sie ebensogut für ordinalskalierte Daten mit ausreichend vielen Ausprägungen sinnvoll sind. Der englische Wiki beschreibt dazu grouped numerical data, was dem nicht widerspricht.

--2A02:8071:B390:2201:D81A:3660:3F8C:4C14 05:47, 28. Mär. 2015 (CET)[Beantworten]

Dem stimme ich zu: ich kenne keine Literatur, bei welche die Daten kontinuierlich = kardinalskaliert sein müssen. Bei ordinalskalierten Daten hat man meist geklumpte Daten (s.u. mein Kommentar bei Median), hier muss man für Quartilenberechnungen die exaktere Interpolationsmethode verwenden. PPilz (Diskussion) 16:26, 7. Apr. 2015 (CEST)[Beantworten]

Ordinalskaliert bedeutet, dass die daten beliebigen monotonen Transformationen unterworden werden dürfen. Abstände haben dann definitionsgemäß keine Bedeutung. Schiefe kann nicht interpretiert werden. Die Lage des Medians zwischen dem unteren und oberen Quantil kann nicht interpretiert werden. Das 1,5-fache eines Quartilabstandes ist für ein ordinales Merkmal völlig sinnlos. Alle Interpretationen, die auf Längen, Abständen usw. beruhen sind für eine ordinales Merkmal sinnlos. Hier wurde schon im ersten Satz Theoriefindung betrieben oder man ist auf qualitativ schlechte Quellen (oder Dozenten) hereingefallen. Im Buch von Mosler und Schmid, das im ersten Satz des Artikels referenziert ist, ist Boxplot nicht umsonst ein Unterabschnitt im Abschnitt Metrisch skalierte Daten. --Sigma^2 (Diskussion) 17:29, 5. Okt. 2023 (CEST)[Beantworten]

Schiefe beim Boxplott[Quelltext bearbeiten]

Sagt nicht auch die Lage der Box etwas über die Schiefe aus?

Zitat aus "Deskriptive Statistik" von Prof. Dr. Martin Missong und Prof. Stefan Mittnik:
...relativ gering[e] Abstände zwischen Minimum, unterem Quartil und Median, verglichen mit den relativ großen Abständen zwischen Median, oberem Quartil und Maximum, spiegeln die "linkssteile" bzw. "rechtsschiefe" Verteilung [...] wieder.

Tun sie, aber wie im Artikel bereits beschrieben ist die Lage des Medians maßgeblich und dem widersprichst du hier auch nicht. --jkohl 09:39, 12. Aug. 2008 (CEST)[Beantworten]

Unklarheit über Bestimmung der Quartile[Quelltext bearbeiten]

Bestimmung der Quartile

Version 1: (Schulbuch): Das untere Quartil ist der Median der unteren Hälfte. (Was genau ist bei einer ungeraden Anzahl die "untere Hälfte"? Ich schlage vor, man entfernt den Median, damit ist "die untere Hälfte" wieder genau definiert. Es ist sogar ganz elegant, denn da bei einer geraden Anzahl der Median keinen eindeutigen "Träger" hat, entfernt man hier eben nichts.)

weitere Versionen: 0,25 der Anzahl der Daten, und man nimmt den Wert, der am nächsten dran liegt, aber es gibt auch noch weitere. Torika 15:08, 14. Apr 2008

Diese Aussage ist falsch, das Perzentil P25 ist nicht der Median der unteren Hälte wenn von der Verteilung innerhalb der Whisker gesprochen wird. Das Perzentil P25 muss nicht Teil der Messwerte sein, ebenso der Median. Dies ist in, im Fall des Median, Verteilungen mit einer geraden Anzahl Messwerte der Fall.

Schulbuch ist falsch, da es vereinfacht. Man macht eine kumulative Häufigkeitsverteilung der Daten, und liest bei 25% und 75% ab, wo genau die Quartilen liegen PPilz (Diskussion) 16:40, 7. Apr. 2015 (CEST)[Beantworten]

Die Werte ausserhalb der Whiskers sind keine Ausreisser. Es gibt von Gather einen Aufsatz der Ausreisser mit Verteilungsannahmen verkoppelt und dass scheint mir ein besserer Ansatz zu sein. Besser wäre es daher von Extremwerten zu sprechen. --Sigbert 21:00, 10. Dez. 2008 (CET)[Beantworten]

Wo ist dieser Artikel? Würde mich interessieren. Die übliche Regel für Ausreißer bei Box-Whisker-Plots, also ein fixes Maß für Ausreißer = 1.5 IQR, wie von Tukey damals vorgeschlagen, ist sicherlich nicht sinnvoll. Ein Ausreißermaß muss vom Stichprobenumfang abhängen. Zitat aus https://en.wikipedia.org/wiki/Outlier:

"...in large samples, a small number of outliers is to be expected (and not due to any anomalous condition)." PPilz (Diskussion) 16:41, 7. Apr. 2015 (CEST)[Beantworten]

Die Abbildung – und teilweise auch der Text – suggerieren eine unsinnige Interpretation davon, was ein Ausreisser ist. Ausreisser sind nicht irgendwelchen extremen Werte in einem Datensatz, sondern Werte, die aus einer anderen Verteilung fälschlich in einen Datensatz geraten sind. --Sigma^2 (Diskussion) 16:29, 5. Okt. 2023 (CEST)[Beantworten]

gekerbte Boxplots[Quelltext bearbeiten]

Könnte man doch erwähnen! (nicht signierter Beitrag von 84.180.156.165 (Diskussion | Beiträge) 13:39, 5. Nov. 2009 (CET)) [Beantworten]

Bin kein Wikipedia-Experte, aber: müsste man diesen Diskussionsbeitrag nicht löschen, nachdem er im Artikel umgesetzt wurde? PPilz (Diskussion) 16:37, 7. Apr. 2015 (CEST)[Beantworten]

Interquartilsabstand falsch?[Quelltext bearbeiten]

Beim Beispiel steht folgendes: So erkennt man direkt, dass der Median (durchgezogene Linie) genau bei 8,5 liegt und dass je 25 % der Daten unter 7 und über 9,25 liegen, denn dies sind genau die Abmessungen der Box, in der 50 % der Messwerte enthalten sind. Folglich ist auch der Interquartilsabstand, der der Länge der Box entspricht, genau 2,5.

Müsste die Länge der Box nicht 2,25 betragen? 9,25 - 7 = 2,25 und nicht 2,5. (nicht signierter Beitrag von 193.171.33.216 (Diskussion | Beiträge) 18:32, 7. Apr. 2010 (CEST)) [Beantworten]

erledigtErledigt, Siehe auch Wikipedia:Sei mutig -- Schlurcher ??? 17:09, 8. Apr. 2010 (CEST)[Beantworten]

Ich habe mir alles noch mal genauer angeschaut. Die Boxplotlänge von 2,25 ist meiner Meinung nach falsch. Der Fehler liegt meiner Meinung nach bei den 9,25 der 75% der Daten (3. Quartil). 75% der Daten liegen nämlich nicht bei 9,25 sondern bei 9,5. Diese errechnen sich aus (9+10)/2. Somit stimmt die Länge des Boxplots mit 2,5 (errechnet sich aus 9,5 - 79. Jedoch muss das 3.Quartil von 9,25 in 9,5 geändert werden. (nicht signierter Beitrag von 193.171.33.216 (Diskussion | Beiträge) 20:15, 12. Apr. 2010 (CEST)) [Beantworten]

Beispiel: Median[Quelltext bearbeiten]

Muss der Median nicht ein Vertreter der Messdaten sein? Ich sehe keine 8,5 in den Daten. Zugegeben, bei gerade Anzahl von Daten ist das mittlere Element (Median) nicht ganz eindeutig zu bestimmen, aber ich wuerde dann eben immer links neben der Mitte schauen. Ich wuerde also als Median 8 waehlen. (nicht signierter Beitrag von 129.70.161.79 (Diskussion) 17:11, 28. Feb. 2012 (CET)) [Beantworten]

Nein, bei einer geraden Anzahl von Beobachtungen ist der Median der Mittelwert der beiden mittleren Beobachtungen. --Sigbert (Diskussion) 15:07, 1. Mär. 2012 (CET)[Beantworten]
Nun für mich in der Informatik ist es wichtig, dass der Median Element der Menge ist, laut Wiki nennt man das dann "Unter-" oder "Ober-" median. Sollte man das bei dem Beispiel vielleicht erwähnen um Unklarheiten zu vermeiden? (nicht signierter Beitrag von 84.62.112.53 (Diskussion) 22:15, 1. Mär. 2012 (CET)) [Beantworten]
Das widerspricht der Eigenschaft des Medians, dass er die Daten in zwei gleich große Hälften teilt. --Sigbert (Diskussion) 18:54, 2. Mär. 2012 (CET)[Beantworten]
Nein, das ist überhaupt kein Problem. Der Median ist der Wert, so dass mindestens die Hälfte der Werte größer oder gleich und mindestens die Hälfte der Werte kleiner oder gleich ist.--Kortenkamp (Diskussion) 08:32, 9. Aug. 2012 (CEST)[Beantworten]
Falsch: diese Angaben/Kommentare gelten nur, wenn der Wert oberhalb und unterhalb des Medians jeweils nur ein mal vorkommen. Sollte der Wert unterhalb des Medians z.B. drei mal (also geklumpt) vorkommen, der oberhalt des Medians z.B. fünf mal, dann liegt der Median nicht genau in der Mitte (auch wenn viele Statistikprogramme das so rechnen). Man muss im Prinzip eine kumulative Häufigkeitsverteilung aufzeichnen, und bei 50% ablesen, dann erhält man den Median auch für geklumpte Daten exakt PPilz (Diskussion) 16:19, 7. Apr. 2015 (CEST)[Beantworten]

Abb. Beispielboxplot oben rechts[Quelltext bearbeiten]

Welcher Definition der "Whiskers" folgt der Beispielboxplot oben rechts auf der Seite denn eigentlich? Wäre das 1,5-fache des Interquartilabstandes zu Grunde gelegt, dann lägen die angezeigten "Ausreißer" noch innerhalb dessen, beim Maximum/Minimum natürlich ebenso. Beim 2,5-%-Quantil bzw. 97,5-%-Quantil gäbe es ab einem gewissen Stichprobenumfang auch oben "Ausreißer", die aber (genauso wie die unteren) nicht automatisch so bezeichnet werden sollten.

Außerdem sollte es in der Bildunterschrift vermutlich "horizontal" statt "vertikal" heißen.

Ich denke, die Abbildung im Ganzen ist nicht optimal, insbesondere, da sie die prominenteste der Seite ist. Die zu Grunde liegende Definition sollte angegeben werden und die Bildunterschrift sollte korrigiert werden. (nicht signierter Beitrag von 131.159.65.107 (Diskussion) 16:51, 14. Mai 2012 (CEST)) [Beantworten]

Handelt es sich genau genommen nicht um eine Zahlengerade statt von einem Zahlenstrahl zu sprechen? (nicht signierter Beitrag von 2003:7A:AE32:704C:2DB8:480C:AB1F:C4D8 (Diskussion | Beiträge) 14:44, 14. Mär. 2016 (CET))[Beantworten]

Antennen oder Whisker[Quelltext bearbeiten]

Im Artikel steht "Diese Linien werden als „Antenne“ oder **seltener** als „Fühler“ oder „Whisker“ bezeichnet" aber sogar in diesem Artikel werden sie fast nur "Whisker" genannt. Passt irgendwie nicht zusammen. (nicht signierter Beitrag von 85.195.252.184 (Diskussion) 14:38, 16. Mai 2016 (CEST))[Beantworten]

Kategorie Technische Zeichnung?[Quelltext bearbeiten]

Ist die Kategorie "Technische Zeichnung" wirklich zutreffend? --Harald321 (Diskussion) 22:26, 25. Jun. 2016 (CEST)[Beantworten]

Boxplot Beispiel[Quelltext bearbeiten]

Hallo, im Beispiel steht, dass je 25% der Daten unter 7 und über 9 liegen würden. Also ich stimme zu, dass 25% der Daten über 9 liegen, aber liegen nicht nur 20% der Daten unter 7?!! und liegen dadurch nicht auch 55% der Daten in der Box? (nicht signierter Beitrag von 2A01:C22:3419:4900:C9D6:5050:99BA:E66F (Diskussion) 15:43, 11. Dez. 2020 (CET)) Da hast du ja Recht, vielleicht sollte es so ausgedrückt werden: "bis 7 und ab 9,5". Yomomo (Diskussion) 18:24, 11. Dez. 2020 (CET)[Beantworten]

Im Boxplot Beispiel fehlen die Ausreißer bei 1 und 3. (nicht signierter Beitrag von 134.2.81.26 (Diskussion) 09:01, 29. Feb. 2024 (CET))[Beantworten]

Definition der Antennen/ Whisker[Quelltext bearbeiten]

In dem Mathematikbuch Lambacher-Schweizer für die sechste Klasse und auch auf dieser Webseite:

https://mathegym.de/mathe/uebung/2611/6-3-boxplots

wird die untere und die obere Grenze der Antennen bzw. Whisker mit dem Minimum und dem Maximum gleichgesetzt. Bei dieser Definition kann es schlicht keine Ausreißer oder Extremwerte in der Darstellung geben. Vielleicht sollte auf diese alternative Darstellungsart im Artikel hingewiesen werden. Immerhin steht das so in einem sehr verbreiteten Schulbuch für die sechsten Klassen an Gymnasien. Wenn Schülerinnen oder Schüler, die das so in ihrem Unterricht gelernt haben, diesen Wikipedia-Artikel lesen, könnten sie sich sonst wundern.

Viele Grüße

--Jake2042 (Diskussion) 21:32, 11. Mär. 2023 (CET)[Beantworten]
Hallo alle zusammen,
gerade habe ich gesehen, dass auf unterschiedliche Defintionen der Whisker bereits eingegengen wird. Mein Posting war also gar nicht nötig.
Viele Grüße
--Jake2042 (Diskussion) 14:39, 12. Mär. 2023 (CET)[Beantworten]