Diskussion:Diskriminanzanalyse

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 9 Jahren von Philipendula in Abschnitt Bild: 2 Grundgesamtheiten - Multivariate Gaußverteilungen
Zur Navigation springen Zur Suche springen

Bilder[Quelltext bearbeiten]

Hallo zusammen,

ich will folgendes Bild ersetzen:

Allerdings sind mir noch ein paar Dinge nicht klar:

  • Ist die y-Achse mit korrekt beschriftet?
  • Ist es bei den y-Achsen ticks ok das in % anzugeben?

Wenn ihr weitere vorschläge habt (z.B. Farbwünsche, weitere/andere Beschriftungen), dann ist jetzt ein guter Zeitpunkt diese zu nennen :-)

Viele Grüße, --Martin Thoma 19:49, 11. Aug. 2014 (CEST)Beantworten

Hallo Martin, das Bild koennte tatsaechlich verbessert werden. Und zwar befinden die angedeutete Erwartungswerte und sich nicht an die richtige Stellen; sie gehoeren auf der x-Achse zu liegen. Weiterhin ist das Benutzte symbol x doppeldeutig. Einerseits wird damit die Variabele der x-Achse gemeint, anderseits ist x auch der beobachtete Wert 70. Die Figur soll zwei Dichten zeigen von Normalverteilungen , beide mit , der eine aber mit , der andere mit . Die Notation fuer die Dichte einer Normalverteilung ist aber nicht ueblich bei Wikipedia. Ich werde noch darueber nachdenken wie dies am besten gezeichnet werden kann. Auch die Einheiten auf der Achsen sind noch problematisch. Nijdam (Diskussion) 00:17, 12. Aug. 2014 (CEST)Beantworten
Hallo Nijdam, danke für die Antwort :-)
Anstelle von für den beobachteten Wert könnte man schreiben.
Ich habe gerade mal für den Punkt auf beiden Kurven markiert. Denkst du das ist gut so?
Du kannst übrigens auch gerne direkt Vorschläge machen, bei denen du dir nicht sicher bist und das Bild einfach mal sehen musst. Noch sehe ich das Bild als Entwurf und bin über jeden Verbesserungsvorschlag glücklich :-)
Ich will gerne alle Bilder in diesem Artikel im gleichen Stil machen. Sobald wir also was gutes für dieses Bild gefunden haben, werde ich mit den anderen weiter machen.
Grüße, --Martin Thoma 06:02, 12. Aug. 2014 (CEST)Beantworten
Hi, folgende Vorschläge:
  • Ich würde auch schreiben um eine Doppeldeutigkeit zu vermeiden.
  • Den senkrechten Strich bei würde ich lassen und nur die Beschriftungen ergänzen. Oben dann allerdings .
  • Von der Beschriftung der X-Achse würde ich nur die relevanten Ticks lassen, also 40, 70, 80.
  • An der Y-Achse sollte stehen (oder die Beschriftung ganz weglassen), da dass der Wertebereich der Dichtefunktionen ist.
  • An der Y-Achse müssen die Prozente weg, da der Wertebereich der Dichtefunktion nicht in Prozent gemessen wird.
  • Anstelle der Legende unten könnten man auch gleich bzw. links und rechts oben in der Grafik stehen. Oder wie in R die Legende links oder rechts oben in die Grafik integrieren.
  • Man könnte auch noch in der Grafik ergänzen und .
  • Auf die konkreten Werte kommt es in der Grafik doch gar nicht an, wichtig ist doch nur ist; welchen Zweck also erfüllt das Gitter? Evtl. stattdessen eine waagrechten rote bzw. blaugrüne Linie vom Schnittpunkt zur y-Achse rüber zeichnen und dort dann bzw. schreiben.
  • Die Farben für die Dichtefunktionen sind gut gewählt.
Ich mag die Bücher von Edward Tufte zum Thema Grafik :) Ein Überblick seiner Hinweise findet sich u.a. in https://chnm.gmu.edu/digitalhistory/links/pdf/chapter4/4.13b%20and%204.21.pdf . --Sigbert (Diskussion) 09:23, 12. Aug. 2014 (CEST)Beantworten

Ok Sigbert, ich habe deine Vorschläge umgesetzt (glaube ich). Außerdem habe ich den Rahmen entfernt. Die Formel will ich nicht ins Bild tun. Das würde glaube ich das Bild wieder schlechter lesbar machen.

Grüße, --Martin Thoma 19:25, 12. Aug. 2014 (CEST)Beantworten

Mich stört noch, dass nirgends steht. Kann ich (und entsprechendes für schreiben? --Martin Thoma 19:37, 12. Aug. 2014 (CEST)Beantworten

Vielleicht sollte man das und komplett entfernen. --Martin Thoma 20:05, 12. Aug. 2014 (CEST)Beantworten

Leider stimmen die angedeuteten werten der Dichten im Punkt nicht. Es ist der Punkt das den Wert 70 hat. Weiter wuerde ich vorschlagen die Achsen nicht wie eine Pfeile zu zeichnen, aber die Beschriftung mit x und f(x) zusammen mit eine Pfeile am ende der gezeichneten Teilen der Achsen zu schreiben. Nijdam (Diskussion) 10:14, 14. Aug. 2014 (CEST)Beantworten
Hallo Nijdam,
das stimmt, es muss natürlich und nicht heißen.
Warum denkst du, dass die Pfeil-Achsen schlechter sind als die Rahmen-Achsen?
Grüße, --Martin Thoma 12:48, 14. Aug. 2014 (CEST)Beantworten
Vermutlich bin ich nur altmodisch. Jedenfalls sind die Beschriftungen und noch fehl am Platz. Sie sollen nicht auf die Punkte ziegen, sondern auf die Ordinaten. Nijdam (Diskussion) 16:26, 15. Aug. 2014 (CEST)Beantworten

@Nijdam: Ich habe die Position der Beschriftungen nun korrigiert. Denkst du, dass die Beschriftungen und überhaupt nötig sind? --Martin Thoma 16:09, 18. Aug. 2014 (CEST)Beantworten

JA, darum geht's doch im Biespiel. Doch wuerde ich die horizontale Linien wie "Punktlinien" oder unterbrochene Linien zeichnen. Nijdam (Diskussion) 22:49, 18. Aug. 2014 (CEST)Beantworten
Ok alles klar. Ich habe nun die Linie gestrichelt gemacht und das zweite Bild erstellt. --Martin Thoma 04:00, 19. Aug. 2014 (CEST)Beantworten
Gute Arbeit, sieht alles schoen und gut aus! Nijdam (Diskussion) 20:01, 19. Aug. 2014 (CEST)Beantworten
Danke! Dann mache ich mich mal an die Arbeit, auch den Rest zu TeX'en :-) --Martin Thoma 00:17, 21. Aug. 2014 (CEST)Beantworten

@Nijdam: Ok, ich habe nun auch die anderen Bilder mit TeX gemacht. Sind die auch in Ordnung? Falls ja, würde ich die Bilder im Artikel nun alle ersetzen. --Martin Thoma 02:19, 21. Aug. 2014 (CEST)Beantworten

In Ordnung! Nijdam (Diskussion) 11:24, 23. Aug. 2014 (CEST)Beantworten
Ok, ich habe die Bilder nun im Artikel eingefügt. Vielen Dank für deine Hilfe, Nijdam! --Martin Thoma 16:24, 23. Aug. 2014 (CEST)Beantworten
Dieser Abschnitt kann archiviert werden. --Martin Thoma 16:24, 23. Aug. 2014 (CEST)

Bild: 2 Grundgesamtheiten - Multivariate Gaußverteilungen[Quelltext bearbeiten]

Hallo zusammen,

ich würde gerne ein weiteres Bild ersetzen:

Hier musste ich etwas mehr vom Originalbild abweichen, da die Daten nicht vorhanden waren.

Gibt es Änderungswünsche?

@Nijdam: Ich würde mich auch wieder über dein Feedback freuen :-)

Viele Grüße, --Martin Thoma 18:33, 23. Aug. 2014 (CEST)Beantworten

Eine konrete Frage habe ich: Ist die Kovarianz-Matrix bei beiden Punktwolken die selbe? Falls nein, könnte mir jemand bitte sagen wie die Kovarianz-Matrix der 2. Gruppe lautet? (Eventuell sollte man das auch im Artikel ergänzen).
Die Striche zwischen den 3 Punkten sowie die explizite Angabe der Koordinaten habe ich übrigens bewusst weg gelassen.
Ich finde es so übersichtlicher und die konkreten Daten kann man auf der commons Seite der Datei nachschauen.
Grüße, --Martin Thoma 18:53, 23. Aug. 2014 (CEST)Beantworten
Die Kovarianz-Matrizen der beiden Verteilungen sind die selbe, was fuers Bild bedeutet das die Punktwolken die gleiche Form haben. Die Pumktwolken beziehen sich nicht auf konkrete Daten, sie representieren nur die zwei Verteilungen. Du solltest die Punktwolken groesser machen, und auch genau den Punkt und die Distanzen zur Erwartungswerten angeben. Nijdam (Diskussion) 23:46, 23. Aug. 2014 (CEST)Beantworten


@Nijdam: Ok, ich habe mehr Punkte erzeugt und ich habe die Zentren mit größeren Knoten versehen. Außerdem habe ich die Koordinaten des grünen Punktes angegeben. Allerdings will ich die Striche zwischen dem grünen Punkt und den Zentren sowie die Distanzen nicht im Bild haben. Es ist doch direkt zu sehen, dass das rote Zentrum näher am grünen Punkt ist als das Blaue.
Man könnte anstelle von diesem Bild auch einen Konturplot machen. --Martin Thoma 17:16, 29. Aug. 2014 (CEST)Beantworten
Obewohl verbessert, reicht es nicht, MMn. Jedenfalls sollen beide Punktwolken einigermassen gleich gross sein, und auch grooesser, und eigentlich mit mehr als jetzt nach Aussen erringernde Dichte. Waere so etwas moeglich?Nijdam (Diskussion) 21:35, 30. Aug. 2014 (CEST)Beantworten
Nein, ich kann die Punktwolken nicht einfach "größer" machen. Ich kann einen kleineren Ausschnitt anzeigen oder ich kann die Kovarianzmatrix ändern. Aber wenn ich nur die Punktwolke größer mache, dann repräsentiert es nicht mehr die gleichen Daten. --Martin Thoma 02:56, 31. Aug. 2014 (CEST)Beantworten
Wie erzeugst du die Punkte?Nijdam (Diskussion) 12:26, 31. Aug. 2014 (CEST)Beantworten
Nur als Anregung: Was ich noch interessant fände, wäre die Linie , die die beiden Verteilungen trennt. Grüße -- HilberTraumd, m16:30, 31. Aug. 2014 (CEST)Beantworten
Ich habe auf https://github.com/MartinThoma/LaTeX-examples/tree/master/tikz/3d-gaussian-distribution mal das ganze in 3D geplottet. Eventuell ist das besser als die Punktwolke?
@HilberTraum: Ja, das stimmt. Kannst du mir die Gleichung der Linie sagen? --Martin Thoma 20:46, 31. Aug. 2014 (CEST)Beantworten
@Nijdam: Mit diesem Skript: https://github.com/MartinThoma/LaTeX-examples/blob/master/tikz/csv-2d-gaussian-multivarate-distributions/multivariate-random.py --Martin Thoma 20:48, 31. Aug. 2014 (CEST)Beantworten
@MartinThoma: Wenn ich mich nicht vertan habe . -- HilberTraumd, m21:12, 31. Aug. 2014 (CEST)Beantworten
Ok, die Linie ist nun (schwach) eingezeichnet. --Martin Thoma 01:56, 1. Sep. 2014 (CEST)Beantworten
Prima, danke! -- HilberTraumd, m08:38, 1. Sep. 2014 (CEST)Beantworten

Ich bitte aber darum, die alten Bilder, auch von oben, nicht zur Löschung auszuschreiben. Ich werde sie wohlmöglich noch für Wikibooks brauchen, denn ich finde sie für die Zwecke, die sie erfüllen sollen, besser. Die neuen Details lenken nur von der beabsichtigten Information ab. --Philipendula (Diskussion) 12:07, 4. Sep. 2014 (CEST)Beantworten

@Philipendula: Meinst du mit "neue Details" nur die gestrichelte Linie oder noch mehr? --Martin Thoma 14:26, 5. Sep. 2014 (CEST)Beantworten
Ich meinte vor allem die Bilder weiter oben, wo noch die Verteilungsdaten in die Normalverteilungskurven eingefügt wurden. Eine Grafik sollte auf den ersten Blick verständlich sein, die Formen der Verteilungen sprechen für sich. Sobald man bei einem Bild anfangen muss, es zu verstehen, wird es nicht weiter angesehen. Alte Marktforschungserkenntnis.
Die gestrichelte Linie in den Grafiken weiter unten lenkt von der Grundaussage ab, dass die Distanz der Zentroide die Zuordnung bestimmt. Die Diskriminanzgerade ist nur bei zwei bis drei Populationen wirklich hilfreich, wogegen die Zuordnung mittels Distanzen eine Regel ist, die jeder versteht. --Philipendula (Diskussion) 13:02, 7. Sep. 2014 (CEST)Beantworten