Diskussion:Lineare Regression

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 2 Monaten von 2A02:AA16:1104:D300:BC8D:3D4C:7B8B:2BA0 in Abschnitt Verständlichkeit
Zur Navigation springen Zur Suche springen

Anmerkung zur Minimierung[Quelltext bearbeiten]

Bei der Regression wird eigentlich nicht die mittlere Quadratsumme der Residuen, sondern die Quadratsumme als solche minimiert.Philipendula 10:33, 5. Mai 2004 (CEST)Beantworten

Artikelauslagerung[Quelltext bearbeiten]

Verweis auf die Diskussion der Artikelauslagerung hier. Bitte sich dort den Fall angucken und kommentieren. Danke, —DerHexer (Disk.Bew.) 20:12, 4. Mär. 2010 (CET)Beantworten

Ten­den­zi­ell wäre eine Auslagerung in mehrere Teilartikel sinnvoll. Dann könnte man auch die Kritik bzgl. Verständlichkeit angehen. --Sigbert (Diskussion) 09:01, 30. Nov. 2016 (CET)Beantworten
Okay, habe die Auslagerung in Benutzer:Sigbert/Einfache lineare Regression und Benutzer:Sigbert/Multiple lineare Regression begonnen. --Sigbert (Diskussion) 09:47, 30. Nov. 2016 (CET)Beantworten

Einleitungssatz[Quelltext bearbeiten]

In der Einleitungspassage dieses Artikels steht irgendwie nur, warum lin.Reg. so heißt, und wo es den Namen herhat und net, was das macht, bzw. wofür man es nutzt, was es leisten kann.

(Wie z.B. anhand von irgendwelchen Messpunkten eine Grenzgerade erstellen/ermitteln, so dass die Abweichungen ganz klein werden oder sowas)

Und wenn es dasteht, dann steht es da sehr versteckt, denn ich dachte ich frische mich hier nur auf ^^ -- 77.12.41.206 09:20, 29. Okt. 2010 (CEST)Beantworten

Verständlichkeit[Quelltext bearbeiten]

Das scheint ein toller Artikel zu sein, aber eher für eine wissenschaftliche Einführungsliteratur, als für eine Enzyklopädie die sich an die Gesamtbevölkerung richtet. Könnte man nicht wenigstens einen Absatz haben, der verständlich erklärt worum es sich handelt ohne in die tiefen der Statistik abzusteigen? --Trickstar 12:08, 24. Mär. 2011 (CET)Beantworten

Ich kann meinen Vorrednern nur zustimmen. Warum finde ich im Artikel nirgends die einfache Formel y = a + bx, wie sie zum Beispiel auf den Casio-Taschenrechnern im Statistik-Menü zur linearen Regression verwendet wird (und auch auf vielen Webseiten)? Das Thema lässt sich doch leicht erklären, wenn man einfach sagt, dass eine Gerade (lineare Funktion) durch zwei Punkte definiert ist. Hier möchte man aber durch mehr als zwei Punkte eine Ausgleichsgerade legen, die dann natürlich zwangsläufig in der Praxis nicht exakt durch alle Punkte gehen kann. In den Rechner gibt man alle Messpunkte (xi, yi) ein. Der Rechner stellt sodann die optimale Ausgleichsgerade in der Form y = a + bx (oder auch y = mx + q etc.) auf und spuckt die Werte a, b und r aus, wobei r ein Maß für die Güte der Annäherung ist und immer zwischen -1 und +1 liegt (kann man auch in Prozent ausdrücken). Der Betrag sollte möglichst nahe bei 1 sein, das Vorzeichen sagt (wie auch die Steigung b) lediglich, ob die Gerade steigend oder fallend ist. Und das war's eigentlich schon. --2A02:AA16:1104:D300:BC8D:3D4C:7B8B:2BA0 22:28, 22. Feb. 2024 (CET)Beantworten

Ich muss Trickstar zustimmen. Wollte soeben nachsehen wie man paar Hand schnell eine lineare Regression durchführt, aber bei diesem Artikel, keine Chance. --LordOider 23:37, 4. Feb. 2012 (CET)Beantworten

Habe mal das Sektkellerei-Beispiel in einer Kurzdarstellung hinzugefügt. Hoffe das hilft weiter. --Sigbert 11:45, 5. Feb. 2012 (CET)Beantworten
Leider kann ich meinen Vorschreibern und ukcv nur zustimmen; dieser Artikel ist mir komplett unverständlich. Ich bin beeindruckt, aber das kann ja nicht wirklich der Sinn eines Wikipedia-Artikels sein (oder?)... Es ist, zugegeben, eine Kunst, etwas zu wissen und erklären zu können, und das eine kommt nicht immer mit dem anderen. Aber gibt es hier wirklich niemanden, der/die was von dem Thema versteht und es verständlich erklären kann? Es fällt mir schwer, das zu glauben...--Vibackup (Diskussion) 10:15, 2. Nov. 2016 (CET)Beantworten

Unabhängig/unkorreliert[Quelltext bearbeiten]

In den Annahmen steht "Die Zufallsvariablen εi sind stochastisch unabhängig voneinander d. h."+Formel für Unkorreliertheit. Sind die Fehler nun unabhängig oder unkorreliert? (Ist nicht das selbe!) (nicht signierter Beitrag von 132.187.11.10 (Diskussion) 14:49, 27. Okt. 2011 (CEST)) Beantworten

Unabhängig, daraus folgt dann die Unkorreliertheit. --Sigbert 22:06, 27. Okt. 2011 (CEST)Beantworten

Lineare Regression mit Fehlern?[Quelltext bearbeiten]

Ich fände es gut, wenn auch die "Fehlergewichtete lineare Regression" in diesem Artikel erklärt würde. Ich meine damit, dass jeder "Messpunkt" einen (Mess)fehler in x und y Richtung hat. Diese Fehler müssen m.E. in die Bestimmung der Regressionsgraden einfließen. Der Wikipedia Artikel sollte hier zumindest die Formeln angegeben. Zu diesem Thema habe ich nur eine einzige Publikation ([1]) gefunden und wenn ich ehrlich bin, finde ich sie nicht sehr verständlich. Im Übrigen finde ich es seltsam, dass es nicht sehr viel Literatur genau zu diesem Thema gibt, denn schließlich würde ich erwarten, dass dies ein häufiges Problem ist. --77.185.252.210 20:48, 7. Dez. 2011 (CET)Beantworten

Im allgemeinen geht man davon aus, dass die Fehler bei den Messungen klein sind verglichen mit der Unsicherheit, die durch die Stichprobenziehung erzeugt wird. Betrachtet man z.B. den Zusammenhang von Alter und Körpergrösse, so ist die Varianz der Körpergrössen (für ein fixes Alter) um vieles grösser als der Meßfehler (max. 1 mm) und er wird schlicht und einfach vernachlässigt :) Gibt man die Annahme auf, dass man die X Variablen fix sind, dann landet man bei Error-in-Variables-Modellen. Integration von Meßfehlern kann auch mit Fuzzy Random Variablen geschehen. --Sigbert 05:52, 8. Dez. 2011 (CET)Beantworten

Im Abschnitt Prognise wird die Varianz der Prognose definiert. Die Formel bezieht sich jedoch auf die Varianz des Mittelwerts. Die Varianz der Prognose ist die Summe der Varianz des Mittelwerts (Unsicherheit der Regressionsfunktion) und der Varianz der Fehler / Residuen. Irgendwelche Meinungen? (nicht signierter Beitrag von 130.75.51.154 (Diskussion) 11:39, 3. Jul 2012 (CEST))

... Ok, hab nochmal richtig gelesen und es passt schon. Allerdings ist es etwas missverständlich. Insbesondere: ...möchte man möglicherweise wissen, in welchem Intervall sich die prognostizierten Werte mit einer festgelegten Wahrscheinlichkeit bewegen --> Genau das bekommt man aber nicht über die Formel sondern nur, wie genau der Mittelwert ist. (nicht signierter Beitrag von 130.75.51.154 (Diskussion) 11:44, 3. Jul 2012 (CEST))

Verlinkungen[Quelltext bearbeiten]

Es werden oft empirische Varianz, empirische Kovarianz usw. auf Varianz etc. verlinkt, dabei wäre es doch besser gleich auf Artikel wie Stichprobenvarianz (=empirische Varianz) zu verlinken? --24.134.143.45 19:37, 8. Aug. 2013 (CEST)Beantworten

Visualisierung[Quelltext bearbeiten]

Ich habe das ganze gerade mit JavaScript visualisiert: http://martin-thoma.com/html5/regression/regression.htm

Kann man das eventuell direkt in den Artikel einbinden?

Grüße, --Martin Thoma 18:39, 8. Sep. 2013 (CEST)Beantworten

Studentsche t-Verteilung der Prognose[Quelltext bearbeiten]

Hallo,

irgendwie gibt es da eine Unstimmigkeit bei der multiplen Regression, Abschnitt Prognose: Die Anzahl der schätzbaren Parameter ist p+1. Die Anzahl der Freiheitsgrade ist daher n-(p+1) (wobei n der Anzahl der Datenwerte entspricht). Für den Parameter der Studentschen Verteilung müsste daher ebenfalls für die Anzahl der Freiheitsgrade n-(p+1) eingesetzt werden. Im Artikel der t-Verteilung wird dieser Ausdruck missverständlich n genannt, statt df (degrees of freedom). Im Fall der einfachen linearen Regression wäre das n-2, wie es auch richtig dargestellt ist. Kann das jemand bestätigen und ggf. in der Formel ändern?

Andreas (nicht signierter Beitrag von 130.83.211.179 (Diskussion) 11:52, 18. Nov. 2013 (CET))Beantworten

Hallo Andreas,
oh je, das mit und wechselt ja von Abschnitt zu Abschnitt, da muss man auf alle Fälle mal gründlich durch den gesamten Artikel gehen. Vielen Dank fürs Aufpassen und den Hinweis. Stellt sich nur die Frage, in welche Richtung man vereinheitlicht: Ich persönlich fände ja Parameter natürlicher, aber man kann natürlich auch bei Parametern bleiben. -- HilberTraum (Diskussion) 15:16, 18. Nov. 2013 (CET)Beantworten


Hallo,
ja, stimme Dir zu!
p als Anzahl der geschätzten Parameter fände ich ebenfalls am sinnvollsten. Im englischsprachigen Artikel wird das auch so gehandhabt, die Zählung beginnt dann auch bei 1 und nicht bei 0 wie in der dt. Formel zur multiplen Regression. Denn ob x1 als Variable existiert oder schlicht den konstanten Wert 1 annimmt, ist aus mathematischer Sicht egal, vereinfacht aber die Nomenklatur, da p von 1 an gezählt werden kann (wie ja auch i). (hoffe, das ist so verständlich)
Wie sich das dann auf die übrigen Formeln im Artikel auswirkt, müsste dann noch ein "Wissender" beurteilen (z.B. Berechnung der Varianz, m.M. nach ist auch hier das p eigentlich die Anzahl der Parameter).
Bei einer entsprechenden Änderung wäre dann aber auf jeden Fall die Formel zur Prognose (t-verteilt) wieder korrekt.
Viele Grüße, Andreas (sorry für fehlenden Account)
(nicht signierter Beitrag von 130.83.211.179 (Diskussion) 18:11, 18. Nov. 2013 (CET))Beantworten
So, ich habe dann jetzt mal umgestellt. An vielen Stellen war sowieso schon p die Anzahl der Parameter. Ich hoffe, dass ich nichts übersehen habe und dass jetzt alles einheitlich ist. -- HilberTraum (Diskussion) 20:28, 26. Nov. 2013 (CET)Beantworten


Ist es möglich, dass diese Veränderung bei der Güte des Regressionsmodells in der multiplen Regression vergessen wurde? Ich behaupte, dass p als Anzahl der X definiert ist (zu Beginn der multiplen Regression), wobei der y-Achsenabschnitt nicht zu den Variablen zählt. Also ist der Freiheitsgrad der Residuen, hier des Nenners, n-p-1.
n-p würde nur gelten, wenn man den y-Achsenabschnitt explizit unterdrückt, zumindest habe ich das nach Berechnung in R so gesehen. Ganz klar ist mir das noch nicht geworden.
Ich habe das in Montgomery, Peck, Winning (2006) "Introduction to Linear Regression Analysis" auf Seite 80 nachgelesen. Da sind die Variablen genauso definiert (k statt p). Hier gilt
--hummel-riegel (Diskussion) 08:30, 9. Dez. 2015 (CET)Beantworten
In Artikel wird aber doch der y-Achsenabschnitt schon zu den Variablen gezählt (siehe Modell, deswegen ja die Umstellung). Dann müsste es doch passen, oder? -- HilberTraum (d, m) 09:23, 9. Dez. 2015 (CET)Beantworten
Das stimmt natürlich, aber müsste dann nicht im Zähler p-1 gelten? Ich muss mir noch einmal die Herleitung dazu ansehen.
Wenn ich mit R eine Regression berechne, dann stimmt diese Formel nur, wenn ich den y-Achsenabschnitt explizit unterdrücke: (). Es sind dann 2 und 98 Freiheitsgrade (DF), also p=2 und n-p=98 bei n=100.
Falls dieser y-Achsenabschnitt aber genutzt wird (explizit oder implizit), dann komme ich mit der Regressionsgleichung auf ein anderes Ergebnis. R gibt mir dabei 2 und 97 DF an, wobei ich immer noch n=100 Beobachtungen hatte. Das bedeutet, dass nach der Definition in diesem Artikel hier n=100 und p=3 wäre und damit der Freiheitsgrad der Residuen 100-3 = 97 ist. Wie werden diese korrekt hergeleitet? Bilden die zwei Regressoren und der y-Achsenabschnitt in dem Fall drei Dimensionen für Residuen? Dann wären es bei der Unterdrückung des y-Achsenabschnittes nur noch zwei Dimensionen und damit 98 DF, was laut R und dieser Formel hier stimmt.
Allerdings sind die 2 Freiheitsgrade des Zählers, also der Regressoren, dann nicht p, sondern p-1. Wie werden diese korrekterweise hergeleitet? Zwei Regressoren ==> zwei Freiheitsgrade? Im Falle der Unterdrückung des y-Achsenabschnittes wäre es dann aber eben nicht p-1, sondern nur p.
Nach meinem aktuellen Verständnis müsste entweder der Zähler p-1 Freiheitsgrade besitzen, wenn p auch den y-Achsenabschnitt beinhaltet. Der Sonderfall der Unterdrückung muss vermutlich sowieso separat betrachtet werden. Alternativ wäre p nur die Anzahl der Regressoren und dementsprechend müssten dann im Nenner n-p-1 Freiheitsgrade gelten. Wie man das jeweils inhaltlich deutet ist mir aber nicht ganz klar, aber so würde ich es mir zumindest semi-wissenschaftlich zusammenreimen.
--hummel-riegel (Diskussion) 19:31, 14. Dez. 2015 (CET)Beantworten
Ich glaube der Unterschied kommt so zustande: Wenn man p „gleichberechtigte“ Parameter hat, dann wird mit dem F-Wert getestet, ob diese alle null sind oder nicht. Wenn einer davon der y-Achsenabschnitt ist, dann wird getestet ob die übrigen Parameter alle null sind oder nicht. Was das aber für den Artikel bedeutet, ist mir noch nicht ganz klar. -- HilberTraum (d, m) 09:03, 15. Dez. 2015 (CET)Beantworten
Das würde ich zustimmen.
Die Frage, die ich mir stelle, ist vor allem: Was hat es für einen Einfluss, wenn ich den y-Achsenabschnitt unterdrücke? Wenn man grundsätzlich von einer normalen Gerade durch zwei Punkte ausgeht, dann hat man automatisch den y-Achsenabschnitt dabei. Lässt man diesen weg, dann kann die Gerade unter Umständen ja gar nicht mehr durch beide Punkte gehen, weil der Nullpunkt als weiterer Punkt dazu kommt.
Bei einer Regression beschreibt der y-Achsenabschnitt ja eigentlich eine konstante Verschiebung in der Dimension der zu vorhersagenden Variable. Ich bestimme also, dass die y-Variable vollständig durch die x-Variable erklärt werden _muss_, weil ich die Nebenbedingung einführe, dass bei x=0 auch y=0 gelten muss und alles andere Messfehler sind.
Ich habe dieses Vorgehen zwar schon gesehen, aber auch nur in eher abstrakten Fällen. Normalerweise macht man das ja eher nicht. Im Buch von Montgomery (was ich oben schon erwähnt hatte), wird erwähnt, dass "Regression through the origin" beispielsweise bei der Vorhersage von chemischen Zusammenhängen vorkommt.
Dort wird Hahn, Gerald J. “Fitting Regression Models with No Intercept Term.” Journal of Quality Technology 9, no. 2 (1977) als gute Quelle angegeben, die ich aber nicht gefunden habe. Eisenhauer, Joseph G. “Regression through the Origin.” Teaching Statistics 25, no. 3 (2003): 76–80. erklärt aber auch, dass das Bestimmtheitsmaß anders berechnet wird und das eben unter anderem auch die Berechnung des F-Werts verändert.
Ich würde also bislang immer noch daran festhalten, dass die Formel, so wie sie da steht, einen Spezialfall abdeckt und keinen allgemeinen Fall, auch im englischen Artikel steht dazu komischerweise nichts. Es wird allerdings bei diesem englischen Artikel nebenbei erwähnt.
Mein Vorschlag wäre vorerst, dass das auf vorerst p-1 im Zähler geändert wird. Vielleicht kann man einen Abschnitt/Hinweis zur Regression durch den Nullpunkt hinzufügen. Ob die Variablen dann so sinnvoll benannt sind, dass man es auch gut deuten kann, ist damit immer noch offen. Ich habe es aber auch schon so gesehen, nur habe ich gerade keine davon abgeleitete F-Wert-Formel als Referenz.
--hummel-riegel (Diskussion) 18:22, 17. Dez. 2015 (CET)Beantworten
Ich habe die Stelle jetzt mal in diesem Sinne (vorsichtig) angepasst. Das Bestimmtheitsmaß, das ja von R auch im Fall ohne Intercept berechnet wird, wird in der Literatur wohl häufig nur für den Fall mit Intercept definiert. -- HilberTraum (d, m) 11:03, 21. Dez. 2015 (CET)Beantworten

Didaktik oder Warum einfach, wenn es auch kompliziert geht[Quelltext bearbeiten]

Dieser Artikel ist snobbistischer Schrott. Tut mir leid, dass so direkt sagen zu müssen. Lineare Regression (mit kleinsten Quadraten) ist Schulstoff und kann auch recht übersichtlich mit Schulmethoden hergeleitet werden. Wer auf diesen Artikel stößt, will womöglich nur nachgucken, wie in einfachen Fällen was nochmal "irgendwie aufsummiert" und berechnet werden muss. Der Artikel liefert diese Information nicht. Stattdessen wird eine hyper-pseudo-exakte Herleitung, welche völlig ohne Not mit Formalismen (ich sach nur "Kronecker-Symbol"...) und Indizies (kein Sigma ohne "i=1..n" ...deutsche Gründlichkeit eben...) zugeschissen wurde, präsentiert. Bravo! Eins mit Sternchen! Hilft nur leider niemandem, weil man es nur verstehen kann, wenn man es bereits verstanden hat. Selbst in Fachbüchern ist die Darstellung verständlicher (und btw strukturierter).

Noch eine Anmerkung: Die zahlreichen Beispiele bringen übrigens nichts, von Verwirrung mal abgesehen, da sie ebenfalls zu umfangreich sind und Wichtiges nicht von Unwichtigem zu trennen imstande sind.

Konstruktiver Vorschlag: Zwei Abschnitte am Anfang reinschieben:

  • Regressionsgerade (2D, Schulstoff, immer wieder gerne verwendet)
  • allgemeines Modell (in Matrixschreibweise oder von mir aus auch als aufgeblähtes LGS für alle TeX-Fetischisten).

Und dann die restliche "exakte" Wissensausbreitung zur Einschüchterung von Laien. MfG, ukcv --92.75.200.3 01:49, 19. Mai 2014 (CEST)Beantworten

Prinzipiell gebe ich dir Recht, dass man hier vieles auch erst mal einfacher erklären könnte, bei Einfache lineare Regression muss man z. B. sicher keine „Datenmatrix“ einführen. Aber kann es sein, dass du im falschen Artikel gelandet bist? Regression ist ja schon hauptsächlich ein Modell der Statistik. Das „eine Gerade durch vorgegebene Punkte legen“, was man gelegentlich auch in der Schule anspricht, steht beschrieben in Methode der kleinsten Quadrate im Abschnitt Spezialfall einer einfachen linearen Ausgleichsgeraden. -- HilberTraum (Diskussion) 17:45, 19. Mai 2014 (CEST)Beantworten

Begriffsdefinition: "linear"[Quelltext bearbeiten]

Meine Literaturrecherche hat bisher ergeben, dass das Beiwort linear immer für ein linearen Zusammenhang der Variablen steht und sich nicht auf den Regressionskoeffizienten bezieht. Selbst in der von ihnen angegebnen Quelle Quelle: (Urban, Dieter/ Mayerl, Jochen: Regressionsanalyse: Theorie, Technik und Anwendung, 2. überarb. Auflage, 2006, Wiesbaden: VS Verlag). Ist die rede von linear ansteigenden Y-Werten bei linear ansteigenden X-Werten (s. 37), dies geht nur wenn die unabhängige(n) Variable(n) mit der ersten Potenz eingehen. Ambivalente Definitionen des Begriffs "lineare Regression" ? Oder nur ein Missverständnis? (nicht signierter Beitrag von 141.23.106.14 (Diskussion) 19:03, 19. Jan. 2015 (CET))Beantworten

Ich sehe gerade keinen Widerspruch. Welche Aussagen genau sollen widersprüchlich sein? --Martin Thoma 08:14, 20. Jan. 2015 (CET)Beantworten
Ich sehe ebenfalls den Widerspruch. In der Einleitung steht, "[...] dass [..] nicht unbedingt auch die Variablen selbst [...] in erster Potenz in das Regressionsmodell eingehen.". Das bedeutet, dass man Daten auch mit der Formel mit Hilfe des Formalismus der linearen Regression (linear in und ) anfitten kann. Später im ersten Abschnitt dann heißt es "Die lineare Regression versucht einen linearen Zusammenhang zwischen der Einfluss- und der Zielgröße herzustellen." D.h. dass obiger Zusammenhang NICHT mittels linearer Regression gefittet werden kann, weil kein linearer Zusammenhang (sondern ein quadratischer) zwischen Einfluss- (x) und Zielgröße (y) herrscht. Kann diesen Widerspruch bitte jemand aufklären? Und bitte ganz konkret die Frage klären, ob das Fitten eines quadratischen Zusammenhangs mittels der Funktion als lineare Regression bezeichnet werden kann? ... Ich versuche mal selbst eine Antwort zu geben: Ich habe mal in der englischen Wikipedia nachgeschaut, da ist es recht eindeutig geklärt, siehe https://en.wikipedia.org/wiki/Polynomial_regression : "polynomial regression is considered to be a special case of multiple linear regression." Damit sollte der Satz "Die lineare Regression versucht einen linearen Zusammenhang zwischen der Einfluss- und der Zielgröße herzustellen." abgewandelt/berichtigt/eingeschränkt werden, weil er nicht allgemein gültig ist. Das überlasse ich als Physiker aber lieber einem Mathematiker :) 188.174.101.206 17:24, 14. Mai 2016 (CEST)Beantworten
An der Stelle geht es ja nur um die einfache lineare Regression, also nur das Modell . Ich hab das dort ergänzt. Grüße -- HilberTraum (d, m) 18:01, 14. Mai 2016 (CEST)Beantworten
Ich denke auch dass das Modell
zwar linear in der Koeffizienten ist, aber als quadratischer Regression bezeichnet wird. Madyno (Diskussion) 22:36, 11. Sep. 2022 (CEST)Beantworten

Anwendung in der Geologie[Quelltext bearbeiten]

Also ich bin recht skeptisch, ob dieses Beispiel für den Artikel wirklich etwas bringt. Vor allem an dieser Stelle bei den Anwendungen sollte eher ein allgemeiner Überblick über verschiedene Anwendungsmöglichkeiten in der Geologie stehen, aber kein derart spezielles Beispiel. Es gibt ja auch bereits ein ähnlich ausführliches und spezielles Beispiel zur Bruttowertschöpfung (das ich in seiner Ausführlichkeit und Fachspezialisierung auch schon für grenzwertig halte), wieso dann noch etwas in diese Richtung?
Außerdem halte ich das Beispiel aufgrund der verwendeten geologischen Fachsprache für ziemlich schwer verständlich. D. h. zur schwer verständlichen Mathematik kommt auch noch schwer verständliche Geologie hinzu. Welchem Leser soll das dann noch nützen? Grüße -- HilberTraum (d, m) 16:14, 26. Jan. 2015 (CET)Beantworten

Darauf habe ich schon in dieser Zusammenfassungszeile hingewiesen, ich stimme aber auch hier noch einmal ausdrücklich zu.
--Franz 02:18, 27. Jan. 2015 (CET)Beantworten

@Hans Eckhard Offhaus, FranzR, KW, Chewbacca2205: Wie soll’s hier weitergehen? Ich zögere noch damit, den ganzen Abschnitt „einfach so“ (ohne weitere Diskussion) zu löschen. Einerseits, weil man evtl. nach einer (starken) Kürzung doch noch etwas für diesen Artikel übernehmen könnte, vor allem aber, weil vielleicht der Abschnitt anderswo gut aufgehoben wäre – also etwa in einem Geologieartikel, wo ich mich aber selber gar nicht auskenne. Mittelfristig denke ich, dass der Artikel eher vereinfacht und gestrafft als weiter aufgebläht werden sollte. Einfache(!) Anwendungsbeispiele gehören natürlich rein, aber im Moment halte ich den Artikel für sehr unübersichtlich. Grüße -- HilberTraum (d, m) 10:00, 2. Feb. 2015 (CET)Beantworten

Da die Thematik wie es scheint sowieso niemanden besonders interessiert, nehme ich den Abschnitt jetzt mal raus. Wie gesagt, idealerweise könnte an dieser Stelle eine Übersicht über Anwendungsmöglichkeiten der linearen Regression in der Geologie stehen. Grüße -- HilberTraum (d, m) 16:31, 6. Feb. 2015 (CET)Beantworten

Das hat mich sehr überrascht! Ich meine, die Herausnahme des Beispiels durch einen Mathematiker. Ich war der Auffassung,dass die Anwendung der Mathematik auf unseren Lebensraum "Erde" von einem allgemeinen Interesse wäre. Die Entwicklung der Mathematik hat doch wohl sehr viel mit "Geometrie" zu tun, oder irre ich? Jedes spezielle Beispiel der Anwendung der Mathematik in der Geologie, falls es mathematisch richtig ist, ist wohl von Interesse und kann nicht ohne weiteres in Lade "kein Interesse" verschoben werden. Auch kann ich das Argument nicht verstehen, dass eine schwer verständliche Mathematik mit einer schwer verständlichen Geologie nicht in den Artikel Lineare Regression der Enzyklopädie gehören würde. Eigentlich müsste sich ein Mathematiker darüber freuen, wenn ein Geologe seinen schwer verstädlichen Stoff mit den exakten Definitionen der Mathematik allgemein verständlich machen möchte. Die Geologen beklagen selbst ein zu geringes öffentliches Interesse für die Geologie und die Geowissenschaften. Ich denke, dass man diese Schwierigkeit durch Beiträge der Geologen, wie im harausgenommenen Beispiel dargestellt, überwinden könnte.--Hans Eckhard Offhaus (Diskussion) 19:49, 8. Feb. 2015 (CET)Beantworten

Ohne hier jetzt für oder gegen die Herausnahme sprechen zu wollen:
(1) Es ist irrelevant ob es Mathematiker freut, wenn etwas in der Wikipedia steht. Ich würde mich über mehr Beweise freuen, aber das gehört nicht in die Wikipedia.
(2) Wikipedia ist keine Werbeplatform. Ob Geoglogen ein zu geringes öffentliches Interesse beklagen oder auch nicht ist für eine Enzyklopädie (an dieser Stelle) irrelevant.
Eventuell gibt es ein Wikibook, wo man das reinschreiben kann?
Viele Grüße, --Martin Thoma 20:28, 8. Feb. 2015 (CET)Beantworten
Hallo Hans Eckard, mir ging’s hauptsächlich darum, dass ein solch ausführliches und spezielles Beispiel nicht in den Artikelaufbau hineinpasst. Insofern greifen deine Argumente viel zu „hoch“. Hier geht es doch nur um einen (zugegeben verbesserungsbedürftigen) Artikel zum Thema Lineare Regression; durch das Vorhandensein oder Fehlen des Beispiels steht ja wohl weder die „die Anwendung der Mathematik auf unseren Lebensraum Erde“ noch das Verhältnis zwischen Mathematik und Geologie auf dem Spiel. Es geht doch hier „nur“ um die Erstellung eines (hoffentlich irgendwann mal) übersichtlichen und verständlichen Enzyklopädieartikels. Und zur Verständlichkeit: Ich habe große Teile nicht verstanden und mir daraufhin den Schluss erlaubt, dass das Beispiel eben nicht allgemein verständlich ist. Viele Grüße -- HilberTraum (d, m) 20:52, 8. Feb. 2015 (CET)Beantworten
Hallo Martin Thoma,

Ein Glück, dass es streitbare Formulierungen gibt, die man meistens freiwillig (mehr oder weniger unbedacht) zur Verfügung stellt. Meine Erwartungen sind offensichtlich nicht in Übereinstimmung mit tatsächlichen Gegebenheiten - ich stelle Besserung und Anpassung, soweit mir das noch möglich ist, in Aussicht. Ehrlich gesagt, ich hatte mich schon über meinen Beitrag zum Thema gefreut und bin über die Reaktionen darauf sehr enttäuscht. Hat es dir keine Freude bereitet, dem Wikianfänger so richtig zu zeigen, wo es lang gehen müsste? In meinem Lebensalter ist Freude an der Sache elementares Erfordernis.

Zur Sache, von einem Mathematiker erwarte ich, dass er einen Geologen unterstüzt, wenn er seinen schwer verständlichen Stoff mit exakten Definitionen der Mathematik erklären möchte.
Selbstverständlich - Wikipedia ist keine Werbeplattform. Ich frage mich, ob unser Autreten hier nicht auch Werbung in eigener Sache darstellt?
tschüss--Hans Eckhard Offhaus (Diskussion) 16:35, 9. Feb. 2015 (CET)Beantworten
Hallo HilberTraum,

auf deiner Benutzer Seite konnte ich mich davon überzeugen, dass du ein sehr erfahrener und vor allem erfolgreicher Wikipedianer bist - deshalb deine Argumente haben Gewicht. Z.Z. bin ich auch auf der Baustelle Salztektonik aktiv, das ist ein geologisches Thema, vielleicht passt mein Beitrag besser in diesen Artikel. Unabhängig davon werde ich deinem Vorschlag folgen und einige Beispiele der Anwendung der linearen Regression in der Geologie im Artikel aufführen. MfG --Hans Eckhard Offhaus (Diskussion) 16:35, 9. Feb. 2015 (CET)Beantworten

Hallo Hans Eckhard, danke für die Anwendungsbeispiele (auch wenn man jetzt leider nicht sehr viel damit anfangen kann, wenn man nicht an die zitierten Arbeiten rankommt). Lass dich bitte als Wikipedianer nicht unterkriegen! Freude an der Mitarbeit ist auch für mich wichtig (und außerdem bin ich auch nicht mehr ganz so jung, wie vielleicht meine Benutzerseite den Eindruck erweckt *hüstel* :-) Viele Grüße -- HilberTraum (d, m) 22:08, 10. Feb. 2015 (CET)Beantworten

Anwendung in der Geologie II[Quelltext bearbeiten]

Ich bin über die Löschdiskussion zum Artikel Natürlich geschlossenes System der Geologie auf diese Diskussion gestossen. Der Abschnitt "Anwendung in der Geologie" wurde anscheinend von einem Man on Mission geschrieben, der seine Arbeit unbedingt in Wikipedia platzieren möchte und gehört m.E. komplett entfernt. Lineare Regressionen sind ein Standardinstrument jeder Naturwissenschaft, von daher haben Spezialfälle wie "Berechnungen zur Geologie der Altmark" oder "Trennung einer fossilen Unterart" hier absolut nichts verloren. Wo kämen wir hin, wenn jeder Bacherlorstudent seine Abschlussarbeit hier als Anwendungsbeispiel aufzählt? --RobNbaby (Diskussion) 14:46, 24. Mär. 2016 (CET)Beantworten

Ich würde bei einem Artikel zu einem umfassend angewendeten Thema wie diesem schon erwarten, dass Anwendungsbeispiele aufgeführt werden. Und wenn das Verfahren in den Geowissenschaften verwendet wird, um irgendwelche Parameter (wie Korrelationkoeffizienten) zu bestimmen oder Thesen zu verifizieren, dann ist das jedenfalls einen Satz wert. Wenn mal jemand ein Lehrbuch geschrieben hääte zum Thema "LR in den Geowissenschaften", dann wäre das sogar eine gute Quelle zu diesem Satz. Aber bitte nicht in der Art (überzeichnet!): "Gewinde werden vielerorts eigesetzt, auch im Automobilbau" mit einer exrem spezifischen Quelle "Einsatz des Gewindeschneiders cutofix der Marke Bosch zum Schneiden der Radbolzengewinde mit dem Maß M24 beim Opel Zafira in den Baureihen zwischen Januar 2006 und März 2007." Das ist der falsche Detailgrad und Fokus - in der Arbeit geht es zumindest laut Titel nicht vorrangig um LR sondern um Geologie der Altmark. Das erscheint mir so bizarr, als ob die Arbeit als Quelle für die Benutzung einer bestimmten Druckertinte in einer Druckmaschine einer bestimmten Marke referenziert würde, nur weil diese Kombination beim Druck uzum Einsatz kam. Bitte korrigiert mich, wenn der Titel der Arbeit irreführend wäre. Straffen und paraphrasieren, sowie mit geeigneten Quellen hinterlegen oder: weg damit.--Alturand (Diskussion) 15:35, 24. Mär. 2016 (CET)Beantworten

Bearbeitungen Juni/Juli 2016[Quelltext bearbeiten]

Bei den zahlreichen Bearbeitungen des Artikel in letzter Zeit, die ich zugegeben nur am Rande verfolgt habe, hatte ich eigentlich gehofft, dass es zu etwas einheitlicheren Schreibweisen und Bezeichnungen im Artikel kommt. Aber mein Eindruck ist, dass es jetzt noch mehr durcheinander geht als vorher, insbesondere die Anzahl der Beobachtungen wechselt öfter zwischen und . Und bei der einfachen linearen Regression, kommt erst , später und noch später werden die dann ab indiziert. Grüße -- HilberTraum (d, m) 17:09, 10. Jul. 2016 (CEST)Beantworten

Okay, ich werde die Notation vereinheitlichen. Grüße JonskiC (Diskussion) 13:15, 23. Jul. 2016 (CEST)Beantworten

Gescheiterte Kandidatur vom 1. bis zum 7. September 2016[Quelltext bearbeiten]

Die lineare Regression, die einen Spezialfall des allgemeinen Konzepts der Regressionsanalyse darstellt, ist ein statistisches Verfahren, mit dem versucht wird, eine beobachtete abhängige Variable durch eine oder mehrere unabhängige Variablen zu erklären. Das Beiwort „linear“ ergibt sich dadurch, dass die abhängige Variable eine Linearkombination der Regressionskoeffizienten darstellt (aber nicht notwendigerweise der unabhängigen Variablen). Der Begriff Regression bzw. Regression zur Mitte wurde vor allem durch den Statistiker Francis Galton geprägt.

Die lineare Regression ist eines der wichtigtesten Verfahren in der Statistik und somit halte ich es für wichtig wenn sich der dazugehörige Artikel auf hohem Niveau befindet. Ich denke, dass sich der Artikel nun auf einem hohem Niveau befindet und zudem lesenswert ist. --J.C.Delgado 11:54, 1. Sep. 2016 (CEST)

  • keine Auszeichnung: Der Artikel sicherlich sauber geschrieben und mit viel Arbeit versehen. Er wirkt aber auf mich nicht enzyklopädisch. Die Einleitung ist zu kurz. Eine wie auch immer geartete geschichtliche Entwicklung oder Hinführung zum Thema fehlt. Der ganze Artikel müsste noch durch ein Review geschoben werden, um ein Grundmaß an OMA-Tauglichkeit zu erwerben. --JWBE (Diskussion) 13:49, 2. Sep. 2016 (CEST)Beantworten
  • Da muss ich mich leider anschließen: keine Auszeichnung. Gerade Mathematikartikel wie dieser, für die sich auch oder vor allem Nichtmathematiker interessieren, sollten den Leser nicht in solche Formelwüsten schicken, sondern viel mehr im Fließtext erklären. Viele Formeln erscheinen mir auch redundant, da sie denselben Sachverhalt einfach nur in verschiedenen Notation darstellen.
Die Struktur kommt mir ehrlich gesagt ziemlich chaotisch vor, vor allem das Beispiel mit den Sektflaschen, bei dem immer wieder zwischen neuen allgemeinen Aussagen und dem speziellen Beispiel hin- und hergesprungen wird. Und dann nochmal das Beispiel „in Kurzdarstellung“? Die Bilder dort stimmen dort auch gar nicht mit dem Beispiel überein, was man aber anhand der Beschriftung erstmal erwartet. Bei einem Bild gibt es ohne Erklärung Sektflaschen mit negativem Verkaufspreis (fände ich persönlich gar nicht schlecht, ist aber wohl etwas unrealistisch ;) Dann kommt auf höchster Gliederungsebene der extrem kurze und dadurch nahezu unverständliche Abschnitt „Lineare Zweifachregression“. Die Punkte bei „Spezielle Anwendungen“ am Schluss sind eigentlich eher Verallgemeinerungen, oder? Schließlich kommt noch ein Abschnitt „Anwendungen in der Ökonometrie“ mit ein paar unverständlichen Stichpunkten voller Rotlinks. Ein echter ausführlicher Abschnitt zu den Anwendungen wäre hier sehr wichtig, fehlt aber leider ganz. Ich würde ebenfalls dringend ein Review des Artikel empfehlen. Grüße -- HilberTraum (d, m) 20:03, 2. Sep. 2016 (CEST)Beantworten
@HilberTraum: "Sektflaschen mit negativem Verkaufspreis (fände ich persönlich gar nicht schlecht, ist aber wohl etwas unrealistisch ;)" Siehe: Negativpreis (Wirtschaft) oder Negativzins. --DWI (Diskussion) 12:07, 3. Sep. 2016 (CEST)Beantworten
Klingt prima! Ich zeig die Abbildung gleich mal drüben beim Discounter vor und frage, ob ich eine Flasche Rotkäppchen und ein paar Cent bekomme. ;) -- HilberTraum (d, m) 13:41, 3. Sep. 2016 (CEST)Beantworten

keine Auszeichnung Die Gliederung ist leider schon nicht ausgewogen. Nur ein Unterpunkt und das mehrmals. Und bitte nicht mehr dieses elendige "siehe auch". Ein Artikel muss für sich stehen und nicht noch auf zwanzig andere Artikel den Leser verweisen. Wenn Links relevant, dann müssen sie im Text vorkommen. Inhaltlich kann ich nichts sagen. --Armin (Diskussion) 20:33, 2. Sep. 2016 (CEST)Beantworten

Völlig ungeeigneter Text für OMA, also für eine Allgemeinenzyklopädie. Mag für eine Diplomarbeit reichen, vorbildhaft für die Wikipedia ist etwas anderes. Teile in Fachsprache wären für eine Lesenswert-Kandidatur noch eben zulässig. Hier jedoch keine Auszeichnung. --Jbergner (Diskussion) 23:26, 2. Sep. 2016 (CEST)Beantworten

Mit null zu fünf Stimmen vorzeitig gescheitert. Altſprachenfreund, 19:12, 7. Sep. 2016 (CEST)Beantworten

Oh Gott, wer hat den Artikel zur Auszeichnung vorgeschlagen??? Je mehr ich mir ihn anschaue desto grauslicher wird es. --Sigbert (Diskussion) 15:19, 1. Dez. 2016 (CET)Beantworten