Diskussion:Reliabilität/Archiv

Begründung für Überarbeiten

Letzter Kommentar: vor 17 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Quellenverweise (Peter/Churchill 1986) (Lienert, 1989) bitte löschen oder Literatur angeben.
Bitte in der Einleitung den Unterschied zu Reproduzierbarkeit erläutern.

--Siehe-auch-Löscher 13:17, 3. Feb 2006 (CET)

Hallo, ich hab mir mal erlaubt, die Schere zu nehmen, und das zusammenzustellen, was zusammegehört. Es gibt 3 Arten, zu jeder Art die Methoden. Deine Texte hab ich gelassen, die musst Du nur noch "entschwurbeln". Viel ist darüber geschrieben, es soll aber einfach sein. Sieh beispielsweise mal (Google ist voll) http://homepage.univie.ac.at/Matthias.Gabriel/3.EinheitWS06.ppt --Klaus Zamsel 20:53, 18. Jan. 2007 (CET)

Deutsche Sprache

Letzter Kommentar: vor 15 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Täusche ich mich, oder ist "Reliabilität" einfach nur eine exaktere Definition des alten deutschen Wortes "Zuverlässigkeit"? Wurde dieses Wort (zusammen mit etlichen anderen) in einer der neuen deutschen Rechtschreibungen abgeschaft? 77.3.128.83 19:05, 22. Jun. 2008 (CEST)

Reliabilitätskoeffizient

Letzter Kommentar: vor 15 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Wie berechne ich diesen? --Till P. 19:46, 10. Aug. 2008 (CEST) Der Reliabilitätskoeffizient ist ein Korrelationskoeffizient, in der Regel das was in dem Artikel zur Zeit unter dem empirischen Korrelationskoeffizient steht, also meistens eine Pearson-Korrelation. Teils wird wie im Artikel verlinkt auch nur Cronbachs Alpha angegeben.--Christian Stroppel 11:09, 31. Jul. 2009 (CEST)

.80 versus 0,80

Letzter Kommentar: vor 13 Jahren6 Kommentare3 Personen sind an der Diskussion beteiligt

An anderer Stelle in Wikipedia, wurde die Frage aufgewofen, ob man in der deutschsprachigen Literatur, korrekter Reliabilität und Validität mit Punkt oder Komma angibt und ob man die führende Null weglassen kann.

Reliabilität und Validität werden als Korrelationen angegeben. Somit stellt sich dieselbe Frage für Korelationen.

Die Schreibweise in Wikipediaartikeln ist derzeit noch unterschiedlich: Artikel mit Punkt:

Artikel mit Komma

Wie ist eure Erfahrung und Meinung dazu. Kennt jemand Quellen, die diese Frage verbindlich regeln? In welcher deutschsprachigen Zeitschrift, wird wie veröffentlicht? Wie wird es in deutschsprachigen Manualen gehandhabt? Gruß--Christian Stroppel 11:09, 31. Jul. 2009 (CEST)

Buchquelle mit Punkt: [1]--Christian Stroppel 11:14, 31. Jul. 2009 (CEST)

In Deutschland wird die Schreibweise von Zahlen in der Norm DIN 1333 geregelt. Ich habe den Text für die DIN leider nicht online gefunden, aber in einer guten Bibliothek sollte sich die Norm finden lassen. Auf alle Fälle schreibt diese Norm ein Komma vor.

BTW, ein netter Wiki-Artikel zur Schreibweise von Zahlen ist: Schreibweise von Zahlen. --Eulenspiegel1 16:26, 10. Aug. 2009 (CEST)

Danke für den Hinweis auf den hilfreichen Wikipediaartikel. Außerdem hilfreich ist auch der Artikel Dezimaltrennzeichen. Umso überraschender ist, dass die oben aus der Kategorie:Psychologisches_Testverfahren zusammengetragenen Artikel, meistens den Punkt als Trennzeichen ohne führende Null verwenden. Kurz nachdem ich das feststellte, macht ich mich auf die Suche nach dem Grund und fand schnell eine Antwort in den „Richtlinien zur Manuskriptgestaltung“<ref>[[Deutsche Gesellschaft für Psychologie]]: ''Richtlinien zur Manuskriptgestaltung'' Hogrefe Verlag für Psychologie, Göttingen, Bern, Toronto, Seattle 1997, 2. Auflage, ISBN 3801710254</ref> herausgegeben von der Deutschen Gesellschaft für Psychologie (DGPs). Dort steht auf Seite 38:

"Der Dezimalpunkt ist als Punkt zu schreiben. Diese Regel entspricht den APA-Richtlinien (American Psychological Association, 1994) und nicht dem Duden (Drosdowski et al., 1996).

3.5, 17.54

- Große Zahlen werden von der Endzifer bzw. vom Dezimalpunkt aus nach links in dreistelligen Gruppen zerlegt, zwischen denen ein Zwischenraum steht.

1 547 105 647

13 625.24

- Nachkommastellen, also Ziffern rechts vom Komma eines Dezimalbruchs, werden nicht gruppiert.

1.0543

- Bei Zahlen kleiner Eins werden führende Nullen angeführt. Ausnahme: Die führende Null wird weggelassen, wenn die Zahl nicht größer Eins werden kann, wie etwa bei Korrelationen oder Signifikanzniveaus.

0.25 aber: r=-.78

0.3475 aber: p= .0315

- Bezüglich der Anzahl der Nachkommastellen gilt die Faustregel für deskriptive Statistiken zwei Nachkommastellen mehr anzugeben, als in den Rohdaten enthalten sind. Korrelationen, Wahrscheinlichkeiten und inferenzstatistische Ergebnisse wie t, F und Chi²-Werte sind mit zwei Nachkommastellen anzugeben. Prozentwerte sind in ganzzahliger Form zu berichten."

Dies könnte die unterschiedliche Schreibweise in Wikipedia und der deutschen Literaturlandschaft erklären. Wir haben also drei Quellen (DIN, Duden, DGPs). Wikipedia muss sich lediglich entscheiden, welcher Richtlinie man folgen will. Gruß --Christian Stroppel 22:43, 10. Aug. 2009 (CEST)

Also ich denke, dass diejenigen, die etwas mit diesen komischen Ziffern anzufangen wissen, beide Schreibweisen, eher noch die angelsächsische Variante, kennen. Darum muss man das gar nicht vereinheitlichen. Mir ist die Kommavariante bislang in der Praxis gar nicht aufgefallen. Darum würde ich, eher für die einheitlich angelsächsische plädieren. Auch in den meisten Büchern zur Diff. Psychologie ist die Punktvariante zu finden. -- Widescreen^® 18:45, 4. Jan. 2010 (CET)

Die weitere Diskussion erfolgt besser an geeigneterer Stelle: Wikipedia_Diskussion:Schreibweise_von_Zahlen#Schreibweise_statistischer_Kennwerte_in_Sozialwissenschften
-- Christian Stroppel 00:20, 5. Sep. 2010 (CEST)

Ergänzungsvorschläge

Letzter Kommentar: vor 13 Jahren4 Kommentare3 Personen sind an der Diskussion beteiligt

Vorbemerkung: Ich bitte diesen Beitrag/diese Kritik bzw. Ergänzungen richtig einzuordnen, da es sich um ein eigenständiges Diskussionsthema handelt und nicht zur Punkt-Komma Diskussion gehört. Aufgrund meiner beschränkten Kenntnisse, die ich mit der Arbeit am PC habe, will mir dies nicht so recht gelingen.... (nicht signierter Beitrag von 80.144.94.209 (Diskussion) 14:40, 17. Okt. 2010 (CEST))

Habe die Überschrift eingefügt.--Christian Stroppel 00:47, 18. Okt. 2010 (CEST)

Zu den diverersen Methoden , durch die die Reliabilität ermittelt werden kann (einige Ergänzungen): (1) (Test-)Retest-Reliabilität bzw. Testwiederholungsreliabilität: Es fehlt mir die Anmerkung, dass es unerlässlich ist anzugeben, wie groß die zeitliche Differenz zwischen Zeitpkt. t1 (Test) und t2 (Retest)ist. Ebenfalls sollte hinzugefügt werden, wann diese Methode angebracht erscheint (wenn ein Merkmal zeitl. relativ stabil ist) und wann man, aufgrund der (sehr) geringen Aussagekraft, auf diese Methode verzichten sollte, nämlich bei i.d.R.(stark) fluktuierenden Merkmalen (z.B. die Messung der Stimmungslage).

(2) Die Ausführungen zur Paralleltestreliabilität erscheinen mir sehr dürftig. Es fehlt z.B. die Bemerkung, dass man die Reliabilität der Messung steigern kann, wenn man die beiden Parallelformen zu einem Test zusammenfügt. Ebenfalls wird nichts darüber gesagt, wann diese Methode angebracht ist, nämlich dann, wenn die Reliabilität der einzelnen Paralelltests noch deutlich verbessert werden muss bzw. soll. Bortz & Döring geben in ihrem Werk "Forschungsmethoden und Evalution [...]" ebenfalls zu bedenken, dass die Paralleltestreliabilität, ebenso wie die unter Pkt.(1)genannte Methode mit einigem Untersuchungstechnischen Aufwand verbunden ist. Untersuchungsteilnehmer müssen bspw. die sog. Paralleltest in derselben Sitzung kurz hintereinander bearbeiten. Die Ergebnisse einer derartigen Reliabilitätsprüfung sind dann zwei Testformen, die sich entweder beide als reliabel o. unreliabel erweisen. Um noch einmal auf den untersuchungstechnischen Aufwand dieser Methode zurückzukommen: dieser ist dann gerechtfertigt, wenn für "praktische Zwecke" tatsächlich zwei (oder auch mehr) äquivalent Testformen benötigt werden (z.B. Testungen im Leistungsbereich). (Anmerk.: Auf die Konstruktion von Paralleltest gehe ich in meiner Kritik nicht weiter ein.)

(3) Split-Half-Reliabilität/Testhalbierungsmethode:

Hier sollte angefügt werden, dass sie im Gegensatz zu (1) und (2) keinen untersuchungstechnischen Mehraufwand erfordert (Grund ist trivial). Einige Bspe. wann diese Methode angebracht (z.B. IQ-tests) und wann sie völlig unbrauchbar (Speed-Tests) ist sollten ebenfalls angeführt werden (+ Begründung)

(4) Interne Konsistenz/Homogenitätsanalyse:

Es fehlt die Verknüpfung zwischen Homogenitätsanalyse und der Halbierungsmethode: Die Homogenitätsanalyse ist eine Generalisierung der H.methode.

(5) Im ganzen Artikel wird nicht von der Reliabilität von Untertests geschrieben. Die oben beschriebenen Aspekte gehen alle stillschweigend davon aus, dass es sich um eindimensionale Tests handelt, deren Items also alle dasselbe globale Konstrukt erfassen. Die Messung sog. Untertests muss seperat erfolgen. (genaueres zur Berechnung liegt mir allerdings nicht vor.)

PS: ich bitte Tippfehler zu entschuldigen, da ich diese Kritik unter großer Eile geschrieben habe

Verwendete Lit.: Rost, Detlef H. Interpretation und Bewertung pädagogisch-psychologischer Studien (2. Auflage); Beltz Verlag 2007, Weinheim, Basel. Bortz, Jürgen u. Döring, Nicola: Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler (3.Auflage). Springer VerlagBerlin, Heidelberg, New York, 2002. (nicht signierter Beitrag von 80.144.91.170 (Diskussion) 18:01, 15. Okt. 2010 (CEST))

Danke für die konstruktiven Vorschläge. Bei Anmeldung als Autor erhälst du eine Diskussionsseite unter der man dir Tipps zu technischen Problemen schreiben kann. Bis dahin helfen vielleicht einige Links:

Gruß --Christian Stroppel 00:33, 18. Okt. 2010 (CEST)

Irreführende Definition "interne Konsistenz"

Letzter Kommentar: vor 11 Jahren3 Kommentare3 Personen sind an der Diskussion beteiligt

Die Definiton für interne Konsistenz ist irreführend. Interne Konsistenz ist eben NICHT Homogenität ("dasselbe Konstrukt messen"), sondern "interrelatedness" von Items. Bereits Cronbach (1951) hat in der Beschreibung von Cronbachs alpha darauf hingewiesen, bei dem Text von Schmitt (s.u.) gibt es ein schönes Zahlenbeispiel. Interne Konsistenz ist Voraussetzung für Homogenität, nicht Homogenität selbst.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334.

Schmitt, Neal (1996). Uses and Abuses of Coefficient Alpha, Psychological Assessment, 8(4), S. 350-353.

Cortina, Jose M. (1993). What is Coefficient Alpha? Examination of Theory and Applications, Journal of Applied Psychology, 78(1), S. 98-104.

-- Kjalarr 10:21, 6. Sep. 2011 (CEST)

Das Buch Nerdinger: Arbeits- und Organisationspsychologie sagt, dass interne Konsistenz ein Maß für Homogenität sei. Wenn dem nicht so sein sollte, dann wäre es gut, das hier differenzierter Darzustellen. --Christian1985 (Diskussion) 19:18, 15. Jan. 2012 (CET)

Es sollte zumindest begründet werden, warum es einen Kennwert für die Homogenität darstellen kann. Das ist ja nur der Fall, wenn eine geringe interne Konsistenz besteht und daraus auf Heterogenität geschlossen werden kann. Andersrum -hohe interne Konsistenz->Homogenität- muss dies nicht der Fall sein (Bühner, Markus (2011). Einführung in die Test- und Fragebogenkonstruktion, S.166-167). Mein Problem ist dabei aber auch, dass ich nicht weiß, ab wann man von Heterogenität ausgehen kann. Außerdem steht im Artikel zu Cronbachs Alpha, dass die interne Konsistenz kein Kennwert für die Homogenität eines Tests ist, also widersprechen sich hier zwei Artikel. Gerade wenn man sich über die interne Konsistenz informieren möchte, wird dieser Widerspruch schnell auffallen und zu Verwirrung führen. --Wagnef (Diskussion) 23:16, 3. Aug. 2012 (CEST)

Terminus anglicissimus?

Letzter Kommentar: vor 10 Jahren9 Kommentare3 Personen sind an der Diskussion beteiligt

In welcher Wissenschaftsrichtung wird dieser Anglizismus wirklich verwendet und ist das dort tatsächlich ein stehende Begriff oder eine schlampige Halbübersetzung? Die Interwikis zeigen, dass sowohl in Wissenschaftstheorie, Statistik und Psychologie einfach das Wort "Zuverlässigkeit" in der jeweiligen Landessprache benutzt wird. --El bes (Diskussion) 01:48, 27. Jun. 2012 (CEST)

Also in der Psychologie ist "Reliabilität" genügend verbreitet - vor allem als diagnostisches Gütekriterium, quasi als terminus technicus. Ich bin sonst immer auch für deutsche Sprache, hier wäre das aber nicht angebracht. In der neuesten "Diagnostik-Bibel" (Schmidt-Atzert und Amelang) heisst das Kapitel "Reliabilität", ebenso in zahlreichen anderen. Man könnte sogar ins Philosophieren kommen, ob Konsistenz als Aspekt der Reliabilität (der es ist) gar nichts mit Zuverlässigkeit im Wortsinne zu tun hat ... --Brainswiffer (Diskussion) 17:10, 27. Jun. 2012 (CEST)

Dann soll man bitte genau hinschreiben, in welcher Wissenschaftsrichtung es dieses Wort gibt. Anglizismen gibt es ja in jedem Wissenschaftsbereich tausende, doch diese seltsame Eindeutschung ist äußerst selten. Man verwendet ja nicht "reliability" sondern formt es um zu "Reliabilität", eine Endung die normalerweise auf ein lateinisches Wort hindeutet, nur dass es kein solches lateinisches Wort gibt. --El bes (Diskussion) 17:59, 27. Jun. 2012 (CEST)

Reliabilität, was ein deutsches Wort ist, hat immerhin 178.000 Googles, 94.300 sind es für Reliabilität und Psychologie. Ursprünglich beschäftigte sich der Artikel mal mit dem psychologischen Testgütekriterium "Reliabilität". Das wurde dann erweitert, indem richtigerweise das für alle wissenschaftlichen Untersuchungen oder Erhebungen etwas ausgedehnt wurde (und mehr steht auch nicht in dem Artikel), im Kern aber immer noch ersteres vor allem beschreibt - nur eben breiter gilt. Verschiebt man das auf Zuverlässigkeit, lachen die Psychologen. --Brainswiffer (Diskussion) 20:38, 27. Jun. 2012 (CEST)

Missverständnis: gemeint war nicht, dass das Wort "Reliabilität" selten wäre, sondern diese Konstruktion ein englisches Wort einzudeutschen. --El bes (Diskussion) 00:29, 28. Jun. 2012 (CEST)

Sorry, aber oben stellst Du die Frage, ob das Wort "wirklich verwendet" wird, was ich als seltenen Gebrauch verstehe. Wenn man die wirkliche Verwendung bejahen muss, ist auch Deine zweite Frage beantwortbar, "in welcher Wissenschaftsrichtung es dieses Wort gibt" - wohl mehrheitlich in der Psychologie, aber nicht nur. Ich bin wirklich kein Freund der Anglifizierung der Wissenschaft (bald gibt es keine ernsthaften deutschsprachigen Psychologie-Zeitschriften mehr), in dem Falle wollte man als Testgütekriterium halt ein "Fachwort" wählen, mindestens schon der habihnseelig Methodik-Papst G.A. Lienert hat es in den 60ern so genannt, wenn nicht gar durch seine Bibel "Testaufbau, Testanalyse" eingeführt. --Brainswiffer (Diskussion) 06:27, 28. Jun. 2012 (CEST)

Die Frage habe ich gestellt, weil mir das Wort vollkommen unbekannt war. Wie du aber dargestellt hast, ist es in der Psychologie und anderswo durchaus gängig. Danke für die Antwort. --El bes (Diskussion) 15:55, 28. Jun. 2012 (CEST)

Dass es den Terminus gibt und er verwendet wird, bedeutet nicht, dass es sich nicht trotzdem um Bullshitting handelt (was wiederum selbst ein Anglizismus ist, aber einer, für den es keine passende Entsprechung im Deutschen gibt). Im Wirtschaftsleben und in der akademischen Welt werden Fremdwörter häufig deswegen verwendet, weil ansonsten die Trivialität der Aussagen offenbar werden würde. So wie früher, als die Pfaffen in lateinischer Liturgie von der Kanzel predigten, soll es dazu führen, dass Ideologien nicht hinterfragt werden. --84.159.107.185 11:47, 22. Sep. 2013 (CEST)

Das wäre ja nun ein neuer und ganz anderer Aspekt, dass die Zuverlässigkeit, die wir Reliabilität nennen, bei psychologischen Tests ein "Scheissdreck" ist (es gibt für alles deutsche Worte). Das hat auch nichts mit Ideologie zu tun, sondern die wird ganz einfach gemessen :-) Wenn Du nicht vom Fach bist oder es sonst nicht verstehst: halts mit Dieter Nuhr - oder ich muss Dich fragen, WAS WARUM Dein Missfallen erregte. Das hat auch nichts mit der FDP zu tun ;-) --Brainswiffer (Disk) 07:31, 23. Sep. 2013 (CEST)

Erinnerungseffekt statt Übungseffekt

Letzter Kommentar: vor 18 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Ich hab erstmal das Wort Übungseffekte durch Erinnerungseffekte getauscht, da das anschließende Beispiel einen Erinnerungseffekt beschreibt. Übungseffekte bei Testbearbeitungen wirken sich meist recht gleich bei den Leuten aus, daher gibt es kaum Einfluss auf die Reliabilität. Erinnerungseffekte, wie halt das Erinnern der Lösung einer Aufgabe treten jedoch oft von Aufgabe zu Aufgaben und von Person zu Person verschieden auf, daher haben diese eine großen Einfluss auf den Reliabilitätskoeffizienten und sind ein Störeeinfluss --StroopTester 22:03, 23. Nov. 2005 (CET)