Diskussion:Liste der häufigsten Wörter der deutschen Sprache/Archiv/1

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Struktur

Es wäre schön, wenn sich jemand die Arbeit machen würde, die Wörter in einem zweiten Absatz etwas zu strukturieren. Ebenfalls nach Häufigkeit: Artikel, Präpositionen, Konjungzionen, Verben, Nomen, Adjektive. Dabei würde gerade bei den zuletzt genannten nochmal ein gesteigertes Interesse bestehen, die 100 häufigsten Wörter herauszufinden.

  • die 100 häufigsten Strukturwörter
  • die 100 häufigsten Verben
  • die 100 häufigsten Nomen
  • die 100 häufigsten Adjektive und Adverben

Vielleicht könnten linguistisch begabte Autoren ein kleines Projekt bei den Wikibooks starten und ein Elementarwortschatz der deutschen Sprache herausgeben... --Mjchael 10:29, 29. Sep. 2006 (CEST)

Es muss klargestellt werde ob nur Bücher oder alle Textquellen ausgezählt werden. (nicht signierter Beitrag von 79.241.121.85 (Diskussion) 21:30, 20. Apr. 2015 (CEST))

Fett, krass

"fett" und "krass" fehlt noch ;) (nicht signierter Beitrag von 90.128.87.114 (Diskussion) 11:29, 14. Okt. 2007 (CEST))

Paragraph

Hää, warum ist Paragraph eines der häufigsten Wörter der deutschen Sprache??? Ich hab das noch nie gesagt... --85.1.128.110 20:27, 26. Jul. 2008 (CEST)

Ist wohl ein Fehler in der Liste. Wählt man unten die häufigsten 1000 Wörter, so kommt Paragraph darin nicht vor. --Fanergy 00:49, 26. Mai 2009 (CEST)

Weil die meisten bürokratischen Vorschriften der Welt in Deutsch verfasst sind. Und deren Paragraphen nehmen dann in sich und untereinander Bezug auf andere Paragraphen. --92.193.121.59 13:48, 8. Aug. 2008 (CEST)

Es sind nur 206 Wörter und nicht, wie in der Überschrift und im Text erklärt, 207 Wörter

Ich habe diesen Hinweis in den Artikel aufgenommen. Dort wurde er von Robert Lechner entfernt mit dem Vermerk, dass muss/muß zwei unterschiedliche Wortformen seien.

Das ist aber nicht korrekt:

  • dass/daß sowie lässt/läßt zählen ebenfalls als nur eine Wortform
  • alle drei doppelten Schreibweisen wurden nachträglich eingeführt
  • bereits in der ersten Fassung dieses Artikels (ohne doppelte Schreibweisen) gab es nur 206 Wörter

Der ursprüngliche Autor hat offensichtlich vergessen, ein Wort abzutippen. Es handelt sich dabei um ein Wort in der mittleren Gruppe – dort sind es statt der beschriebenen 70 nur 69 Wörter. (nicht signierter Beitrag von 80.136.67.194 (Diskussion) 09:19, 21. Jul. 2008 (CEST))

Ich hab' 207 in 206 geändert. Harry8 21:17, 13. Feb. 2010 (CET)
Das Wort "zur" ist bei den 70 häufigsten Wörtern vom ursprünglichen Autor vergessen worden. Somit habe ich die Wortzahlen der ursprünglichen Fassungen, also 70 statt 69 und 207 statt 206 Wörter, wieder hergestellt. Stenograf 20:17, 28. Feb. 2010 (CET)

Wortformen

Was ist mit den verschiedenen Konjunktionen und Beugungen und ich weiß nicht was der ganzen Wörter? Zum Beispiel steht dort Singular "Frau". Ist "Frauen" da miteinbegriffen? Dagegen steht dort "Menschen" im Plural. Was ist mit "Mensch"? --LaBumm 16:26, 28. Aug. 2008 (CEST)

Bei den Wortformen sind genau Formen gemeint: "Frau" und "Frauen" sind zwei verschiedene Wortformen. Bei den Wörtern hingegen sind alle Beugungsformen eines Wortes zusammen gemeint.
Wenn also bei den Wortformen "Menschen" im Plural steht aber kein "Mensch" in der Singular, so heißt das, dass im ausgezählten Text der Mensch häufiger im Plural erwähnt wurde als im Singular, sodass letztere Form nicht in der Liste der Häufigsten Wortformen erschien. -- pne 16:06, 18. Apr. 2010 (CEST)
Ist das so zu verstehen dass hier einzig und allein die Buchstabenkombinationen gezählt wurden und zum Beispiel auch nicht zwischen verschiedenen Worten gleicher Schreibweise unterschieden wurde?
Der Überschrift nach müßte es so sein, aber es wäre sicherlich gut dies klarzustellen, da die Aussage einer solchen Liste eine gänzlich andere wird. Die eine ist eher zum Entschlüsseln von Codes nützlich die andere (die hier wohl nicht vorliegt) gäbe Aufschluss über den gebrauchten Wortschatz, was wohl das ist wonach man eher suchen würde. (nicht signierter Beitrag von 87.162.67.203 (Diskussion) 09:31, 28. Aug. 2013 (CEST))

Andere Sprache link

Ich glaube dass vielleicht dieser Seite sollte nich bei der english Seite linken. Für mir würde ein englisch-sprachliche übersetzung deises Seite genau als der deutsche Seite sein. Jetzt linkt deise Seite bei die Liste der häufigsten Wörter der englisch Sprache. (nicht signierter Beitrag von 72.150.244.137 (Diskussion) 05:30, 21. Okt. 2008 (CEST))

Anwendung

In der Einleitung steht: Eine solche Liste ist vor allem für Linguisten und Kryptoanalytiker interessant.

Dazu sollte ergänzt werden, dass sich für solche Listen grundsätzlich noch ganz andere und weitaus naheliegendere Anwendungen finden lassen. In amerikanischen Grundschulen z.B. spielen en:Sight words eine fundamentale Rolle im Lese- und Schreibunterricht. Sight Words sind nicht anderes als High Frequency Words, also Wörter, die im Englischen besonders häufig vorkommen. Weil diese Wörter einen so großen Anteil der geschriebenen Sprache ausmachen, wird ihnen im Unterricht systematische Beachtung geschenkt.

Wenn man dasselbe Prinzip auch im deutschen Lese- und Schreibunterricht anwenden wollte, bräuchte man freilich ganz andere Statistiken als die im Artikel zitierte (wortschatz.uni-leipzig.de). Für diese Untersuchung wurden offensichtlich ausschließlich Zeitungstexte ausgewertet. Die Liste sähe vollkommen aus, wenn stattdessen z.B. das Gesamtwerk von Thomas Mann, Günter Grass und anderen wichtigen deutschsprachigen Schriftstellern ausgewertet würde. Und um Grundwortschatz für den Elementarunterricht zu ermitteln, müssten Texte z.B. von Kirsten Boie, Cornelia Funke, Paul Maar oder Otfried Preußler ausgewertet werden. --Stilfehler 15:47, 5. Mär. 2009 (CET)

Weblinks

Gleich beim ersten Weblink fiel mir auf, dass im Englischen das Wort the fehlt, das am häufigsten vorkommt. In der Download-Liste der 100 häufigsten englischen Wörter steht es dann auch auf dem ersten Platz. Harry8 21:21, 13. Feb. 2010 (CET)

?

warum ist denn da so ein Fragezeichen in der letzten tabelle auf platz 20 steht da elf ? . also entweder weiß man was man schreibt oder lässt es!!! (nicht signierter Beitrag von 62.155.173.148 (Diskussion) 15:51, 15. Feb. 2011 (CET))

Platzierung:Die hundert häufigsten Wörter im Deutschen nicht stimmig

Laut dieser Liste auf Wikipedia ist das Wort "und" auf Platz 1. Wenn man aber die Google Book Statistik ansieht, scheint "der" und "die" häufiger vorzukommen, als "und".

Quelle: http://ngrams.googlelabs.com/graph?content=und%2Cist%2Cdie%2Cder&year_start=1800&year_end=2008&corpus=8&smoothing=0

Ich habe es im Artikel geänder, da es auch nicht mit der Originalquelle deckungsgleich war. Zudem wäre es vielleicht interessant, die GoogleBook Statistik zusätzlich als Referenz anzugeben. (nicht signierter Beitrag von 80.120.119.86 (Diskussion) 20:02, 20. Apr. 2011 (CEST))

Da wundere ich mich aber über die GoogleBook Statistik, dass der häufiger als die vorkommen soll. Das finde ich sehr seltsam und nicht schlüssig. Harry8 21:51, 20. Apr. 2011 (CEST)
Allerdings ist das in der Leipziger Liste ebenso der Fall. Harry8 21:53, 20. Apr. 2011 (CEST)
Die Buchstatistiken unterscheiden sich wesentlich von allen Texten. --> Eine Gliederung erscheint sinnvoll. (nicht signierter Beitrag von 79.241.121.85 (Diskussion) 21:30, 20. Apr. 2015 (CEST))
Wie oben erwähnt, wird auch in der Leipziger Liste das Wort "und" erst an 3ter Stelle genannt. Vermutlich wurde es also falsch in den Wikipedia Artikel übernommen. Gruß AlexW (nicht signierter Beitrag von 194.208.210.195 (Diskussion) 00:46, 24. Apr. 2011 (CEST))
Wird wohl daher rühren dass wohl Wörter und nicht Worte gezählt werden (also nicht der Wortschatz dargestellt wird!), ihr denkt bei "der" und "die" wahrscheinlich an die Artikel "der" und "die" in ihrer Grundform, es gibt aber noch andere Worte, die diese Wörter als Formen haben können. (nicht signierter Beitrag von 87.162.67.203 (Diskussion) 09:31, 28. Aug. 2013 (CEST))

Substantivliste

Könnte jemand die Substantiv-Liste aktualisieren? ...ich bezweifle, dass 2012 das Wort "Mark" so häufig ist. Danke Update: ...der Hinweis ist ja enthalten, aber gibt es wirklich keine aktuelle Erhebung? (nicht signierter Beitrag von 194.246.122.11 (Diskussion) 11:16, 11. Apr. 2012 (CEST))

Die hundert häufigsten Wörter im Deutschen - Großschreibungsformen

"Diese Liste enthält keine Abkürzungen und keine Großschreibungsformen der an sich kleinzuschreibenden Wörter." Was ist denn hier mit "Großschreibungsformen der an sich kleinzuschreibenden Wörter" gemeint? Die Liste enthält jedenfalls "Die", "Der", "Das", "Sie", "In", "Es", "Und", "Im" und "Ein" neben "die", "der", "das", "sie", "in", "es", "und", "im" und "ein". --YMS (Diskussion) 17:01, 2. Aug. 2012 (CEST)

Den Satz verstehe ich auch nicht. Da er offensichtlich falsch ist, habe ich ihn herausgenommen. MfG Harry8 19:26, 2. Aug. 2012 (CEST)

100 häufigste wörter

In der Tabelle stehen mehrere gleiche Wörter:
„Das“ und „das“ sind doch einunddasselbe.
Bei „sie“ und „Sie“ versteh' ichs schon wegen der Höflichkeitsform.
Gruß, ÖPNV-Bob l´éponge Briefkasten Eigene Seite 18:42, 26. Sep. 2012 (CEST)

Ich nehme mal an, dass das damalige Programm die groß geschriebenen Wörter nicht den entsprechenden klein geschriebenen Wörtern zuordnen konnte. MfG Harry8 19:59, 26. Sep. 2012 (CEST)
Das Problem ist die Unterscheidung zwischen Wörtern und Worten, hier werden Wörter gezählt, oder genauer noch Zeichenkombinationen. Darauf, dass verschiedene Worte und Wortformen gleich geschrieben werde können wird keine Rücksicht genommen, daher ist ein Rückschluss auf den gebrauchten Wortschatz auch nur begrenzt möglich - was auch mit erklärt warum der deutsche Wortschatz immer so klein eingeschätz wird, in Wirklichkeit wurde wohl nur der "Wörterschatz" ermittelt, weil das im Englischen und aneren Sprachen so gut (aber auch nicht problemlos) funktioniert. (nicht signierter Beitrag von 87.162.67.203 (Diskussion) 09:31, 28. Aug. 2013 (CEST))

Inhalt

Die Inhalte unterscheiden sich wesentlich von den Angaben wie sie seriöse Quellen z.B. Duden.de angeben --> http://www.duden.de/sprachwissen/sprachratgeber/die-haeufigsten-woerter-in-deutschsprachigen-texten --> Der Artikel muss m.E. überarbeitet werden oder gelöscht werden. (nicht signierter Beitrag von 79.241.121.85 (Diskussion) 21:30, 20. Apr. 2015 (CEST))

Ob die im Artikel angeführten Häufigkeiten wohl stimmen?

Urteilt selbst:

Ich habe eine Analyse der de-Wikipedia Texte (Stand Nov 2015) gestartet und die darin enthaltenen Wörter nach ihrer jeweiligen Häufigkeit sortiert.

Es folgen die Top 10 mit ihrem jeweiligen quantitativen Auftreten:

der vor die? Das scheint nicht korrekt zu sein. MfG Harry8 14:59, 24. Nov. 2015 (CET)

Häufigste Wörter im Dudenkorpus

Der Duden listet die folgenden häufigsten Wörter:

Platz Wort
01 der, die, das (bestimmter Artikel)
02 in
03 und
04 sein (Verb)
05 ein
06 zu
07 von
08 haben
09 werden
10 mit
Platz Wort
11 an
12 auf
13 der, die, das (Relativpronomen)
14 sich
15 für
16 nicht
17 es
18 sie
19 er
20 auch
Platz Wort
21 als
22 bei
23 dies
24 das
25 können
26 aus
27 eine
28 nach
29 wie
30 ihr
Platz Wort
31 ich
32 um
33 aber
34 ja
35 so
36 nur
37 noch
38 über
39 wir
40 viel
Platz Wort
41 man
42 oder
43 vor
44 müssen
45 sollen
46 all
47 kein
48 bis
49 neu
50 wollen

MfG Harry8 13:29, 9. Apr. 2017 (CEST)

Häufigste Wörter nach Wortarten im gesamten Dudenkorpus

Der Duden listet die folgenden Wörter:

Platz Substantive Adjektive Verben
01 Jahr neu werden
02 Uhr ander haben
03 Prozent groß sein
04 Euro viel können
05 Million erst müssen
06 Zeit deutsch sollen
07 Tag gut sagen
08 Land weit geben
09 Mensch eigen kommen
10 Frau klein wollen
11 Deutschland letzt machen
12 Mann alt gehen
13 Kind hoch stehen
14 Ende jung lassen
15 USA nahe sehen
16 Seite zweit finden
17 Woche vergangen bleiben
18 Stadt lang liegen
19 Berlin wenig dürfen
20 Unternehmen politisch stellen

MfG Harry8 13:56, 9. Apr. 2017 (CEST)

Häufigste Wörter nach Wortarten in Romanen des Dudenkorpus

Der Duden listet die folgenden Wörter:

Platz Substantive Adjektive Verben
01 Mann ander haben
02 Frau klein sein
03 Hand groß werden
04 Auge gut können
05 Tag erst sagen
06 Zeit viel sehen
07 Jahr alt müssen
08 Kopf ganz kommen
09 Mutter letzt gehen
10 Gesicht neu wollen
11 Vater lang machen
12 Kind jung geben
13 Blick weit wissen
14 Leben nahe sollen
15 Haus eigen lassen
16 Tür einzig stehen
17 Mensch schwarz fragen
18 Wort einig tun
19 Stimme wenig nehmen
20 Herr lieb halten

MfG Harry8 13:57, 9. Apr. 2017 (CEST)

Änderung der Quellengrundlage: Neue Liste

Gibt es eigentlich irgendeinen Grund der dagegen spricht, die hier bestehende Liste durch die jüngere Jones/Tschirner-Zählung von 2006 zu ersetzen? Dort gibt es weder Doppelnennungen, zudem ist auch die gesproche Sprache Teil des zugrundeliegenden Korpus. (Natürlich hat das auf die Top-100 null Einfluss, aber es wird im Artikel hervorgekehrt.) Wenn hier keiner Widerspruch einlegt, würde ich das bei Gelegenheit übernehmen. Grundlage wäre besagte Zählung: https://books.google.de/books?id=HwvICQAAQBAJ&printsec=frontcover&dq=Jones+Tschirner+2006&hl=de&sa=X&ved=0ahUKEwi-q7XMu7jcAhUoSJoKHW93DeMQ6AEIKDAA Deissler (Diskussion) 21:26, 24. Jul. 2018 (CEST)

Es gibt m.E. keinen Grund gegen eine neue Liste. Ich schlage aber vor, nicht eine vorhandene Liste zu ersetzen, sondern die neue zusätzlich einzusetzen und darzustellen, worin sie sich von anderen Listen unterscheidet. Der link geht nur bis Nr. 311. Dr. Karl-Heinz Best (Diskussion) 22:08, 24. Jul. 2018 (CEST)
Sehr geehrter Herr Best, Jones/Tschirner und auch Klein habe ich vorliegen. Der Link diente nur der Orientierung. Welchen Mehrwert hat denn die gegenwärtige Liste Ihrer Ansicht nach? Sie ist - wie das Beispiel Mark verdeutlicht - sogar bei ihren Autosemantika veraltet. Mehrfachnennungen wie bei es und den Artikeln werden zwar erklärt. Die meisten Grundwortschätze seit Kaeding, dem es um eine stenographische, keine linguistische oder didaktische Aufarbeitung ging, fassen verschiedene Formen selbstverständlich unter einem Lemma zusammen. (Alles andere verwirrt Lernende des Deutschen, die diesen Artikel lesen, nur unnötig.) Dass selbst im Hochfrequenzbereich Sprachwandelsbewegungen zu verzeichnen sind, ließe sich viel besser mit den verschiedenen Zeitscheiben bei Klein darstellen. (Das dürfte muttersprachliche Interessenten wiederum eher interessieren.) Herzliche Grüße Deissler (Diskussion) 23:28, 24. Jul. 2018 (CEST)
Beste Grüße vorweg! Ich sehe das so: Wenn man verschiedene Listen hat, kann das jemanden, der sich nicht nur ganz oberflächlich informieren will, dazu anregen, Vergleiche anzustellen und sich bei Unterschieden zu fragen, worauf die zurückzuführen sind. Und dann stellt sich manch eine(r) sicher die Frage, welche der Listen er/sie zu eigenen Zwecken verwenden möchte und warum. Aber: Es war ja nur ein Vorschlag. Einen schönen, nicht zu heißen Tag noch! Dr. Karl-Heinz Best (Diskussion) 11:38, 25. Jul. 2018 (CEST)
Sie haben Recht. Dann gilt es das natürlich entsprechend einzuführen und vielleicht eine andere Form der Darstellung zu wählen; bei Jones/Tschirner z.B. durch einen didaktischeren Einschlag. Mir ist eine andere Frage in den Sinn gekommmen: Meinen Sie die Abbildung der 100 häufigsten Wörter in Jones/Tschirner geht noch als Zitat durch? Gelistet werden die 4.028 häufigsten Wörter ihrer Zählung, auf den hinteren Rängen beträgt die Frequenz 16 Treffer pro einer Million. Der Vorteil der hier vorhandenen Liste ist ja, dass sie online zugänglich ist und solche Fragen gar nicht erst aufkommen. Viele Grüße Deissler (Diskussion) 19:19, 25. Jul. 2018 (CEST)
Ich habe versucht, die Urheberrechtsfrage zu klären, da ich mir dabei auch nicht sicher bin. Ganz klar ist mir das aber nicht geworden, trotz
https://ggr-law.com/urheberrecht/faq/zitate-texte-bilder-musik-filme-wie-muss-ich-zitieren/
Ich neige dazu, dass man die ersten 100 Wörter mit Quellenangabe zitieren kann, dies umso mehr, da sie ja schon im Internet verfügbar ist. Ob das aber jeder Jurist so sieht? Noch besser wäre es, die Präsentation zu bearbeiten (Einführung, formale/typologische Bearbeitung, abschließende Kommentierung/Auswertung).
Schöne Grüße! Dr. Karl-Heinz Best (Diskussion) 20:08, 25. Jul. 2018 (CEST)
Noch ein Hinweis, vielleicht hilfreich, besonders Nr. 16:
https://de.wikipedia.org/wiki/Hilfe:FAQ_Rechtliches#Darf_ich_fremde_Texte_zitieren? Dr. Karl-Heinz Best (Diskussion) 21:11, 25. Jul. 2018 (CEST)
Danke, das ist hilfreich. Ein typischer Listeneintrag bei Jones/Tschirner sieht z.B. so aus:
62 jetzt adv now - Antina schläft jetzt schon zwei Stunden. (1,908)
Eine Übernahme des Beispielsatzes verbittet sich. (Für eine didaktische Aufbereitung würde sich anbieten, einfach neue Sätze zu erfinden.) Doch wie verhält sich mit den von Jones/Tschirner eruierten Trefferzahlen? Die sind ja sowas wie der Markenkern dieses Forschungsprojekts. Frage geht natürlich auch an andere. Grüße Deissler (Diskussion) 22:00, 25. Jul. 2018 (CEST)
Nach meinem Eindruck kann man die Trefferzahlen wiedergeben, indem man sie abschreibt und in eine andere Form der Tabelle bringt, also dem Ganzen eine andere Gestaltung verpasst. Schöne Grüße! Dr. Karl-Heinz Best (Diskussion) 16:14, 26. Jul. 2018 (CEST)
Ich denke, dass die Wörter bzw. Wortformen, die ihnen zugeordneten Wortarten, die vollkommen mechanisch ermittelten Trefferzahlen sowie das sich daraus ergebende Ranking keine Schöpfungshöhe besitzen, die sie urheberrechtlich schützen würde. Die sehe ich gegeben bei den Beispielsätzen, der Präsentation und mindestens einem Teil Übersetzungen ins Englische. Lieben Gruß —LiliCharlie (Disk.) 23:48, 26. Jul. 2018 (CEST)
Danke. Es geht beim Überfliegen nur unzureichend aus dem Artikel hervor, dass die Wortformen-Liste auf der Kaeding-Zählung beruht; auch, da die verlinkte Quelle nichts als die Liste selbst anzeigt: "ohne alles". Jones/Tschirner sind da mit ihrem Vorgehen näher an der Wahrheit dran. Ich bin kein großer Freund der Frequenzerhebungen für didaktische Zwecke; da der Artikel aber sehr häufig angesteuert wird, müsste über einen kompletten Umbau nachgedacht werden. Dieser könnte die Kaeding-Liste (transparenter) weiter hinten platzieren und deutlicher auf die Unterschiede zwischen grammatischen und semantischen Wortformen hinweisen. Dafür habe ich allerdings erst in einigen Wochen Zeit. Deissler (Diskussion) 01:02, 27. Jul. 2018 (CEST)