Benutzer:HRoestTypo/Tippfehler/20151002

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

DB dump

Innerhalb des Volltextes [1] wurden in der Wikipediaversion 20151002 total 445 220 217 Worte und Wortfragmente in total 2 151 335 Artikeln (nur Namensraum 0) identifiziert, wobei 4 786 343 einzigartige Wörter gezählt wurden. Das häufigste Wort ist dabei "der" mit 20 798 318 Vorkommen (4.6715 % aller Wörter), während 2 423 906 Wörter nur ein einziges Mal im ganzen Text vorkommen. Somit kommen gut die Hälfte aller Wörter (50.6 %) nur ein einziges Mal vor im ganzen Text.[2] Insgesamt machen Wörter mit weniger als 25 Vorkommen im Text 92.6081 % aller einzigartigen Wörter aus während die 3921 Wörter die mehr als 10 000 mal vorkommen gut 74.61 % des gesamten Textvolumens ausmachen. Total gibt es nur 23 Wörter welche im Durchschnitt mehr als einmal pro Artikel vorkommen[3]

Der längste Textbaustein im Textkorpus ist [4] ist Ifwhiteamericatoldthetruthforonedayit'sworldwouldfallappart dicht gefolgt von Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch und Schwemmlandhochebewegarbeitswerkzeugaufbewahrungsschuppen und dem ersten "richtigen" deutschen Wort Verkehrsinfrastrukturfinanzierungsgesellschaftsgesetzes.

Gegen eine Liste von 103 923 Falschschreibweisen gesucht, ergibt sich folgende Liste von potentiell falsch geschrieben Wörtern:


Notes[Bearbeiten | Quelltext bearbeiten]

  1. das heisst innerhalb des Textes der vom Algorithmus analysiert wurde und Dinge wie Templates, Weblinks, Interwikilinks etc ausschliesst
  2. Hier eine Liste von 20 zufälligen Wörtern die nur einmal vorkommen:
    • Tagungswesens
    • Streuobste
    • Sorhouette
    • wïwa
    • Krachaeng
    • Brüderorte
    • B.selbsterzeugte
    • 3,5–12,5
    • Limesübergängen
    • Zwergflamingoei
    • 1543—1617
    • Zaisolf
    • Gabriëls
    • Siauve
    • Überlaufwehren
    • Hutarbeiterbranche
    • Grünlandökologie
    • erftwärts
    • Weltfinanzen
    • Leverwort
  3. die 23 Wörter, welche im Durchschnitt mehr als einmal pro Artikel vorkommen, sind:
    • nach
    • bis
    • aus
    • auch
    • war
    • für
    • sich
    • eine
    • ein
    • auf
    • als
    • Die
    • das
    • dem
    • ist
    • wurde
    • mit
    • des
    • den
    • von
    • die
    • und
    • der
  4. vollständig auf deutsch, ohne Zahlen, Formatierungen etc