Diskussion:Texterkennung

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Theorie/Grundlagen[Quelltext bearbeiten]

Um - ganz im Geiste der Wikipedia - der Allgemeinheit ein frei verfügbares OCR-Programm an die Hand zu geben, sollten hier die theoretischen Grundlagen für erfolgreiche Verfahren (3D/Graustufen-Erkennung) zumindest verlinkt werden. Es kann nicht sein, dass 1 oder 2 Systemhäuser die zugehörigen Forschungsergebnisse unter Verschluss halten, um sich eine goldene Nase zu verdienen...

Softwarebewertung[Quelltext bearbeiten]

Hallo! Ich habe ABBYY FineReader + Omniplage ausführlich getestet + bin sehr begeistert von FineReader - wäre es nicht sinnvoll solche Infos kurz (z.B. in einer Zeile) auf der Seite zu vermerken? Oder macht man das in Wiki allgemein nicht? --BRotondi 17:48, 19. Sep 2006 (CEST)

Nein und nein. Die beiden Softwares sind ja schon genannt (zu Mindestens zum aktuellen Datum an dem ich das hier schreibe), das ist das Maximale und Neutralste! --Philipp Grunwald 23:17, 23. Mär. 2009 (CET)[Beantworten]

"OCR" ist strenggenommen nicht synonym zu "Texterkennung"[Quelltext bearbeiten]

Ich habe Ausdiffernzierungen vorgenommen, die auf Widerspruch gestoßen sind. Siehe Diskussion Benutzer_Diskussion:Nowhereman. Ich schaffe es wahrscheinlich heute nicht mehr alles Rückgängig zu machen. Kaputt im eigentlichen Sinne ist hier nichts. Falls dennoch alles oder vieles von anderen zurückgesetzt werden muss, bevor ich mich morgen wieder darum kümmern kann - dann ist das eben so. Ich werde morgen den Rest konsensfähig beenden. Gruß Nowhereman 13:00, 23. Okt. 2006 (CEST)[Beantworten]

Ich habe leider noch nicht genügend Fachmaterial zusammen. Das was ich aber weiß, ist, dass Texterkennung weit über OCR hinausgeht, andererseits die Grenzen des Begriffes "OCR" sehr schwammig und fließend sind, da sich auf fachlicher Seite scheinbar nicht um eine Abgrenzung bemüht wurde. Ich schlage aber weiterhin vor, OCR in einem eigenen Artikel zu bearbeiten und diesen mit die Komponenten der Mustererkennung, die Funktionsweise von Klassifikatoren, K.I., neuronalen Netzen usw. zu erweiteren. In diesem Artikel über Texterkennung sollte folgender Satz geändert werden.

Anstelle alt:

Moderne Texterkennung umfasst auch die Erkennung verschiedener Schriftarten und -größen und des Seitenlayouts zur möglichst originalgetreuen Wiedergabe einer Vorlage.

Sollte neu:

Moderne Texterkennung umfasst inzwischen mehr als reine OCR, d.h. der Übersetzung einzelner Schriftzeichen. Zusätzlich werden Methoden der Kontextanalyse Intelligent Character Recognition (ICR) hinzugezogen, mit welcher die OCR Ergebnisse korrigiert werden können. So kann eine "8" zu einem "B" korrigiert werden, wenn sie in einem Buchstaben-Kontext steht. Das OCR-Ergebnis "8aum" kann mit ICR-Methoden zu "Baum" korrigiert werden. Im Bereich industrieller Texterkennungssysteme wird daher von OCR/ICR-Systemen gesprochen. Die Grenzen des OCR-Begriffes sind jedoch fließend, denn OCR und ICR dienen auch als Marketingbegriffe, um technische Weiterentwicklungen besser vermarkten zu können. Auch Intelligent Word Recognition (IWR) fällt unter diese Kategorie. Dieser Ansatz versucht das Problem bei der Erkennung von Fließhandschriften zu lösen, bei der die Einzelzeichen nicht eindeutig separiert und daher nicht über herkömmliche OCR-Methoden erkannt werden können.
Ein prinzipiell anderer Ansatz der Texterkennung findet bei der Handschriftenerkennung auf Touchscreens oder Eingabefeldern (PDA etc.) statt. Hier werden vektorbasierte Muster verarbeitet, entweder 'offline' als gesamtes Wort, oder 'online' mit zuätzlicher Analyse des Eingabeflusses.
Eine Sonderform der Texterkennung, ergibt sich z.B. bei der automatischen Verarbeitung des Posteinganges großer Firmen. Eine Aufgabenstellung ist das Sortieren der Belege. Dafür muss nicht immer der Inhalt analysiert werde. Es reicht manchmal schon, die groben Merkmale, etwa das charakteristische Layout von Formularen, Firmenlogos etc. zu erkennen. Die Klassifikation bestimmter Textarten erfolgt wie bei der OCR über eine Mustererkennung, die sich jedoch global auf das gesamte Blatt oder definierte Stellen anstelle einzelner Buchstaben bezieht.

Dieses ist eine erste Version und natürliche gerne auch von anderen Wikipedianern korrigierbar. Nowhereman 10:16, 24. Okt. 2006 (CEST)[Beantworten]

Ich bin auch auf diesen Beitrag gestoßen, weil ich eine Definition für OCR gesucht habe. Ich stimme zur, dass Texterkennung und OCR nicht dasselbe sind. Wäre schön, wenn das geändert werden würde. --HPich (Diskussion) 16:13, 16. Jul. 2020 (CEST)[Beantworten]

Toter Weblink[Quelltext bearbeiten]

Bei mehreren automatisierten Botläufen wurde der folgende Weblink als nicht verfügbar erkannt. Bitte überprüfe, ob der Link tatsächlich down ist, und korrigiere oder entferne ihn in diesem Fall!

--Zwobot 03:20, 28. Nov. 2006 (CET)[Beantworten]

Der Link unter LITERATUR scheint nichts Sinvolles hervorzubringen... (Jüngste Forschungsergebnisse am MIT (2001) (engl.))

Er führt auch wohl nicht zum MIT sondern zu http://www.packet.cc/files/recent-development.html

Vielleicht sollte man den Link besser löschen?

Software list is confusing![Quelltext bearbeiten]

Currently, there is a list of OCR software, that contains only two entries (only those applications that have a wikipedia entry). That's simply confusing, as it indicated to me that these are the only two OCR applications that exist at all!!!

Okay, ich habe mal die beiden wichtigsten OCR-Programme für Windows (ABBYY FineReader und Nuance OmniPage sowie Tesseract für Linux) ergänzt! Wer die Programme kennt und benutzt, kann ja neue Artikel für die Programme anlegen. --84.149.91.9 01:29, 1. Sep. 2007 (CEST)[Beantworten]

Meiner Meinung nach gehört das "Siehe auch: Inkwell" hier nicht in den Artikel-(Fließ-)Text. Das sollte entweder unter den auch sonst bei Wikipedia-Artikeln vorhandenen "Siehe auch:"-Teil oder unter Software oder ganz raus! --Philipp Grunwald 23:20, 23. Mär. 2009 (CET)[Beantworten]

Ich habe bei BCR einen link hierher eingetragen, weil BCR eine spezialanwendung von OCR ist: BCR = Business Card Reader. Ich wollte es eigentlich hier nachschlagen, musste aber dann Googeln. Mein Scanner hat die einstellung,...

Redirect von Handschrifterkennung[Quelltext bearbeiten]

Handschrifterkennung kann man sicher Synonym zu Texterkennung verwenden, aber wenn man z.B. vom Artikel Tablet PC beim Klick auf Handschrifterkennung auf einen Artikel stößt, der sich eigentlich nur mit OCR beschäftigt, dann ist stimmt da irgendwas nicht. OCR ist eigentlich auch nicht zur Erkennung von Handschriften sondern von gedruckten Typen gedacht - also sollte Handschrifterkennung ausgebaut oder wieder in einen eigenen Artikel ausgelagert werden. OCR hat technisch gesehen sehr wenig mit der Online-Erkennung von Handschriften zu tun. Besser wäre in meinen Augen einen Artikel für die Handschrifterkennung (mit Online/Offlineerkennung), wo dann auf Texterkennung/OCR verlinkt wird.-- Wookie 11:44, 27. Mär. 2008 (CET)[Beantworten]

Handschrifterkennung kann man meines Erachtens sicher nicht synonym zu Texterkennung verwenden. Aber die Folgerung aus der vorherigen Aussage halte ich trotzdem für vollkommen richtig - es sollte ein Handschrifterkennung-Artikel her, der exklusiv die automatische Erkennnung von Handschrift und deren umwandlung in Werte einer Zeichencodierung beschreibt und auch von OCR deutlich abgrenzt. "Texterkennung" solle im Grunde ein Übersichtsartikel sein, nur mit Aufzählungspunkten.
Ungefähr so:
Texterkennung bezeichnet:
  • Optische Zeichenerkennung (Optical Character Recognition OCR)
  • Handschrifterkennung
Die Hinweise auf die Unterschiede zwischen "Online-" und "Offline-"Handschrifterkennung sollten dann im Artikel Handschrifterkennung stehen, ebenso wie der Hinweis darauf, dass bei der Offline-Handschrifterkennung ja durchaus auch Techniken verwendet werden können, die dem OCR ähnlich sind. Allerdings können bei der "Offline"-Handschrifterkennung auch Techniken der "Online"-Handschrifterkennung verwendet werden und umgekehrt. Das ist ebenfalls Material für den Handschrifterkennung-Artikel. Weiterhin wäre es interessant, Handschrifterkennung für verschiedene Schriften zu beschreiben, z.B. für Arabische Schrift, Devanagari oder auch Ostasiatische Schriftzeichen (CJK). Natürlich sollte im Handschrifterkennung-Artikel auch ein Hinweis stehen, dass es sich dabei nicht um Graphologie handelt und dass Unterschrifterkennung zur Verwendung in Sicherheitsanwendungen zwar ein verwandter Bereich ist, aber eben nicht derselbe. --Steven 11:14, 25. Aug. 2010 (CEST)[Beantworten]

Hinweis auf OMR fehlt[Quelltext bearbeiten]

Optical Music Recognition (OMR) oder Music OCR (nicht signierter Beitrag von 84.189.212.132 (Diskussion | Beiträge) 23:50, 2. Mai 2009 (CEST)) [Beantworten]

Es soll zwar Synästhesie geben, aber Musik mit dem Auge erkennen ist doch etwas viel verlangt ... Meinst du Scans von Notenblättern einlesen und als Musiknoten erfassen? Oder Musikstücke erkennen, also Vorsummen von "Da-da-da-daaa" und der Computer oder das Handy zeigt "Das ist das Hauptthema von Beethoven's Fünfter Sinfonie" an? -- Matthead 17:11, 1. Nov. 2010 (CET)[Beantworten]

Screenshot Reader[Quelltext bearbeiten]

Hat außer Abbyy FineReader ein anderes OCR-Programm die Möglichkeit, den Bildschirm oder Teile des Bildschirms direkt, z. B. in die Ablage, zu lesen? Diese Möglichkeit als solche sollte man erwähnen, finde ich. --Delabarquera 09:51, 12. Feb. 2010 (CET)[Beantworten]

Hinweis auf Eye (open source OCR)[Quelltext bearbeiten]

Hi, bin neu hier und nicht sicher, wie der sinnvollste Ablauf ist.

Ich möchte der Seite einen Hinweis hinzufügen (unter "Open Source") auf ein OCR-Tool: Eye (http://eyeocr.sourceforge.net). (Ja, ist mein eigenes Projekt.)

Wie sind hier die Kriterien für das Listen einer Software? Gibt es überhaupt welche?

Das Tool ist im Entwicklungsstadium, aber bereits benutzbar.

Gruß und Danke im Voraus für Hinweise zum weiteren Vorgehen! --Stefanreich2012 (17:18, 7. Okt. 2010 (CEST), Datum/Uhrzeit nachträglich eingefügt, siehe Hilfe:Signatur)

Textvergleiche?[Quelltext bearbeiten]

Hilfreich wäre es, wenn Software bereits vorhandene Texte mit Scans vergleichen könnte, und auf Differenzen hinweisen könnte, und das "intelligent". So könnte man auch mit verschiedenen OCR-Programmen erstellte Texte abgleichen lassen, oder aus verschiedenen Vorlagen OCRen, wodurch unleserliche Stellen, Flecken usw. herausgemittelt werden. So richtig interessant ist das, wenn verschiedene Ausgaben, die unterschiedlich gedruckt wurden, auf veränderte Inhalte verglichen werden. Die Software darf dabei nicht durch Kleinigkeiten ins Stolpern geraten. Leider produzier(t)en schon reine textbasierte diff-Progamme wie das WP-interne oft Müll, wenn nur eine Leerzeile entfernt oder eingefügt wurde, oder ein Zeilenumbruch verändert wurde. -- Matthead 17:05, 1. Nov. 2010 (CET)[Beantworten]

Zahl der unerkannten Fehler in einem Dokument abschätzen[Quelltext bearbeiten]

In dem Lemma Rechtschreibfehler steht mitnichten, wie sich die Zahl der unerkannten Fehler in einem Dokument abschätzen läßt. (nicht signierter Beitrag von 92.224.241.56 (Diskussion) 12:40, 17. Apr. 2011 (CEST)) [Beantworten]

Erfolge durch neuronale Netze in Handschrifterkennungswettbewerben seit 2009[Quelltext bearbeiten]

Es gab im Artikel keinen Hinweis auf den gegenwärtigen Stand der Kunst und auf die Erfolge durch neuronale Netze in Handschrifterkennungswettbewerben seit 2009. Ich habe hierzu Text samt zahlreichen Referenzen eingefügt. Wohlgetango (Diskussion) 17:01, 27. Dez. 2013 (CET)[Beantworten]

Der Link von Kadmos ist falsch. https://de.wikipedia.org/wiki/Kadmos (nicht signierter Beitrag von 2A02:8388:1700:C400:211:50FF:FE9B:F818 (Diskussion | Beiträge) 15:21, 26. Nov. 2015 (CET))[Beantworten]

Transkribus ist definitiv keine freie Software insbesondere nicht in dem Sinne, wie es der entsprechende Wikipedia-Artikel erklärt. Vielleicht sollte die Unterteilung besser in kostenpflichtige und kostenfreie Software erfolgen. Wrznr (Diskussion) 17:41, 21. Jan. 2017 (CET)[Beantworten]

Das stimmt. Wie konnte das so lange falsch dastehen? Ich habe den Eintrag jetzt verschoben. --Stefan Weil (Diskussion) 07:31, 14. Mär. 2019 (CET)[Beantworten]

OZE als geeignete Abkürzung?[Quelltext bearbeiten]

Ich halte die Abkürzung 'OZE' für Texterkennung (oder OCR, oder Zeichenerkennung etc.) für nicht gebräuchlich. Habe auch schon versucht 'mutig zu sein', war aber nicht erfolgreich, mit der Begründung "Nu ja, irgendwer wird sich ja was dabei gedacht haben": https://de.wikipedia.org/w/index.php?title=Texterkennung&diff=prev&oldid=170004492

Gibt es noch andere Meinungen dazu?

Na ja, das ist wahrscheinlich nicht das wichtigste an diesem Artikel, ist mir aber zuerst ins Auge gesprungen... --Hobbes1651 (Diskussion) 20:20, 21. Okt. 2017 (CEST)[Beantworten]

Eingebracht wurde diese Abkürzung offenbar erstmals mit dieser Änderung. Vielleicht kann ElBanquo etwas dazu sagen? --Stefan Weil (Diskussion) 23:02, 21. Okt. 2017 (CEST)[Beantworten]
Wenn niemand einen Grund nennen kann, warum OZE im Artikel bleiben sollte, schlage ich vor, es zu entfernen. Mein Eindruck ist bisher, dass da einfach für optische Zeichenerkennung eine Abkürzung erfunden wurde, die es so nur in der deutschen Wikipedia gibt. Da die Abkürzung aber schon so lange hier steht, können wir auch noch bis Ende November warten, ob noch Argumente fürs Beibehalten kommen. --Stefan Weil (Diskussion) 13:30, 28. Okt. 2017 (CEST)[Beantworten]
Dieser Abschnitt kann archiviert werden. Stefan Weil (Diskussion) 07:34, 14. Mär. 2019 (CET)

Fließhandschriften[Quelltext bearbeiten]

Dieser Artikel verwendet den Begriff "Fließhandschriften". Gehe ich recht in der Annahme, dass dies ein Synonym zu Schreibschrift ist? --Neitram  16:59, 23. Nov. 2020 (CET)[Beantworten]