Extrahieren Sie Text aus Bildern mit dieser besten OCR-Software

2019

Inzwischen ist fast alles (z. B. Fotos, Musik, Videos) digital geworden (und das ist sinnvoll, da digitale Inhalte bequem verwaltet, bearbeitet und freigegeben werden können). Wie können Textdokumente zurückbleiben? Dank der Fortschritte bei der optischen Zeichenerkennung (Optical Character Recognition, OCR) ist es jetzt einfacher als je zuvor, das Textmaterial in gedruckten / handschriftlichen Dokumenten zu digitalisieren, sodass es von Textverarbeitungsprogrammen bearbeitet werden kann.

Dafür brauchen Sie wirklich gute OCR-Softwareanwendungen. Genau darum geht es in diesem Artikel. Diese Software kann entweder die Ausgangsdruckdokumente als Bilder von Scangeräten abrufen oder Sie können eigene Dokumentbilder eingeben, die in bearbeitbaren Text umgewandelt werden sollen. Fasziniert? Dann lassen Sie uns nicht um den heißen Brei herumschlagen und die 5 beste OCR-Software nutzen .

1. ABBYY FineReader

Bei der optischen Zeichenerkennung kommt ABBYY FineReader kaum etwas näher. ABBYY FineReader ist vollgepackt mit einer unglaublichen Anzahl an leistungsstarken Funktionen und macht das Extrahieren von Text aus allen Arten von Bildern zum Kinderspiel.

ABBYY FineReader ist trotz zahlreicher Funktionen sehr einfach zu bedienen. Es kann Text aus fast allen gängigen Bildformaten wie PNG, JPG, BMP und TIFF extrahieren. Und das ist nicht alles. ABBYY FineReader kann auch Text aus PDF- und DJVU-Dateien extrahieren. Sobald die Quelldatei oder das Quellbild (das vorzugsweise eine Auflösung von mindestens 300 dpi für ein optimales Scannen aufweisen sollte) geladen ist, analysiert das Programm es und ermittelt automatisch verschiedene Abschnitte der Datei mit extrahierbarem Text. Sie können entweder den gesamten Text extrahieren lassen oder nur bestimmte Abschnitte auswählen. Danach müssen Sie nur noch die Option Speichern verwenden, um das Ausgabeformat auszuwählen. ABBYY FIneReader kümmert sich um den Rest. Es werden zahlreiche Ausgabeformate unterstützt, z. B. TXT, PDF, RTF und sogar EPUB.

Der Ausgabetext kann perfekt bearbeitet werden, und Text auch aus inhaltsintensivsten Dokumenten (z. B. mit mehreren Spalten und komplexen Layouts) wird einwandfrei extrahiert. Zu den weiteren Funktionen gehören umfangreiche Sprachunterstützung, zahlreiche Schriftarten / -größen und Bildkorrektur-Tools für Dateien, die von Scannern und Kameras stammen.

Kurz gesagt: Wenn Sie die absolut beste OCR-Software mit umfangreichem Eingabe- / Ausgabeformat und Verarbeitungsunterstützung auf den Markt bringen möchten, wählen Sie ABBYY FineReader.

Plattformverfügbarkeit: Windows 10, 8, 7, Vista und XP; Mac OS X 10.6 und höher

Preis: Die kostenpflichtigen Versionen beginnen bei $ 169.99 und sind 30 Tage kostenlos verfügbar

Herunterladen

2. Readiris

Auf der Suche nach einer extrem leistungsstarken OCR-Software mit vielen Funktionen, die jedoch nicht wirklich viel Aufwand erfordert, um damit anzufangen? Werfen Sie einen Blick auf Readiris, da es vielleicht genau das ist, was Sie brauchen.

Readiris ist eine professionelle Anwendung und verfügt über ein umfangreiches Funktionspaket, das weitgehend mit dem zuvor diskutierten ABBYY FineReader identisch ist. Von BMP bis PNG und von PCX bis TIFF unterstützt Readiris einige Bildformate. Abgesehen davon können PDF- und DJVU-Dateien genauso gut verarbeitet werden. Bilder können von Scannergeräten bezogen werden. Außerdem können Sie mit der Anwendung benutzerdefinierte Verarbeitungsparameter für Quelldateien / -bilder festlegen (z. B. Glätten und DPI-Anpassung), bevor Sie sie analysieren. Obwohl Readiris Bilder mit geringerer Auflösung gut verarbeiten kann, sollte die optimale Auflösung mindestens 300 dpi betragen. Sobald die Analyse abgeschlossen ist, bestimmt Readiris Textabschnitte (oder Zonen), und der Text kann entweder aus bestimmten Zonen oder aus der gesamten Datei extrahiert werden. Der extrahierte Text ist bearbeitbar und kann in zahlreichen Formaten gespeichert werden, z. B. PDF, DOCX, TXT, CSV und HTM.

Mit der Cloud-Sparfunktion von Readiris Pro können Sie den extrahierten Text direkt auf verschiedenen Cloud-Speicherdiensten wie Dropbox, OneDrive, GoogleDrive und anderen speichern. Es gibt auch eine ganze Reihe von Textbearbeitungs- / -verarbeitungsfunktionen, und sogar Barcodes können gescannt werden.

Alles in allem sollten Sie Readiris verwenden, wenn Sie robuste Textextraktions- / Bearbeitungsfunktionen in einem einfach zu verwendenden Paket mit umfassender Unterstützung für Eingabe- / Ausgabeformate verwenden möchten. Bei der Verarbeitung von Dokumenten mit komplexen Layouts wie mehreren Spalten, Tabellen usw. schwankt Readiris jedoch ein wenig.

Plattformverfügbarkeit: Windows 10, 8, 7, Vista und XP; Mac OS X 10.7 und höher

Preis: Die kostenpflichtigen Versionen beginnen bei $ 99, 10 Tage kostenlose Testversion verfügbar

Herunterladen

3. FreeOCR

Wenn Sie nach einer einfachen und unkomplizierten OCR-Software mit anständigen Texterkennungsfunktionen suchen, sind Sie bei FreeOCR genau richtig . Es ist zwar nicht mit allen Arten ausgefallener Funktionen überladen, funktioniert aber dennoch sehr gut für das, was es ist.

FreeOCR basiert auf der äußerst beliebten, von Google unterstützten Tesseract OCR-Engine und ist äußerst benutzerfreundlich. Es kann gedruckte Dokumente erhalten, die über Scanner gescannt werden, und Sie können auch Bilder mit Textinhalt hochladen. Darüber hinaus kann es auch Text aus stark formatierten mehrseitigen Dokumenten extrahieren. Sie können die Anwendung entweder den gesamten Text aus dem eingegebenen PDF / Bild extrahieren lassen oder einen bestimmten Textblock definieren. Die Konvertierungsgeschwindigkeiten sind ziemlich gut und der konvertierte Text kann entweder in Formaten wie TXT und RTF gespeichert oder direkt in Microsoft Word exportiert werden. FreeOCR unterstützt alle gängigen Bildformate wie PNG, JPG und TIFF.

Allerdings hat FreeOCR einige Mängel. Es ist zu einfach und verfügt nicht über Textnachbearbeitungsfunktionen. Darüber hinaus wird das Layout des extrahierten Textes oft durcheinandergebracht, wobei sich Zeilen und Spalten überlappen. Verwenden Sie es nur, wenn Sie für die gelegentliche Verwendung einige grundlegende OCR-Funktionen benötigen.

Plattformverfügbarkeit: Windows 10, 8, 7, Vista und XP

Preis: Kostenlos

Herunterladen

4. Microsoft OneNote

OneNote ist eine beeindruckende, reichhaltige Anwendung zum Erstellen von Notizen, mit der Sie auch ganz leicht beginnen können. Notetaking ist jedoch nicht das einzige, was es gut kann. Wenn Sie OneNote als Teil Ihres Workflows verwenden, können Sie dank der integrierten OCR-Güte eine einfache Textextraktion durchführen.

Die Verwendung von OneNote zum Extrahieren von Text aus Bildern ist lächerlich einfach. Wenn Sie die Desktop-Anwendung verwenden, müssen Sie lediglich die Option Einfügen verwenden, um das Bild in eines der Notizbücher oder Abschnitte einzufügen. Sobald dies erledigt ist, klicken Sie einfach mit der rechten Maustaste auf das Bild und wählen Sie die Option Text aus Bild kopieren . Der gesamte Textinhalt aus dem Bild würde in die Zwischenablage kopiert und kann je nach Anforderung an beliebiger Stelle eingefügt werden. Ob PNG, JPG, BMP oder TIFF, OneNote unterstützt fast alle gängigen Bildformate.

Die Textextraktionsfunktionen von OneNote sind jedoch recht begrenzt und können nicht mit Bildern umgehen, die komplexe Layouts für textuellen Inhalt haben, wie z. B. Tabellen und Unterabschnitte. Das ist etwas, was Sie bedenken sollten.

Plattformverfügbarkeit: Windows 10, 8, 7 und Vista; Mac OS X 10.10 und höher

Preis: Kostenlos

Herunterladen

5. GOCR

Hinweis: Bevor Sie beginnen, ist es wichtig zu wissen, dass GOCR zwar normale Bildformate wie PNG und JPG unterstützt, diese jedoch während unserer Tests (auf einem Windows 10-PC) nicht erkannt hat. Es ist sehr gut möglich, dass es auf Linux-Maschinen mit diesen Formaten funktioniert. Wenn Sie jedoch Windows verwenden, müssen Sie die Quellabbilder in das PNM-Format konvertieren. Dies kann über zahlreiche Online-Dateikonvertierungswerkzeuge wie diese erfolgen.

Was GOCR von der Partie abhebt, ist, dass es nicht wirklich über ein GUI (Frontend für grafische Benutzeroberfläche) verfügt. Es ist ein auf Kommandozeilen basierendes Tool und daher nicht wirklich am einfachsten zu verwenden. Wenn Sie mit den Grundlagen vertraut sind, kann GOCR sich bei der Textextraktion aus Bildern als sehr hilfreich erweisen. Es ist auch erwähnenswert, dass für die ordnungsgemäße Funktion von GOCR die Quellbilder deutlich sichtbaren Textinhalt und vorzugsweise weißen Hintergrund haben sollten, da das Dienstprogramm nicht wirklich mit komplexen Quelldateien arbeitet. GOCR extrahiert den Text aus Bildern und speichert sie im TXT-Format. Während es einige Argumente und Funktionen unterstützt, müssen nur einige bekannt sein, um zu beginnen. Um beispielsweise Text aus einem PNM-Beispielabbild zu extrahieren, geben Sie Folgendes an der Eingabeaufforderung ein.

X: \ Musterordner \ gocr049 -i Datei.pnm -o Datei.txt

Hier ist der Ordner X: \ sample der Ort, an dem sich das Befehlszeilentool von GOCR befindet, und file.pnm und file.txt sind jeweils die Eingabe- und Ausgabedateien (beide am selben Ort wie GOCR; falls sich der Speicherort unterscheidet (der vollständige Pfad sollte angegeben werden). Wenn Sie die Graustufenwerte für das Bild ändern möchten, können Sie als Argument einen numerischen Wert zusammen mit -l angeben. Klicken Sie hier, um mehr über die Verwendung zu erfahren.

Zusammenfassend lässt sich sagen, dass GOCR ein ziemlich gutes OCR-Hilfsprogramm ist, und wenn es um die Textextraktion aus einfachen Bildern geht, funktioniert es außergewöhnlich gut. Die Funktionen sind jedoch stark eingeschränkt und erfordern einen erheblichen Arbeitsaufwand.

Plattformverfügbarkeit: Windows 10, 8, 7, Vista und XP; Linux; OS / 2

Preis: Kostenlos

Herunterladen

Alle eingestellt, um Bilder in Text umzuwandeln?

Das Digitalisieren von gedruckten (und handgeschriebenen) Textinhalten ist äußerst nützlich, da das Speichern, Bearbeiten und Freigeben von Text extrem einfach ist. Und mit der oben beschriebenen OCR-Software können Sie genau das tun, egal wie grundlegend oder fortgeschritten Ihre Textextraktionsanforderungen sind. Benötigen Sie professionelle Textextraktionsfunktionen mit den besten Nachbearbeitungstools? Wählen Sie ABBYY FineReader oder Readiris. Möchten Sie eine einfachere OCR-Software, die nur die Grundlagen schafft? Verwenden Sie OneNote oder FreeOCR. Probieren Sie sie aus und sehen Sie, wie sie für Sie arbeiten. Kennen Sie andere OCR-Software, die in der obigen Liste enthalten sein könnte? Rufen Sie in den Kommentaren unten auf.