ABBYY FineReader Engine 8: SDK mit Schlüssel-Technologien für die Entwicklung effizienter Applikationen

ABBYY FineReader Engine 8.0 bietet Field-Level/ Zone Recognition, neue PDF-Verarbeitung und Verbesserungen an der Entwicklungsplattform

(PresseBox) (München/Essen, 27.09.2005)

ABBYY hat heute auf der DMS mit FineReader Engine 8 die neueste Version seines Software Development Kits (SDK) für Dokumentumwandlung und Datenerfassung vorgestellt. In einem SDK bietet FineReader Engine 8 u.a. Ganzseitenerkennung, Erkennung einzelner Dokumentfelder, PDF-Umwandlung und Datenerfassung. Somit erhalten Entwickler eine einfache Möglichkeit, die ABBYY-Techniken für eine große Bandbreite an Applikationen für unterschiedliche Einsatzbereiche zu integrieren: Dokument/Inhalts-Verarbeitung, Klassifizierung, Indizierung, Archivierung, Dokumentumwandlung, Formularverarbeitung sowie die Datenerfassung aus semi-strukturierten Formularen und Dokumenten. ABBYY FineReader Engine 8 wird ab November 2005 ausgeliefert.

Fine Reader Engine 8 adressiert neue Anwendungsgebiete mit entscheidenden Verbesserungen, die auch eine zuverlässige Erkennung einzelner Dokumentfelder erlauben und die Software zur idealen Plattform für Applikationen beispielsweise für die Schlagwort-Indizierung, Dokumentklassifizierung, Kontroll- und Verifizierungssysteme sowie die Datenerfassung aus unterschiedlichen Dokumenten (Schecks, Rechnungen, Pässen) durch intelligente Analyse machen. Weitere Verbesserungen bei der PDF-Umwandlung und neue Werkzeuge für die Anpassung der Software, welche die Entwicklungsarbeit erleichtern, machen FineReader Engine 8 zum genauesten und umfassendsten SDK für Dokumentumwandlung und Datenerfassung. Im Gegensatz zu allen anderen Tool Kits seiner Klasse enthält FineReader Engine 8 alle wesentlichen Funktionen, die zur Unterstützung aktueller Document Management Solutions (DMS) und Enterprise Content Management (ECM)-Lösungen benötigt werden.

ABBYY FineReader Engine 8.0 unterstützt 189 Sprachen in der Optical Character Recognition (OCR) und 90 Sprachen in der Intelligent Character Recognition (ICR). Die Software unterstützt zudem Optical Mark Recognition (OMR) sowie 1D- und 2D-Barcode-Erkennung. Die neue Version bietet insgesamt eine Steigerung der Erkennungsgenauigkeit, Verbesserungen bei der Erkennung einzelner Felder, neue Werkzeuge zur Dokumentanalyse und neue Funktionen wie eine Volltext-Index-Vorverarbeitung, welche FineReader Engine 8 für viele Bereiche variabel einsetzbar macht. Das SDK beinhaltet auch spezielle Programmierwerkzeuge, die Entwicklern helfen, genau arbeitende und effiziente Applikationen zu schaffen. Dies sind beispielsweise eine Unterstützung von Programmierschnittstellen zu externen Auswahlmechanismen (für Lösungen mit mehreren Engines) und Zugriff auf einer Kern-Programmierebene, um Feineinstellungen der Erkennung während des laufenden Betriebs vornehmen zu können. Entwickler profitieren ebenfalls von einer Datenbank mit Code-Beispielen, die auch Beispiel-Bilddateien und Benchmark-Daten für die gebräuchlichsten Einsatzbereiche beinhalten. ABBYY bietet auch ergänzende professionelle Dienstleistungen an und arbeitet eng mit seiner Entwicklergemeinschaft zusammen, um das optimale Gleichgewicht zwischen Verarbeitungsgeschwindigkeit und Erkennungsgenauigkeit für jede einzelne Applikation zu erreichen.

Allgemeine Verbesserungen der Erkennungsgenauigkeit

· Verbesserungen der OCR-Erkennungsgenauigkeit: Eine signifikante Steigerung der gesamten Erkennungsgenauigkeit: Für schwer zu erkennende Dokumente wie Faxe oder mit niedriger Auflösung gescannte Texte liefert die neue Version bis zu 30% bessere Ergebnisse.

· Schnellmodus für ICR: FineReader Engine 8 bietet eine Option zur Beschleunigung der Schrifterkennung in einzelnen Feldern bis maximal zur doppelten Verarbeitungsgeschwindigkeit.

· Adaptive Bildvorverarbeitung für Digitalkamerafotos. Die neue Version verwendet für Digitalkameras spezielle Algorithmen und korrigiert Bildverzerrungen, die für Digitalkamerafotos typisch sind. Das führt zu einer bis zu 40prozentigen Verbesserung bei der OCR-Verarbeitung von Digitalkamerafotos gegenüber der Vorgängerversion des SDK.

Verbesserungen bei der Erkennung einzelner Dokumentfelder

FineReader 8 beinhaltet einen kompletten Satz an Funktionen zur Erkennung einzelner Dokumentfelder. Es stehen OCR-, ICR-, OMR- und Barcode-Erkennung zur Verfügung, um Text oder Daten aus definierten Bereichen oder Ausschnitten von Bilddateien auszulesen. Spezifische Verbesserungen in der Version 8 gewährleisten Steigerungen der Verarbeitungsgeschwindigkeit und -genauigkeit bei der Erkennung einzelner Felder.

Zu den Verbesserungen zählen folgende Punkte:

· Schnellmodus-ICR bietet ICR-Verarbeitung mit bis zu zweifacher Geschwindigkeit.

· Besseres Auslesen von Text aus Feldern, selbst wenn der Text von Feldlinien überlagert wird.

· Genaue Erkennung auch von Feldern mit Zwischenräumen.

· Die neue Version enthält auch Wörterbücher, die Kombinationen von Wörtern mit Leerezeichen beinhalten können.

· Intelligente Verarbeitung von Blöcken mit sich überschneidenden Linien und Bereichen. FineReader Engine erkennt den gesamten Text (Wörter und Symbole) innerhalb eines Blocks und ignoriert dabei nicht relevante Textblöcke außerhalb des Feldes.

· Säubern von Textblöcken mit der Möglichkeit, den Schwellenwert der Entstörungsfunktion festzulegen.

· Voting API: Einstellen von Hypothesen auf Wort- und Zeichenebene für nachfolgende Wahlvorgänge.

· „On the fly“ Tuning: Integratoren können die Auswahl der Hypothesen durch das Aufstellen zusätzlicher Kriterienlisten beeinflussen, die während der Erkennung verwendet werden.

Ganzseitenerkennung, Dokument/PDF-Umwandlung

Durch signifikante Verbesserungen der zugrunde liegenden Technik bietet FineReader Engine 8 eine höhere Leistung und Erkennungsrate mit bis zu zweifacher Geschwindigkeit bei der Umwandlung von PDF-Dateien. Mit umfangreichen Funktionen für PDF-Eingabe und -Ausgabe bietet die Version 8 Entwicklern auch leistungsfähige Werkzeuge für die Erstellung von Applikationen zur PDF-Umwandlung (angefangen bei PDF, über eine Vielzahl von Datei- und Bildformaten bis zu durchsuchbaren PDFs).

Erweiterte PDF-Umwandlung (PDF-Eingabe)

· Genauere und bis zu 2-mal schnellere Verarbeitung von PDFs

ABBYY FineReader Engine 8.0 analysiert den internen Aufbau einer PDF-Datei und prüft ob ein Text-Layer vorhandnen ist. Auch zusätzliche Informationen wie Anmerkungen, Metadaten, Textobjekte, Schriften und Content Streams der Datei werden herangezogen. Basierend auf den Ergebnissen der Auswertung wird blockweise entschieden, ob der Textlayer übernommen werden kann oder ob eine OCR durchgeführt werden muss. Diese Arbeitsweise erhöht sowohl die Performance als auch die Genauigkeit der PDF-Umwandlung.

· Einhaltung der Sicherheitsvorgaben der PDF-Eingabedatei.

Erweiterte PDF-Ausgabe

· Unterstützung für PDF-Sicherheitseinstellungen und -Verschlüsselung: FineReader Engine 8.0 unterstützt Passwörter zum Öffnen und Bearbeiten von PDF-Ausgabedateien, die es dem Anwender erlauben, die Rechte für Druck, Bearbeitung und Extraktion von Dateiinhalten zu beschränken. Somit ist die Software gut geeignet für den professionellen Einsatz in Behörden und anderen Organisationen mit hohen Sicherheitsanforderungen. Die neue Version unterstützt auch RC4-basierte 40-bit-, 126-bit- und Advanced Encryption Standard (AES)-basierte 128-bit-Verschlüsselung.

· „Tagged“ PDF: Zusätzlich zur Ausgabe in einer Vielzahl von Formaten wie durchsuchbares PDF oder Nur-Bild-PDF bietet die neue Version die Fähigkeit „Tagged“ PDF-Dateien zu erstellen, die sich automatisch unterschiedlichen Bildschirmgrößen anpassen. Dadurch können erkannte Texte bequem auf Handhelds wie PDAs dargestellt oder von Bildschirmlesern für Sehbehinderte gelesen werden.

· Metadaten für PDF-Dateien: Während der PDF-Ausgabe können folgende Metadaten hinzugefügt werden: Lesezeichen, Hyperlinks und Dokumenteigenschaften.

Dokumentanalyse für Volltext-Indizierung

Diese Funktion unterstützt automatisches Auffinden und Erkennen von Text in einer Bilddatei, einschließlich Text, der in Grafiken, Tabellen oder Diagrammen eingebettet ist. Die Dokumentanalyse für die Volltext-Indizierung stellt umfassende Informationen über den Text bereit, die für den weiteren Aufbau von Dokumenten-Indices entscheidend sind. Das macht FineReader Engine 8 geradezu unverzichtbar für Indizierungs-Lösungen (um Indices für DMS-, Content Management Systeme (CMS) oder Archiv-Systeme zu erstellen).

Datenerfassung aus semi-strukturierten Formularen und Dokumenten

Die neue FineReader Engine ermöglicht durch Unterstützung des aktuellen ABBYY FlexiCapture Studio 1.5 Tools auch die Verarbeitung semi-strukturierter Formulare und Dokumente. So wird die Genauigkeit bei der Verarbeitung semi-strukturierter Dokumente weiter gesteigert und die Menge der für jedes Projekt erforderlichen Anpassungen minimiert. Zu den neuen, von FlexiCapture Studio 1.5 unterstützten Funktionen zählen:

· Unterstützung für Tabellenelemente: Sie erlaubt das korrekte Lesen von Tabellen in Dokumenten und bietet die einfache Extraktion von Details aus einzelnen Zeilen. Die Software ist somit ideal für die Bearbeitung von Rechnungen und anderer Finanzunterlagen geeignet.

· Spezialisierte Unterstützung numerischer Elemente: Die neue Unterstützung für „Telefon“- und „Währungs“-Elemente in Dokumenten vereinfacht die Beschreibung dieser Datentypen auf einem Formular und steigert die Erfassungsqualität.

· Textur-Filter: Erweiterte Vorverarbeitungstechniken blenden irrelevante Oberflächenstrukturen aus, welche die Erkennungsqualität beeinträchtigen könnten.

· Mehrsprachen-Auswahl für die Vorverarbeitung: Diese neue Funktion erlaubt die Vorauswahl von Sprachkombinationen wie Englisch-Deutsch, um die Verarbeitung mehrsprachiger Dokumente zu vereinfachen.

Erweiterungen der Entwicklungsplattform-Funktionen

· Unterstützung externer Auswahlmechanismen: Wenn FineReader Engine als eine von mehreren Engines in einer Applikation integriert wird, liefert die Software Erkennungsalternativen (oder -hypothesen) mit entsprechenden Wahrscheinlichkeitseinschätzungen zu Buchstaben, Worten und der Trennung von Buchstaben. Diese Informationen helfen Entwicklern bei der Erarbeitung effizienter und akkurater Auswahl-Algorithmen. Wenn FineReader Engine beispielsweise ein „0“ verarbeitet, kann die Software folgende drei Hypothesen liefern: eine Null mit 60%iger Wahrscheinlichkeit, den Großbuchstaben „O“ mit 80%iger Wahrscheinlichkeit und den Großbuchstaben „C“ mit 10%iger Wahrscheinlichkeit. Ein Beispiel für den Fall der Buchstabentrennung: Ein Zeichen wie „m“ kann die Hypothesen des Kleinbuchstabens „m“ oder der Buchstabenkombinationen „rn“ oder „in“ mit entsprechende Wahrscheinlichkeitsangaben liefern.

Erkennungs-Feineinstellungen während laufenden Betriebs

Die Version 8 des SDK bietet Entwicklern auf der zentralen Ebene Zugriff auf die Engine und damit die Möglichkeit, sie während des Erkennungsprozesses zu beeinflussen. Die Fine Reader Engine generiert Hypothesen (bzw. Erkennungsalternativen) und die neue Version erlaubt es Entwicklern, unter Einsatz ihrer eigenen, ganz spezifischen Bewertungskriterien die Verfahren zur Festsetzung der Wahrscheinlichkeit jeder Hypothese (bzw. zur Auswahl der besten Hypothese) zu beeinflussen bzw. fein abzustimmen.

„Unsere Kunden wollen mit FineReader Engine ihre ISV Applikationen durch Funktionen für Dokumentumwandlung und Datenerfassung erweitern, wobei sich Genauigkeit und Geschwindigkeit die Waage halten sollen“, erläutert Alex Rylov, Chief Product Manager der ABBYY SDK-Produktlinie. „FineReader Engine 8.0 bietet eine leistungsstarke Kombination von Schlüsseltechnologien und verfügt außerdem über Tools zur Steigerung der Produktivität wie Diagnose-Tools, vordefinierte Beispiele für gängige Verarbeitungsszenarien, Voting API und Erkennungs-Tuning.“

Beispiel-Codes für maximale Leistung und Effizienz

Die neue SDK-Version ist mit einer Datenbank gebräuchlicher Einsatzszenarien der FineReader Engine ausgestattet, die helfen, die Software auf jedes besondere Projekt in der geeignetsten Weise abzustimmen. Es handelt sich um einen Satz unmittelbar einsetzbarer Profile mit der optimalen Gewichtung von Verarbeitungsgeschwindigkeit und Erkennungsgenauigkeit, die für bestimmte Aufgaben entworfen wurden, z.B. die Erkennung einzelner Felder, Archivierung mit Bilderstellung und Indizierung, Ganzseiten-Umwandlung zu RTF oder HTML etc. Die Datenbank enthält auch Beispielbilddateien und Benchmarks.

Unterstützung von Eingabe/Ausgabe-Formaten für alle Arten von Funktionen

ABBYY FineReader Engine unterstützt eine Vielzahl von Eingabe-Bildformaten (einschließlich BMP, PCX, DCX, JPEG, PNG, TIF und PDF) und Speicherformaten für Dokumente (einschließlich DOC, RTF, PDF, HTML, PPT, TXT, XLS, DBF, und drei Arten XML). Die neue Version unterstützt zudem GIF- und DjVu-Formate, die sehr hilfreich sind bei der Veröffentlichung im Web, der Online-Archivierung, Spam-Filter und anderen mit dem Internet zusammenhängenden Aufgaben.

Verfügbarkeit und Preise

Die ABBYY FineReader Engine besteht aus einem Satz von Bibliotheken dynamischer Links (DLLs: Dynamic Link Libraries) und ist über eine Standard-Programmierschnittstelle zugänglich, die mit dem Component Object Model (COM)-Standard übereinstimmt. Zu den unterstützten Entwicklungs-umgebungen zählen C/C++, Visual Basic, und Visual Studio.Net. Als Auslieferungsbeginn des vollen Produkts ist der November 2005 vorgesehen. Informationen zu Lizenzmodellen, Preisen und weitere technische Informationen sind bei dem Münchner Büro von ABBYY verfügbar. Zudem stehen weitere Informationen unter www.ABBYY.com zur Verfügung.

ABBYY FineReader Engine 8: SDK mit Schlüssel-Technologien für die Entwicklung effizienter Applikationen

ABBYY FineReader Engine 8.0 bietet Field-Level/ Zone Recognition, neue PDF-Verarbeitung und Verbesserungen an der Entwicklungsplattform

ABBYY Europe GmbH

PresseMail abonnieren