Kontakt
QR-Code für die aktuelle URL

Story Box-ID: 28317

ABBYY Europe GmbH Friedenstr. 22b 81671 München, Deutschland http://www.abbyy.de
Ansprechpartner:in Marcus Birke 089/800908-26
Logo der Firma ABBYY Europe GmbH
ABBYY Europe GmbH

Das Projekt Gutenberg-DE verwendet ABBYY FineReader XIX zur Erkennung antiquarischer Bücher

ABBYY FineReader XIX digitalisiert Bücher in Frakturschrift

(PresseBox) (München, )
ABBYY, führender Anbieter von Technologien zur Dokumenten-Erkennung und linguistische Technologien, und das Projekt Gutenberg-DE starten heute in Zusammenarbeit mit der Berlin-Brandenburgischen Akademie der Wissenschaften ein gemeinsames Projekt. Unter dem Arbeitstitel „GaGa – Gemeinsam an Gutenberg arbeiten“ werden Frakturtexte sowie OCR-Rohdaten über das Internet zum verteilten Korrekturlesen angeboten. Seit Gründung des Projektes Gutenberg-DE im Jahr 1994 sind mehrere zehntausend unbezahlte Arbeitsstunden erbracht worden, um Literatur kostenlos ins Internet zu stellen. Ab sofort können durch Einsatz der OCR Software ABBYY FineReader XIX jetzt auch Bücher, die in Frakturschrift gedruckt wurden, erkannt und online gestellt werden.


Internet-Community digitalisiert antiquarische Literatur

Unter der Internetadresse http:// www.gaga.net hat das Projekt Gutenberg-DE das verteilte Korrekturlesen von Büchern gestartet. Die Idee ist simpel und verspricht großen Erfolg: Jeder Teilnehmer am Projekt sieht das Bild einer Buchseite und den von einem OCR-Programm erkannten Text dieser Seite, der noch einige Fehler enthalten kann. In etwa drei Minuten ist solch eine Seite korrigiert. Diese Seite wird an die Textdatenbank zurückgegeben und sofort erhält man die nächste Seite zur Korrektur. Das Lesen oder Laden eines kompletten Buchtextes ist im Projekt GaGa übrigens nicht möglich, weil die Folgeseite schon von einem anderen korrigiert und damit solange gesperrt wird, bis die Korrektur beendet ist. Auf eine fertig korrigierte Seite kann ebenfalls nicht mehr zugegriffen werden.

Das Projekt Gutenberg-DE hat täglich 30.000 Besucher, die auf der Suche nach Texten deutscher Klassiker sind. „Wenn nur jeder hundertste Leser auch nur eine Seite korrigiert, können wir jeden Tag ein fehlerfreies Buch von 300 Seiten fertig stellen“, meint der Projektleiter Gunter Hille, der vor 10 Jahren das Projekt Gutenberg-DE begann. Und diese Aussage ist noch bescheiden, denn das US-Pendant (http://www.pgdp.net) hat bereits eine Seitenleistung von knapp 6.000 Seiten pro Tag erreicht.

„Wir können die Digitalisierung alter Bücher revolutionieren, die noch nicht in digitaler Form vorliegen, denn bisher scheuen Verlage die hohen Erstellungskosten, selbst wenn die Datenerfassung in Billiglohnländern erfolgte“, so der Projektleiter.


Gutenberg-DE

Das Projekt Gutenberg-DE wurde 1994 als Freizeitprojekt begonnen, als es nur wenige deutschsprachige Texte im Internet gab. Bis heute sind mehrere zehntausend Arbeitsstunden für das Projekt vom Gutenberg-Team aufgebracht worden. Seit über zehn Jahren stellt das Projekt Gutenberg-DE kostenlos für Jeden Literatur ins Internet. Das Team hat in dieser Zeit unter Mithilfe von freiwilligen, unbezahlten Helfern die größte deutschsprachige Online-Literatursammlung mit bis zu 3,3 Millionen Seitenabrufen im Monat aufgebaut. Bisher wurden ca. 420.000 Textseiten digitalisiert, darunter 14.000 Gedichte und 1.700 vollständige Romane, Erzählungen, Novellen. Weitere Informationen finden Sie im Internet unter http://gutenberg.spiegel.de/...


Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)

Das an der BBAW beheimatete „Digitale Wörterbuch“ (DWDS) hat in der ersten Projektphase ein Textcorpus der deutschen Sprache des 20. Jh. im Umfang von über einer Milliarde Textwörtern (in über 2 Millionen XML-Dokumenten). Das Textcorpus ist mittels einer linguistischen Suchmaschine abfragbar. Die Bedeutung für die sprachwissenschaftliche Forschung wird durch mehr als 1 Million Seitenaufrufe (seit September 2004) dokumentiert.

Die Textbasis soll auf der Basis der Quellenbibliothek des Deutschen Wörterbuchs von Jacob und Wilhelm Grimm sukzessive ausgebaut werden. Weitere Informationen finden Sie unter

www.dwds.de

ABBYY Europe GmbH

ABBYY Europe ist ein Mitglied der ABBYY Gruppe und veröffentlicht und vertreibt ABBYY-Produkte in Westeuropa. ABBYY (ABBYY Software House) entwickelt linguistische Software und Software für Künstliche Intelligenz, darunter eine komplette Produktlinie für OCR und Texterkennungsprogramme und Lösungen. Das Produkt-Portfolio von ABBYY bietet: FineReader OCR Systeme - eine Produktfamilie für Endkunden und SDKs zur Erkennung von gedruckten Texten, Tabellen und Formularen; FormReader - ein ICR Programm zur Erkennung und Verarbeitung von Formularen, die per Hand ausgefüllt wurden; ABBYY Retrieval & Morphology Engine - Tools für Entwickler zur Integration von Volltextsuche und linguistischen Funktionen in externe Applikationen. Zu den Lizenznehmern der Erkennungs-Technologien von ABBYY zählen Siemens Nixdorf, Samsung Electronics, C-Technologies, Sumitomo Electric Systems, Banctec, BenQ, Documentum, EPSON, Freedom Scientific, Hewlett-Packard, Kurzweil, Kofax, Microtek, NewSoft, Notable Solutions, Panasonic, Stellent, Toshiba, Verity, Neurascript, Saperion und SWT. Die Zentrale der ABBYY Gruppe befindet sich in Moskau, Niederlassungen gibt es in der Ukraine (ABBYY Ukraine), den USA (ABBYY USA, Fremont, CA), Großbritannien (ABBYY UK, Bishops Stortford, England) und Deutschland (ABBYY Europe, München). Weitere Informationen über ABBYY finden sich im Web unter www.abbyy.com oder direkt bei ABBYY Europe GmbH, Anglerstraße 6, 80339 München, E-Mail: sales_eu@abbyy.com.

ABBYY, das ABBYY Logo, FineReader, FormReader und FlexiCapture sind entweder registrierte Warenzeichen oder Warenzeichen von ABBYY Software Ltd. Andere hier erwähnte Produktnamen sind Warenzeichen und/oder registrierte Warenzeichen der entsprechenden Inhaber. Adobe und Adobe PDF Library sind entweder registrierte Warenzeichen oder Warenzeichen von Adobe Systems Incorporated in den Vereinigten Staaten und/oder anderen Ländern. Die Marke FreeBSD ist ein registriertes Warenzeichen von The FreeBSD Foundation und wird von ABBYY mit Erlaubnis von The FreeBSD Foundation verwendet. Intel ist ein registriertes Warenzeichen von Intel Corporation oder seinen Tochterfirmen in den Vereinigten Staaten und anderen Ländern. Linux ist ein registriertes Warenzeichen von Linus Torvalds in den Vereinigten Staaten und anderen Ländern. Mac OS und das Mac Logo sind Warenzeichen von Apple Computer Incorporated in den Vereinigten Staaten und anderen Ländern. Bei der hier vorliegenden Pressemitteilung handelt es sich um eine unabhängige Publikation, die von Apple Computer Incorporated weder autorisiert, gesponsert oder in irgendeiner anderen Weise genehmigt wurde. Fedora ist ein Warenzeichen von Red Hat Incorporated. RED HAT ist ein registriertes Warenzeichen von Red Hat Incorporated und seinen Tochterfirmen in den Vereinigten Staaten und anderen Ländern. Captiva und Documentum sind registrierte Warenzeichen von EMC Corporation in den Vereinigten Staaten. SUSE ist ein registriertes Warenzeichen von Novell Incorporated in den Vereinigten Staaten und anderen Ländern.

Für die oben stehenden Storys, das angezeigte Event bzw. das Stellenangebot sowie für das angezeigte Bild- und Tonmaterial ist allein der jeweils angegebene Herausgeber (siehe Firmeninfo bei Klick auf Bild/Titel oder Firmeninfo rechte Spalte) verantwortlich. Dieser ist in der Regel auch Urheber der Texte sowie der angehängten Bild-, Ton- und Informationsmaterialien. Die Nutzung von hier veröffentlichten Informationen zur Eigeninformation und redaktionellen Weiterverarbeitung ist in der Regel kostenfrei. Bitte klären Sie vor einer Weiterverwendung urheberrechtliche Fragen mit dem angegebenen Herausgeber. Bei Veröffentlichung senden Sie bitte ein Belegexemplar an service@pressebox.de.
Wichtiger Hinweis:

Eine systematische Speicherung dieser Daten sowie die Verwendung auch von Teilen dieses Datenbankwerks sind nur mit schriftlicher Genehmigung durch die unn | UNITED NEWS NETWORK GmbH gestattet.

unn | UNITED NEWS NETWORK GmbH 2002–2024, Alle Rechte vorbehalten

Für die oben stehenden Storys, das angezeigte Event bzw. das Stellenangebot sowie für das angezeigte Bild- und Tonmaterial ist allein der jeweils angegebene Herausgeber (siehe Firmeninfo bei Klick auf Bild/Titel oder Firmeninfo rechte Spalte) verantwortlich. Dieser ist in der Regel auch Urheber der Texte sowie der angehängten Bild-, Ton- und Informationsmaterialien. Die Nutzung von hier veröffentlichten Informationen zur Eigeninformation und redaktionellen Weiterverarbeitung ist in der Regel kostenfrei. Bitte klären Sie vor einer Weiterverwendung urheberrechtliche Fragen mit dem angegebenen Herausgeber. Bei Veröffentlichung senden Sie bitte ein Belegexemplar an service@pressebox.de.