Internet-Community digitalisiert antiquarische Literatur
Unter der Internetadresse http:// www.gaga.net hat das Projekt Gutenberg-DE das verteilte Korrekturlesen von Büchern gestartet. Die Idee ist simpel und verspricht großen Erfolg: Jeder Teilnehmer am Projekt sieht das Bild einer Buchseite und den von einem OCR-Programm erkannten Text dieser Seite, der noch einige Fehler enthalten kann. In etwa drei Minuten ist solch eine Seite korrigiert. Diese Seite wird an die Textdatenbank zurückgegeben und sofort erhält man die nächste Seite zur Korrektur. Das Lesen oder Laden eines kompletten Buchtextes ist im Projekt GaGa übrigens nicht möglich, weil die Folgeseite schon von einem anderen korrigiert und damit solange gesperrt wird, bis die Korrektur beendet ist. Auf eine fertig korrigierte Seite kann ebenfalls nicht mehr zugegriffen werden.
Das Projekt Gutenberg-DE hat täglich 30.000 Besucher, die auf der Suche nach Texten deutscher Klassiker sind. „Wenn nur jeder hundertste Leser auch nur eine Seite korrigiert, können wir jeden Tag ein fehlerfreies Buch von 300 Seiten fertig stellen“, meint der Projektleiter Gunter Hille, der vor 10 Jahren das Projekt Gutenberg-DE begann. Und diese Aussage ist noch bescheiden, denn das US-Pendant (http://www.pgdp.net) hat bereits eine Seitenleistung von knapp 6.000 Seiten pro Tag erreicht.
„Wir können die Digitalisierung alter Bücher revolutionieren, die noch nicht in digitaler Form vorliegen, denn bisher scheuen Verlage die hohen Erstellungskosten, selbst wenn die Datenerfassung in Billiglohnländern erfolgte“, so der Projektleiter.
Gutenberg-DE
Das Projekt Gutenberg-DE wurde 1994 als Freizeitprojekt begonnen, als es nur wenige deutschsprachige Texte im Internet gab. Bis heute sind mehrere zehntausend Arbeitsstunden für das Projekt vom Gutenberg-Team aufgebracht worden. Seit über zehn Jahren stellt das Projekt Gutenberg-DE kostenlos für Jeden Literatur ins Internet. Das Team hat in dieser Zeit unter Mithilfe von freiwilligen, unbezahlten Helfern die größte deutschsprachige Online-Literatursammlung mit bis zu 3,3 Millionen Seitenabrufen im Monat aufgebaut. Bisher wurden ca. 420.000 Textseiten digitalisiert, darunter 14.000 Gedichte und 1.700 vollständige Romane, Erzählungen, Novellen. Weitere Informationen finden Sie im Internet unter http://gutenberg.spiegel.de/...
Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)
Das an der BBAW beheimatete „Digitale Wörterbuch“ (DWDS) hat in der ersten Projektphase ein Textcorpus der deutschen Sprache des 20. Jh. im Umfang von über einer Milliarde Textwörtern (in über 2 Millionen XML-Dokumenten). Das Textcorpus ist mittels einer linguistischen Suchmaschine abfragbar. Die Bedeutung für die sprachwissenschaftliche Forschung wird durch mehr als 1 Million Seitenaufrufe (seit September 2004) dokumentiert.
Die Textbasis soll auf der Basis der Quellenbibliothek des Deutschen Wörterbuchs von Jacob und Wilhelm Grimm sukzessive ausgebaut werden. Weitere Informationen finden Sie unter
www.dwds.de