Schlaue Algorithmen wissen, wer abschreibt

Fraunhofer Wissenschaftler verbessert die automatische Suche nach Plagiaten

(PresseBox) (Berlin, ) Plagiate mit der Hand zu finden, ist extrem arbeitsaufwändig und verlangt eine umfangreiche Kenntnis der Quellen. Das fand auch Cristian Grozea, Ph.D., als er im Sommersemester 2004 400 Projekte von 60 Studierenden korrigieren und bewerten musste. Da er vermutete, dass einige der Studierenden abgeschrieben hatten, damit sie die komplexe Aufgabe bewältigen konnten, suchte Cristian nach einer automatisierten Methode, um herauszufinden ob einige der Arbeiten "zuviel gemeinsam" hatten. Mit der Methode, die er 2004 erfunden und während seiner Arbeit bei Fraunhofer FIRST weiterentwickelt hat, errang er nun den ersten Platz bei der 1st International Competition on Plagiarism Detection.

Der Wettbewerb wurde eingerichtet, um die Entwicklung von neuen automatisierten Lösungen für die Suche nach Plagiaten voranzutreiben. Die Aufgabe war es, künstliche Plagiate in einer Vielzahl unterschiedlicher - überwiegend englischer - Dokumente, wie z. B. Romane, medizinische Fachtexte, Übersetzungen, Wirtschaftsstatistiken oder sogar Auszüge aus 1001 Nacht zu finden. Insgesamt mussten 20.611 verdächtige Dokumente und 20.612 Quellen untersucht werden. 13 Teams aus der ganzen Welt beteiligten sich an dem Wettbewerb, der in zwei Aufgaben unterteilt war: In der externen Plagiatsanalyse mussten Teilnehmer verdächtige Dokumente mit möglichen Quellen vergleichen, um Plagiate zu finden. In der intrinsischen Plagiatsanalyse mussten die Bewerber anhand von strukturellen Auffälligkeiten Plagiate innerhalb eines Dokuments finden. Um ihre Erkennungssoftware entwickeln zu können, erhielten die Teilnehmer einen so genannten Entwicklungscorpus, der kommentierte künstliche Plagiate enthielt. In ihm waren Länge, Quelle und der Grad der Veränderung des Plagiats angegeben. Mithilfe der annotierten Dokumente konnten die Kandidaten ihre Software testen und verbessern. Nach der Trainingsphase erhielten sie den Wettbewerbscorpus, der nicht kommentiert war.

Cristian nutzte so genannte kernbasierte Methoden, um Ähnlichkeiten zwischen den Dokumenten zu finden. Ein "Kern" ist ein Ähnlichkeitsmaß, mit dessen Hilfe man zwei Dokumente untersuchen und ihre Ähnlichkeit anhand eines numerischen Werts bestimmen kann. Je größer der Wert, desto ähnlicher sind die Textstücke. Cristian kombinierte kernbasierte mit heuristischen Methoden und entwickelte darüber hinaus eine grafische Oberfläche, die die Ähnlichkeiten zwischen den Dokumententeilen deutlich macht. Mit seiner Methode erkannte Cristian 66 % aller künstlichen Plagiate. 74 % der gefundenen Plagiate waren korrekt analysiert. Dadurch gewann Cristian neben der externen Plagiatsanalyse auch den Gesamtwettbewerb. Darüber hinaus entdeckte der Forscher nicht allein künstliche Plagiate in den vorgegebenen Dokumenten, sondern auch Unregelmäßigkeiten in Übersetzungen und verschiedenen Ausgaben oder aber so genannte "Selbstplagiate", bei denen Autor und Thema eines Dokuments übereinstimmten, nicht jedoch der Wortlaut. Immer wieder wies sein Programm auch auf Übereinstimmungen zwischen Inhaltsverzeichnissen hin und zeigte damit die Grenzen der automatischen Plagiatserkennung: Die Ähnlichkeiten waren hier nicht inhaltlicher Art, sondern beruhten auf der Übereinstimmung von Leerzeichen und Absätzen.

Die Bibliothek, die Cristian benutzte, wurde bei Fraunhofer FIRST im Rahmen des Projekts ReMIND entwickelt. In ReMIND werden kernbasierte Methoden genutzt, um Einbrüche aus dem Internet zu entdecken. Algorithmen vergleichen Datenpakete im Internetverkehr. Sie können normale von anomalen Daten unterscheiden und dadurch auch bisher unbekannte Angriffsformen zuverlässig erkennen. Die Bibliothek wurde kürzlich deutlich beschleunigt, so dass sie rund 49 Mio. Dokumentenpaare in 12 Stunden vergleichen kann.

Die Plagiatserkennungs-Software wurde in Kooperation mit Marius Popescu, Ph.D., von der Universität Bukarest, der die linguistische Datenverarbeitung implementierte, entwickelt.

Diese Pressemitteilungen könnten Sie auch interessieren

News abonnieren

Mit dem Aboservice der PresseBox, erhalten Sie tagesaktuell und zu einer gewünschten Zeit, relevante Presseinformationen aus Themengebieten, die für Sie interessant sind. Für die Zusendung der gewünschten Pressemeldungen, geben Sie bitte Ihre E-Mail-Adresse ein.

Es ist ein Fehler aufgetreten!

Vielen Dank! Sie erhalten in Kürze eine Bestätigungsemail.


Ich möchte die kostenlose Pressemail abonnieren und habe die Bedingungen hierzu gelesen und akzeptiert.