„RapidMiner ist weltweit die Nummer 1 unter den Open-Source-Lösungen für prozessbasierte Datenanalysen. Die Erweiterung der ohnehin schon umfangreichen Funktionalität mit den sogenannten Extensions gehört seit Anfang an zu unserer Gesamtstrategie“, erklärt Dr. Ingo Mierswa, CEO von Rapid-I. „Mit den drei neuesten Entwicklungen bieten wir unseren Anwendern noch bessere Möglichkeiten, Daten zu integrieren und auszuwerten unter Einbeziehung des immer wichtiger werdenden Internetkanals.“
PMML Extension
Ein wichtiger Bestandteil bei der Integration der Data-Mining-Ergebnisse mit anderen Applikationen ist die Predictive Model Markup Language (PMML)1. Diese dient dem Austausch von Data-Mining-Modellen zwischen verschiedenen Anwendungen und Plattformen. So können mit RapidMiner erzeugte Modelle direkt auf eine Datenbank gespielt werden, die den PMML-Standard ebenfalls unterstützt, und so einfach zur Anwendung geleitet werden. Neben der Austauschbarkeit von Data-Mining-Modellen ist insbesondere die Möglichkeit, Modelle direkt in der Datenbank auf große Datenmengen anzuwenden, ein zentrales Thema für Rapid-I. Bisher waren RapidMiner-Anwender zur Sicherung der Skalierbarkeit bei großen Datenvolumina auf Kombinationen spezieller Zugriffsoperatoren für ausgesuchte Modellierungsverfahren wie Naive Bayes angewiesen.
„Mit der neuen PMML Extension für RapidMiner und RapidAnalytics erweitern sich die Möglichkeiten der Anwendung von RapidMiner-Modellen zum Scoring großer Datenmengen und erleichtern somit das Deployment von Data Mining enorm", führt Mierswa aus.
Web Extension
Für eine stärkere Integration mit Informationen aus dem Internet steht die neue Web Extension für RapidMiner und RapidAnalytics bereit. Diese Erweiterung ist eine vollständige Überarbeitung der Zugriffsmethoden aus der Text Extension der älteren Versionen. Die Web Extension ermöglicht den Zugriff auf sämtliche Informationen aus dem Web und deren beliebige Kombination. Über den Crawler, der dem Sammeln von Inhalten aus dem Internet für Datenanalysen dient, hinaus unterstützt die Erweiterung spezifische Funktionen zur Arbeit mit Webtexten sowie zum Andocken an andere Internetquellen wie beispielsweise RSS-Feeds. Damit können Unternehmen nicht mehr nur auf ihre strukturierten Informationen in Datenbanken zugreifen, sondern jegliche Daten aus dem Internet zur Auswertung hinzuziehen und damit ihren Kenntnisgewinn signifikant steigern.
Community Extension
Mit der neuen Community Extension bringt RapidMiner die Grundidee des Web 2.0 in die Data-Mining-Welt. Die Erweiterung bietet direkte Anbindung an das Portal myExperiment.org, auf dem Anwender über Data-Mining-Prozesse diskutieren können. Zudem ist der Austausch mit Datenanalysten möglich, die an ähnlichen Analyseproblemen arbeiten. Das Portal myExperiment.org hat bereits eine aktive Community und weist darüber hinaus alle Eigenschaften eines sozialen Netzwerks auf. So erlaubt die neue Erweiterung den Prozess-Upload mit einem Klick sowie die Suche nach eigenen als auch nach Prozessen von anderen Anwendern, sofern diese freigegeben sind. Diese Prozesse können dann wiederum ganz einfach heruntergeladen und auf eigene Daten angewendet werden.
„Die Community Extension für myExperiment.org ist eine großartige Ergänzung zu den neuen Daten- und Prozess-Repositories aus RapidMiner 5 und orientiert sich stark an der sehr erfolgreichen Grundidee von Wikipedia“, betont Dr. Simon Fischer, Head of Research and Development bei Rapid-I. „Auf Basis dieser Workflows wird Rapid-I in Zukunft außerdem weitere Werkzeuge zur Unterstützung der Anwender beim Design neuer Prozesse entwickeln.“
1 PMML ist ein seit 1997 fortlaufend entwickelter Standard auf Basis von XML. Er wird von der Data Mining Group (DMG), einem unabhängigen Anbieterkonsortium, das Data-Mining-Standards definiert, entwickelt. Rapid-I ist ebenso Mitglied der Data Mining Group wie auch IBM, MicroStrategy, SPSS und SAS.