Ergebnisse der Data-Mining-Studie 2009

Große Unterschiede in der Leistungsfähigkeit von Data-Mining-Tools

(PresseBox) ( Berlin, )
Das BI-Beratungshaus mayato hat in seiner aktuellen Studie "Data Mining Software 2009" zwölf Data-Mining-Suiten und -Werkzeuge einem Funktionsvergleich unterzogen. Vier der Lösungen durchliefen zudem einen detaillierten Praxistest. Ziel der Studie ist es, Unternehmen bei der Tool-Auswahl im stark diversifizierten Softwaremarkt für Data Mining (DM) zu unterstützen. Die qualitativ hochwertigsten Modelle ließen sich mit SAS erstellen - Open-Source- Suiten wie RapidMiner blieben hingegen hinter den Erwartungen zurück.
Überraschendes Ergebnis: KXEN Analytic Framework positionierte sich als Werkzeug für automatisiertes Data Mining hinsichtlich Effizienz, Bedienbarkeit, Performance bei großen Datenmengen und Geschwindigkeit der Modellerstellung an erster Stelle. Durch flexiblere Preismodelle der Anbieter rückt das bisher als kostenintensiv und risikobehaftet geltende Data Mining auch für Mittelständler in den Fokus.
Neben den kommerziellen Data-Mining-Suiten SAS Enterprise Miner und Clementine von SPSS untersuchte die Studie die drei Open-Source-Suiten RapidMiner, KNIME und Weka. Eine weitere Kategorie bestand in schlankeren Data-Mining-Werkzeugen mit reduzierter Funktionalität, die in der Regel auf bestimmte Anwendungsgebiete wie Controlling oder auf Analyseszenarien wie Prognose- und Klassifizierungsaufgaben spezialisiert sind. Dazu zählen Viscovery SOMine 5.0, prudsys Disvoverer 5.5 und Bissantz Delta Master 5.3.6. Eine Sonderstellung in dieser Kategorie nimmt das Self-Acting Data Mining am Beispiel von KXEN Analytic Framework ein. Der hochautomatisierte Ansatz kommt weitgehend ohne manuelle Datenvorverarbeitung und Parametrisierung aus. Weiterhin kamen die integrierten BI-Lösungen Oracle 11g Data Mining, SAP NetWeaver 7.0 Data Mining Workbench und Microsoft SQL- Server 2005 Analysis Services auf den Prüfstand.

Detaillierter Praxistest

Im Blickfeld der Untersuchung standen die häufigsten Auswahl- Kriterien von Anwendern. Das sind einer Studie der Aberdeen Group von 2008 zufolge: Hohe Stabilität, der unkomplizierte Umgang mit großen Datenmengen, die Automatisierung von Standardaufgaben sowie die Qualität und Interpretierbarkeit der Ergebnisse und eine einfache Bedienbarkeit ohne lange Einarbeitungszeiten. Besonderes Augenmerk galt auch der Gesamteffizienz des Analyseprozesses und der Anwendung der einzelnen Werkzeuge und Suiten sowie den daraus resultierenden Gesamtkosten. KXEN Analytic Framework, RapidMiner, SAS und SAP Netweaver wurden zusätzlich anhand von Testdatensätzen detailliert auf ihre Praxistauglichkeit geprüft. Kriterien wie Geschwindigkeit, Automatisierungsgrad und Ergebnisqualität testeten die BI-Experten zunächst mittels einer überschaubaren Testdatei mit 30.000 Datensätzen und 15 Variablen. Das Systemverhalten bei großen Datenmengen wurde anschließend durch Einlesen eines umfangreichen Datenvolumens mit 100.000 Datensätzen und 450 Variablen gemessen. Die Palette der Benchmarkdaten enthielt eine Reihe typischer Probleme für DM-Tools. "Wir haben sehr unterschiedliche Werkzeuge verglichen - für die Frage, welche Art von Werkzeug das richtige ist, muss jedes Unternehmen jedoch im Vorfeld klar seine Zielsetzung definieren. Die Studie zeigt aber, dass der Einstieg in Data-Mining-Projekte heute deutlich leichter ist", sagt Peter Neckel, Analyst und Leiter der Studie bei mayato.

Ergebnisse im Praxistest

Schon im ersten Durchgang ergaben sich erhebliche Unterschiede in den Laufzeiten, die sich bei der Verarbeitung größerer Datenmengen noch verstärkten. Dem SAS Enterprise Miner gelang insgesamt die beste Modellqualität. Die Ergebnisqualität bei RapidMiner fiel im Vergleich ab, insbesondere die Übertragbarkeit der Modelle erwies sich als gering. KXEN konnte eine gute Modellqualität vorweisen und zeigte sich zudem bei der Berechnung als unerreicht schnell. Resultate und Laufzeit der Modelle in SAP NetWeaver waren guter Durchschnitt.

Beim Test mit großen Datenvolumina veränderte sich die Performance von KXEN Analytic Framework auch bei gestiegenen Datenmengen kaum.
Bei anderen Produkten gestaltete sich bereits das Einlesen der Daten problematisch und erforderte teilweise langwierige manuelle Eingriffe. In SAP NetWeaver beispielsweise muss für jedes Attribut ein separates Infoobjekt angelegt werden - für 450 Variablen ein erheblicher Aufwand. Auch die anschließende Berechnung deskriptiver Statistiken und der Aufbau grafischer Darstellungen - beispielsweise für Häufigkeitsverteilungen - nahm bei einigen Produkten sehr viel Zeit in Anspruch. Die Laufzeiten der eigentlichen Data-Mining-Analyse schließlich stiegen je nach verwendetem Verfahren häufig überproportional an: Jedes weitere in die Berechnung eingehende Attribut fügt dem Algorithmus eine zusätzliche Dimension hinzu.
Insbesondere RapidMiner fiel diesbezüglich mit sehr langen Laufzeiten von über drei Stunden bis zu Abbrüchen wegen Hauptspeicherüberlaufs auf. Mit KXEN nahm die Analyse des kompletten Datensatzes hingegen weniger als zehn Minuten in Anspruch.

Data Mining für Mittelstand greifbarer

Die Studie zeigt: Je nach Funktionsumfang und Nutzerzahl kann eine Client/Server-Lizenz mehrere 100.000 Euro in der Anschaffung sowie jährliche Wartungskosten von 100.000 Euro verursachen. Spezialisierte Data-Mining-Werkzeuge sind jedoch auch bereits für unter 10.000 Euro zu haben. Für Open-Source-Lösungen fallen maximal jährliche Supportgebühren im vierstelligen Eurobereich an. Für Unternehmen, die bereits über Enterprise-Lizenzen für Datenbanken wie Oracle oder Microsoft SQL-Server verfügen, bietet es sich an, die darin enthaltenen Data-Mining-Funktionen zu nutzen. Die Preise liegen für beide Produkte bei rund 27.000 Euro für die Einprozessor-Lizenz, auch ein Upgrade von vorliegenden Standardlizenzen ist möglich. Ein kostengünstiger Einstieg in das Data Mining wird zudem durch zunehmend flexible Preismodelle erleichtert. Einige Data-Mining- Werkzeuge lassen sich auf Monatsbasis zu Preisen im unteren vierstelligen Eurobereich mieten. Hinzu kommt, dass nicht mehr zwingend das Komplettprodukt bestellt werden muss. Oft können auch anwendungsspezifisch zusammengestellte Pakete an Funktionen oder einzelne Data-Mining-Methoden separat erworben werden. Diese Angebote eignen sich vor allem für Unternehmen, die zunächst eher überschaubare Projekte etwa zur Ermittlung von Cross- oder Up-Selling- Potenzialen planen, und nur im Erfolgsfall ihre Lizenz aufstocken wollen.

Bedienung wird einfacher

Im Anwendungstest zeigte sich dem Beratungs- und Analystenhaus zufolge, dass die Bedienung dank grafischer Benutzeroberflächen grundsätzlich leichter von der Hand geht als noch vor wenigen Jahren.
Dennoch erfordern insbesondere die Data-Mining-Suiten im Vergleich zu spezialisierten Werkzeugen nicht nur einen erhöhten Einarbeitungsaufwand, sondern auch fundiertes Hintergrundwissen. Dazu kommt, dass Anwender aus den Fachabteilungen meist andere Anforderungen an die Bedienung stellen als IT-Nutzer. RapidMiner und KXEN versuchen diesem Umstand Rechnung zu tragen, indem sie beispielsweise Assistenten anbieten, die eine feste Abfolge an Analyseschritten vorgeben und die erforderlichen Eingaben dazu systematisch abfragen. "Als Trend zeichnet sich ab, dass Data Mining künftig seine Sonderposition als Spezialistendisziplin verlieren wird. Die prädiktive Datenanalyse ist heute einfach für viele Unternehmen zu wichtig - Telekommunikationsanbieter, Banken und Versicherungen kommen beispielsweise schon seit einiger Zeit nicht mehr ohne Data Mining aus. Im Anbieterlager ist eine Orientierung hin zu einfacherer Bedienbarkeit und einer verstärkten Automatisierung von Routineaufgaben der Datenvorbereitung zu verzeichnen", so Peter Neckel.
Für die oben stehenden Pressemitteilungen, das angezeigte Event bzw. das Stellenangebot sowie für das angezeigte Bild- und Tonmaterial ist allein der jeweils angegebene Herausgeber (siehe Firmeninfo bei Klick auf Bild/Meldungstitel oder Firmeninfo rechte Spalte) verantwortlich. Dieser ist in der Regel auch Urheber der Pressetexte sowie der angehängten Bild-, Ton- und Informationsmaterialien.
Die Nutzung von hier veröffentlichten Informationen zur Eigeninformation und redaktionellen Weiterverarbeitung ist in der Regel kostenfrei. Bitte klären Sie vor einer Weiterverwendung urheberrechtliche Fragen mit dem angegebenen Herausgeber. Bei Veröffentlichung senden Sie bitte ein Belegexemplar an service@pressebox.de.