Business Intelligence mit Open Source

Wissen | Reportage

Business Intelligence, ein seit jeher äußerst profitabler Markt, ist nicht länger Anbietern proprietärer Lösungen vorbehalten. Immer mehr Open-Source-Dienstleister machen den Branchengrößen Konkurrenz.

Auch im Bereich der Business Intelligence (BI), traditionell die Domäne von Firmen wie Business Objects, Cognos und SAS, aber zunehmend auch von Konzernen wie SAP oder Oracle, gewinnen Open-Source-Lösungen an Bedeutung. Unter dem Begriff BI werden Techniken wie Datawarehousing, Datamining, Analyse und Reporting zusammengefasst, mit denen Unternehmen versuchen, ihre Geschäftsabläufe und Kontakte zu Kunden, Lieferanten und Partnern zu optimieren. Bei all diesen Funktionen stehen die Sammlung, Speicherung, Auswertung und Aufbereitung von Daten im Vordergrund. Aus riesigen, oft unstrukturierten Datenmengen lassen sich mittels geeigneter Software strategische Erkenntnisse gewinnen, Trends ableiten und Zielrichtungen definieren.

Bieten proprietäre BI-Lösungen häufig ein Komplettpaket, inklusive Service und Support - für das sich die Hersteller meist gut bezahlen lassen -, so spezialisieren sich viele der sich in diesem breiten Spektrum bewegenden Anbieter von Open-Source-Produkten auf ein Teilgebiet der Business Intelligence. Aber auch auf diesem Markt scheint sich eine Tendenz in Richtung kompletter Software-Stacks abzuzeichnen, wie man sie auch in anderen Bereichen beobachtet.

Fürs Datawarehousing bieten sich die quelloffenen Datenbanken MySQL und PostgreSQL als Datenspeicher an. Eine mit eigenen Erweiterungen speziell für Datawarehouse-Umgebungen optimierte Version der letztgenannten liefert der kalifornische Hersteller Greenplum unter dem Namen Bizgres. Das Unternehmen leistet hierfür auf Wunsch auch kostenpflichtigen Support. Für Highend-Datawarehouses hat Greenplum auch eine clusterfähige, kommerzielle Variante, Bizgres MPP, im Programm. Sie basiert auf der hochperformanten, verteilten shared-nothing-Architektur, bei der jeder Prozessor seinen eigenen Datenspeicher hat.

Um die oft aus verschiedenen Quellen stammenden Daten in das richtige Format zu bringen und in das Datawarehouse zu befördern, kommt ein Verfahren zum Einsatz, das sich Extraction, Transformation & Loading (ETL) nennt. Unter den diversen Open-Source-Projekten, die sich dieser Aufgabe widmen, sind das belgische Tool Kettle, das CloverETL-Framework und Enhydra Octopus. Eine recht umfangreiche Übersicht von freien, Java-basierten ETL-Tools findet sich im Manageability-Weblog.

Sind die Daten einmal in das System eingespeist, gilt es, sie zu analysieren und miteinander in Bezug zu setzen, um implizite Strukturen erkennen zu können - ein Prozess, der auch unter dem Begriff Data Mining bekannt ist. Aus sonst unüberschaubaren Datenbeständen lassen sich durch automatisierte Auswertungen potenziell nützliche Informationen destillieren. Eine Methode, die in diesem Zusammenhang häufig zum Einsatz kommt, ist OLAP. Das Akronym steht für On Line Analytical Processing und beschreibt ein Verfahren, zuvor entwickelte Hypothesen durch eine multidimensionale Analyse der Daten auf ihre Richtigkeit zu überprüfen. Dabei wird die Analyse nicht direkt an den operationalen Datenbankdaten vollzogen, sondern an einem so genannnten OLAP Cube, einem mehrdimensionalen Modell einer Momentaufnahme der Daten.

Die bekanntesten freien OLAP-Server sind das in Java geschriebene Mondrian-Projekt und die von dem Freiburger Software-Hersteller Jedox entwickelte speicherbasierte Datenbank Palo. Mit Weka stellt die Universität in Waikato (Neuseeland) eine Algorithmensammlung für Data-Mining-Zwecke unter der GPL zur Verfügung.

Die Aufbereitung der Ergebnisse zu aussagekräftigen Berichten übernehmen Reporting-Engines wie die Java-Bibliothek JasperReports von der kalifornischen Software-Schmiede JasperSoft. Für die visuelle Gestaltung der Reports bietet sich der ebenfalls von diesem Hersteller stammende iReport-Designer an. Jaspersoft, das sich einen Namen als Spezialist in genau diesem Bereich gemacht hat, will mit neuen Lösungen jedoch weiter auf den BI-Markt vordringen. Für die nahe Zukunft sind der OLAP-Server JasperAnalysis und das ETL-Werkzeug JasperETL angekündigt. Zusammen mit dem neuen JasperServer und Reporting-Bibliotheken sollen die neuen Tools die JasperIntelligence-Suite bilden, eine BI-Komplettlösung.

Genau das macht auch der amerikanische Anbieter Pentaho, der viele Einzellösungen zu einem kompletten OSS-BI-Framework kombiniert und dafür Support aus einer Hand bietet. Die Pentaho BI Suite umfast ETL-, Analyse-, Reporting- und Workflow-Komponenten und bringt die Projekte Mondrian, Kettle, die Reporting-Bibliothek JFreeReport und Pentahos Eigenentwicklungen wie Dashboard unter einen Hut. Letzteres ermöglicht Anwendern über ein Web-Frontend einen zentralen Zugang zu Auswertungen, Reports und andere Informationen. Will man den gesamten Funktionsumfang der Suite nutzen, so ist ein J2EE-Anwendungsserver erforderlich. ETL, Reporting und viele andere Funktionen können jedoch ebenso in Standalone-Anwendungen integriert werden. Mit LDAP-Anbindung und Java Single Sign-On lässt sich die Pentaho-Lösung in bestehende IT-Landschaften einbinden. Die BI-Plattform steht seit Anfang Mai dieses Jahres unter der Mozilla Public License (MPL), Version 1.1.

In Deutschland arbeitet Pentaho seit Mai dieses Jahres mit dem IT-Dienstleister Ancud IT zusammen. Das Unternehmen aus Nürnberg hat sich auf sie Entwicklung und Implementierung von Lösungen für Unternehmensportale, Business Process Management, Business Intelligence und E-Commerce auf der Basis von Open Source und proprietärer Software spezialisiert. Mit der Kooperation will Ancud die BI-Funktionalitäten von Pentaho in seine Portallösungen integrieren und unterstützen.

Auf heise open lesen Sie mehr über freie Datenbanken im Unternehmenseinsatz.

Anzeige
Anzeige