Vortrag: Einsatz des Statistikwerkzeugs R zur Beurteilung der Datenqualität im Rahmen von ETL-Prozessen

Abstract

In Kooperation mit einem Dienstleistungsunternehmen aus der Photovoltaikbranche wird eine
Open Source Business Intelligence (BI) Lösung für die automatisierte Auswertung von operativ
erfassten Messdaten von Photovoltaikanlagen eingeführt. Ziel dabei ist, neuartige und
verlässlichere Ertragsgutachten basierend auf Daten aus dem laufenden Betrieb erstellen zu
können anstelle von reinen Laborwerten. Eine besondere Herausforderung stellt in diesem
Zusammenhang die Beurteilung der Qualität der Messdaten dar. Diese sind in einer MySQL-
Datenbank abgelegt und werden mit verschiedenen OS-Tools wie Pentaho CE, Talend Open
Studio (TOS) oder dem Open Source Statistikwerkzeug R aufbereitet und präsentiert.

Zunächst muss der operativ erfasste Datenbestand mittels ETL in ein Data Warehouse überführt
werden. Dies geschieht mit dem Tool Pentaho Data Integration (PDI). Dabei sind die erwähnten
Betrachtungen der Datenqualität und damit verbundene Plausibilitätsprüfungen von
herausragender Bedeutung, denn nur durch Daten hoher Qualität können verlässliche
Analyseergebnisse erzielt werden.

Nach nur mäßig erfolgreichen Versuchen, die üblichen Kandidaten wie PDI oder TOS für die
Plausibilitätsprüfung einzusetzen, erwies sich schließlich R als für die Aufgabe besonders
geeignet. R hat seine Stärken in der großen Anzahl an Bibliotheken zur statistischen Analyse von
Werten. In Kombination mit den zahlreichen graphischen Ausgabemöglichkeiten des in R
integrierten GNU Plot, eignet sich R sehr gut für grundlegende visuelle und statistische
Auswertung im Rahmen von Data Profiling.

Eine weitere Einsatzmöglichkeit von R liegt im Umgang mit spatialen Daten. R kann Daten im
Format von geographischen Informationssystemen (GIS) lesen und auf diese Weise Geoobjekte
für Plausibilitätsprüfungen oder bei der Erstellung von geographischen Auswertungen anwenden,
was aufgrund der Standortabhängigkeit der Erträge von Photovoltaikanlagen besonders wertvoll
ist. Auf diese Weise lassen sich Mängel der spatialen Erweiterungen von MySQL ausgleichen.
In späteren Schritten der Datenauswertung findet R erneute Anwendung u. A. zur Modellbildung im
Rahmen von Data Mining.

Die Bedienung von R ist hierbei zwar deutlich komplexer als die anderer Data Profiling Werkzeuge
wie z.B. TOS for Data Quality, bietet im Gegenzug allerdings mehr Transparenz bei den
eingesetzten Verfahren und eine deutlich bessere Performance bei der Auswertung großer
Datenmengen wie den Messdaten im Projekt.

Die erfolgreich durchgeführte Plausibilitätsprüfung ist somit ein weiteres Beispiel für die
Leistungsfähigkeit von OSBI-Werkzeugen unter realen Anwendungsbedingungen.

Prof. Dr. Reinhold von Schwerin, Hochschule Ulm

Reinhold von Schwerin Reinhold von Schwerin ist Professor für Wirtschaftsinformatik, insbesondere Business Intelligence (BI), an der Hochschule Ulm und Leiter des Steinbeis Beratungszentrums (SBZ) ACES – Analytical Consulting, Engineering und Software. Seine Erfahrungen aus seinen Tätigkeiten bei debis Systemhaus, Nokia und Siemens fließen in die Betreuung von Abschlussarbeiten sowie in die Projekte seines SBZ ein. Dies erlaubt ihm auch, die BI-Themen den Studierenden praxisnah zu vermitteln.