Das Apache Hadoop Framework setzt sich aus vielen unterschiedlichen Komponenten zusammen, mit denen eine Speicherung und Verarbeitung großer Datenmengen möglich ist. Die verschiedenen Komponenten haben dabei ihre eigenen Einsatzgebiete, lassen sich oftmals aber auch mit den anderen Tools oder auch mit externen Systemen verbinden, um so auch komplexere Aufgaben bewältigen zu können. Beispielsweise lässt sich das Anwendungsfeld einer solchen Plattform durch die Einbindung von Tools zum Maschinellen Lernen erweitern.
Zu den bekanntesten Vertretern im Hadoop Umfeld dürften das Apache HDFS (verteiltes Dateisystem), Apache Spark (Verarbeitungs-Engine), Apache Hive (Data Warehousing) und Apache HBase (NoSQL Datenbank) zählen. Diese Tools sind es auch, die je nach Aufgabenstellung einzeln oder gemeinschaftlich eingesetzt werden, um eine entsprechende Plattform zur Speicherung und Prozessierung großer Datenmengen aufzubauen.
Genau eine solche „Big Data Plattform“ baut ein in Freiburg ansässiger Halbleiter-Hersteller in Kooperation mit der Hochschule Offenburg und der Seamless Analytics GmbH auf. Durch den Einsatz der Hadoop Technologien sollen zukünftig die aktuell eingesetzten Datenbanktechnologien ergänzt und schnellere (ad-hoc) Analysen ermöglicht werden. Angefangen bei der Übertragung und Vorprozessierung der Daten über entsprechende ETL-Mechanismen, bis hin zur Speicherung und Analyse von (semi-) strukturierten Daten, soll die Hadoop-basierte Plattform all diese Aufgaben bewältigen können.
In dem Vortrag wird die Architektur dieser Analyseplattform aufgezeigt und die darin eingesetzten Komponenten vorgestellt. Es wird eine Übersicht gegeben, wie die im Apache Hadoop Framework enthaltenen Werkzeuge praktisch eingesetzt werden.
In einem kurzen Ausblick am Ende werden Möglichkeiten gezeigt, Machine Learning in das bestehende Projekt zu integrieren.
Daniel Müller – Seamless Analytics GmbH
Daniel Müller ist Gründer und Geschäftsführer der Seamless Analytics GmbH, welche 2018 gegründet wurde. Zuvor war er nach Abschluss seines Masterstudiums als akademischer Mitarbeiter an der Hochschule Offenburg angestellt und untersuchte dort in einem zweijährigen Forschungsprojekt zum einen die Archivierung und Analyse von Abverkaufsdaten, sowie die Langzeitspeicherung von Maschinendaten mithilfe des Apache Hadoop Frameworks in Kooperation mit Industriepartnern. Aus dieser Tätigkeit entstand die Idee der Firmengründung.
Marvin Follmann – Seamless Analytics GmbH
Marvin Follmann ist Gründer der Seamless Analytics GmbH. Während des Masterstudiums untersuchte er die Anwendung Neuronaler Netze auf Zeitreihendaten und arbeitete bei einem großen deutschen Softwarehersteller. Dort entwickelte er eine Monitoringlösung für die modellbasierte technische Überwachung von Kundensystemen und arbeitet in Machine Learning Projekten.