Das Apache Hadoop Framework setzt sich aus vielen unterschiedlichen Komponenten zusammen, mit denen eine Speicherung und Verarbeitung großer Datenmengen möglich ist. Ein bekanntes Tool ist dabei HBase, eine verteilte NoSQL Datenbank, die auf dem verteilten Dateisystem HDFS aufsetzt und einen spaltenorientierten Key-Value Datenspeicher zur Verfügung stellt.
In einem Kooperationsprojekt untersuchte die Hochschule Offenburg gemeinsam mit einem Industriepartner die Möglichkeiten, deren semistrukturierten Sensor- und Testdaten mithilfe von HBase für spätere Analysen im Hadoop zu speichern. Die als CSV vorliegenden Sensordaten wurden dabei mithilfe von Apache Spark eingelesen, transformiert und als Key-Value Paare in einer HBase Tabelle abgelegt, wo sie nun wieder von anderen Tools wie Apache Drill, Apache Phoenix oder z.B. über optimierte Table Scans ausgelesen werden können.
Nach einer kurzen Einführung in die allgemeine Arbeitsweise von HBase steht das praktische Vorgehen wie die Datenuntersuchung, das Tabellendesign, die Implementierung des Spark-Jobs, sowie die Stolpersteine in dem Projekt und die Zugriffsmöglichkeiten per SQL auf HBase im Vordergrund.
Daniel Müller – Hochschule Offenburg, Forschungsgruppe Analytics & Data Science
Daniel Müller ist Akademischer Mitarbeiter an der Hochschule in Offenburg. Er ist seit 2016 in einem Forschungsprojekt angestellt, welches in Kooperation mit einem lokalen Industriepartner stattfindet. Kernthemen sind hierbei die Archivierung und Analyse von Abverkaufsdaten mithilfe des Apache Hadoop Frameworks. Er studierte zuvor Angewandte Informatik im dualen Bachelorstudium bei SAP (DHBW Karlsruhe), worauf das Masterstudium an der Hochschule Offenburg folgte.