Vortrag: SQL on Hadoop für praktikables BI auf Big Data

Abstract

Nachdem in den letzten Jahren NoSQL ein beherrschendes Thema im Kontext von Big Data 
war, gewinnt SQL als Anfragesprache wieder große Bedeutung im Hadoop-Umfeld. 
Dabei steht mit Hive ein SQL-Dialekt zur Verfügung, mit dem zwar leicht
Batch-orientierte ETL-Strecken für Hadoop gebaut werden können, der aber bisher für
interaktive Analysen nicht geeignet war Mit Impala, Presto, Spark SQL und dem 
Stinger-Projekt ändert sich das nun rapide. 
Schnelle verteilte Query Engines erlauben interaktive analytische Anfragen auf großen 
Datenmengen. Dazu kommen neue Speicherformate wie Parquet und ORC, die effizientere 
Repräsentation und schnelleren Zugriff versprechen. 
In dieser Session geben wir einen Überblick über Stärken und Schwächen der 
verschiedenen Ansätze und berichten praktische Erfahrungen aus Projekten 
zur Integration mit Open Source und kommerziellen BI-Lösungen.

Referenten: Hans-Peter Zorn und Dominik Benz, inovex GmbH, Karlsruhe