Abstract
Map & Reduce war gestern. Heutzutage kann mit Spark eine bis zu 100 mal
schnellere Performance in der Batchverarbeitung erreicht werden, verglichen mit dem
alten Map- und Reduce-Ansatz. Basis dafür sind sogenannte „Resilient Distributed
Datasets“ (RDD) und die konsequente Nutzung von In-Memory-Ansätzen.
Doch was bringt eine schnellere „Verarbeitung“ wenn auf der anderen Seite bei der
Persistenz und dem Laden der Daten weiterhin auf das vergleichsweise langsame
HDFS zurückgegriffen wird.
Zu Spark passt eine Real-Time-orientierte, verteilte, skalierbare, In-Memory-fähige
als auch analytische Datenbank: Cassandra. Vorgestellt werden die Grundkonzepte
von Spark und Cassandra sowie die Integration zwischen beiden Technologien. Es
erfolgt auch ein Ausblick auf Spark Streaming, mit dem auch im Stream-basierten
Ansatz Real-Time-Analytics möglich werden.
Referent: Thomas Mann, WidasConcepts
Thomas Mann Teamleiter bei WidasConcepts im Bereich Big Data.
Sein Fokus liegt in der Konzeption und Implementierung von Big Data Lösungen.