In diesem 1-tägigen Crash-Kurs lernen Sie Apache Spark® kennen. Apache Spark stellt eine Alternative zu Hadoop® dar. Gegenüber Hadoop® bietet Apache Spark® – in Abhängigkeit von der vorhandenen Hardware – Performance-Vorteile. Ein weiterer Vorteil ist, dass Apache Spark® auch direkt in bestehenden Hadoop®-Systemen genutzt werden kann.
Ein zentraler Vorteil von Apache Spark® ist, dass es sich direkt mittels Python® programmieren lässt. Viele im Data Science Bereich tätige können Python®, so dass direkt mit Apache Spark® gearbeitet werden kann. Weiter kann durch den Einsatz von Jupyter® auch eine gute Dokumentation der durchgeführten Arbeiten erreicht werden.
Der Schwerpunkt im Seminar liegt dabei auf den Grundlagen, die an einem praktischen System erlernt werden: Wir stellen Ihnen ein virtuelles Hadoop®-System mit Apache Spark® Installation (und Jupyter®) während der Schulung zur Verfügung, dass aus einem Master sowie zwei Slave-Knoten besteht. Sie können also bereits während der Veranstaltung Jobs auf Datenbeständen laufen lassen, die über mehrere Rechner verteilt sind.