Grundlagen Hadoop

Für alle Datenanalysten, die die Big Data Plattform Hadoop praktisch kennenlernen und einsetzen möchten.

Seminartermine Standort Wiesbaden: Nur auf Nachfrage.

Lernziele und Agenda

Lernziele
  • Wozu dient ein Hadoop-System im Big Data-Umfeld?
  • Bestandteile des Kernsystems: Map-Reduce und HDFS
  • Map-Reduce Approach
    • Funktionsweise
    • Praktische Umsetzung im Hadoop-System
  • Hadoop Distributed File System (HDFS)
    • Funktionsweise, Bestandteile, Parameter im System;
    • Nutzung des HDFS zum Speichern von Daten
  • Der Hadoop "Zoo"
    • Übersicht: Modularer Aufbau
    • Übersicht Module: Apache Pig, Hive, Sqoop, Oozie, Mahout, Connector, Hbase, Zookeeper and many many more.
    • Ausgewählte Kernkomponenten:
      • Apache Pig (Scripting mit Grunt),
      • Apache Hive (Data Meta Storage, Data Lake, Hive SQL),
      • Sqoop (Database Connectivity into HDFS system)
  • Case Study: Analyse von Log-Files hinsichtlich täglicher Traffic, besuchter Seiten, Downloads etc.
Agenda
Tag 1:
  • Vorstellung der virtuellen Maschine (VM) mit einem Hadoop Pseudo Distributed System (die VM wird nach Abschluss des Seminars zur Verfügung gestellt);
  • Alternativ: Vorstellung eines Hadoop Systems mit einem Master-Node und zwei Slaves auf Amazon AWS.
  • Grundlagen Apache Hadoop: Wird immer mit Bezug auf das Hadoop System (VM oder AWS) umgesetzt:
    • Einsatzmöglichkeiten im Big Data Umfeld
    • Überblick Systembestandteile
    • Hinweise zu den Datengrößen und Redundanz
    • Hinweise zur Hardware
  • Der Map-Reduce Ansatz zur Bearbeitung von Big Data
    • Darstellung der Funktionsweise an einem Word-Count-Beispiel: Mapper und Reducer
    • Monitoring der Jobs durch Frontend
    • Umsetzung des Word-Count Beispiels an den gesammelten Werken Shakespeares in der VM (oder AWS)
  • Das HDFS-System zum redundanten Speichern von Daten
    • Das HDFS-Frontend
    • Nutzung des HDFS Systems mit den notwendigen Shell-Befehlen
    • Speichern von Daten im HDFS-System
    • Redundanz
    • Kontrolle des Systems im HDFS-Frontend
  • Übersicht Hadoop Zoo
    • Erweitern des Kernsystems um zahlreiche Module: Apache Pig, Hive, Sqoop, Oozie, Mahout, Connector, Hbase, Zookeeper and many many more.
Tag 2:
  • Skripting mit Apache Pig
  • Apache HIVE - Data Lakes und SQL
    • Meta Data Storage: Hinweise zum Aufbau eines Data Lakes und Umsetzungsbeispiele
      • Registrierung von Big Data mittels HIVE
      • Import von Datensätzen bzw. Connection mit Datensätzen
    • HIVE SQL
      • Abfrage basierend auf Big Data mittels HIVE SQL
      • Übersicht wesentliche Befehle
      • Umsetzung typischer Jobs mittels SQL
      • Hinweise zur Performance
  • Verbindung zu Datenbanken mittels sqoop
    • Idee von sqoop
    • Datenbezug aus einer relationalen Datenbank (in HDFS)
    • Daten aus HDFS in eine relationale Datenbank zurückschreiben
  • Case Study: Log-File-Analyse mit typischen Fragestellungen und Schritten in den diskutierten Systemen

Inhalt

In diesem 2-tägigen Seminar lernen Sie als Data Scientist:in Apache Hadoop® zur Bearbeitung von Big Data kennen. Der Schwerpunkt liegt dabei auf umsetzbaren ersten Schritten und den Grundlagen, die an einem praktischen System erlernt werden: Wir stellen Ihnen ein virtuelles Apache Hadoop-System während der Schulung als virtuelle Maschine zur Verfügung - dabei handelt es sich um ein Pseudo-Distributed-System. Die VM wird nach Abschluss des Seminars zur Verfügung gestellt. Alternativ kann auch ein Fully Distributed Hadoop System auf Amazon AWS (1 Master und 2 Slaves) genutzt werden. Bitte sprechen Sie uns dazu an!

Inhalte: Die Inhalte werden so durch den Dozenten seit einigen Jahren an der htw in Berlin Studierenden im Master vermittelt. Durch die Seminarerfahrung ist der vermittelte Stoff über die Jahre hinsichtlich der relevanten Themen optimiert worden.

Zuerst bekommen Sie die grundlegende Idee des Apache Hadoop-Ansatzes vermittelt: Wie ist es möglich, Big Data durch Nutzung vieler einzelner Rechner effizient - und auch schneller als auf einem einzelnem System - zu analysieren. Dazu dient der Map-Reduce-Ansatz, d.h. der Datenbestand wird zerlegt, dann werden Teile auf den einzelnen Rechnern (Slaves) analysiert und die Teilergebnisse wieder zusammengefügt (das passierte früher auf dem Master-Rechner, heute kann dies flexibler gehandhabt werden). Natürlich lassen sich nur Probleme mittels Apache Hadoop System analysieren, die sich auf verschiedene Rechner verteilen lassen.
Diesen Ansatz nutzen wir direkt im Hadoop-System in der VM um erste Textdateien zu analysieren.

Im nächsten Schritt lernen Sie dann den zweiten wesentlichen Bestandteil des Apache Hadoop-Systems kennen: das Hadoop Distributed File System (HDFS). Dieses System sorgt dafür, dass Big Data über viele Rechner hinweg verteilt gespeichert werden kann, und zwar auch Datensätze, die größer als die Kapazität eines einzelnen Rechners im Verbund sind. Um eine möglichst hohe Ausfallsicherheit zu gewährleisten, werden Datensatzteile parallel auf mehreren Rechnern gespeichert (Redundanz). Dabei lässt sich der Replikationsfaktor variieren - wir nutzen den Replikationsfaktor, um generell die einstellbaren Optionen im Apache Hadoop System kennenzulernen.

Nun können wir abschließend alle Werke Shakespeares in das HDFS befördern und mittels Map Reduce Ansatz einen Wordcount durchführen, um die Häufigkeiten (oder auch Wortlängen) der einzelnen Wörter in Shakespeares Werken zu analysen.
Die Kontrolle der beiden Teilsysteme kann durch den Web-Browser erfolgen. Das HDFS kann sehr bequem auch über den Browser genutzt werden, so ist es möglich, über den Browser Daten in das HDFS zu importieren und auch zu exportieren. Das Interface für Map-Reduce erlaubt die Kontrolle der abgeschickten Jobs

Die Programmierung des Hadoop-Systems findet durch das Erstellen von Mapper und Reducer-Programmen in Java statt. Da Java nicht unbedingt die am einfachsten zu erlernende Sprache ist und auch einiges an Testen nach sich zieht, sind einige sehr hilfreiche Spftwarepakete verfügbar, die die Nutzung von Skriptsprachen oder SQL erlauben, um Jobs im Hadoop-System zu ermöglichen. Zu nennen sind hier insbesondere Apache Pig und Apache Hive. 

Apache Pig erlaubt das Erstellen von Hadoop Jobs in einer relativ einfachen Skriptsprache. Diese wird vermittelt und erste Jobs werden geschrieben, die im Hadoop System umgesetzt werden.

Apache HIVE hat eine Doppelfunktion: Zum einen können Datenbestände mittels HIVE SQL analysiert werden. Daneben stellt HIVE einen Meta-Storage zur Verfügung, in dem Datenbestände im HDFS registriert werden. Eine der Kernprobleme beim Aufbau heutiger Data Lakes sind die Metadaten - fehlen diese oder werden unzureichend gepflegt, so wird der Data Lake sehr schnell zum Data Swamp - es ist schlicht nicht klar, welche Daten sich im Data Lake befinden und was deren Eigenschaften sind. Beide Teile werden im Seminar vermittelt, zum einen das Registrieren von Datensätzen in Apache HIVE und zum anderen die Nutzung von HIVE SQL für die Analyse von Daten.

Der Kurs wird durch eine Fallstudie abgerundet, in der wir Log-Files analysieren wollen. Dazu nutzen wir die bisher kennengelernten Systeme.

Nach Abschluss des Kurses sollten Sie ein grundlegendes Verständnis durch das praktische Arbeiten mit einem Hadoop®-System erworben haben. Der weiteren praktischen Umsetzung steht dann nichts mehr im Wege!

INHOUSE-SEMINAR

Seminardurchführung am Standort des Kunden

1.290,00
pro Tag bis 4 Teilnehmer zzgl. gesetzlicher USt

  • Alle Inhalte der Inhouse-Seminare werden individuell zugeschnitten und zielgruppenspezifisch vermittelt.
    Intensive Nachbetreuung ermöglicht den Teilnehmern ihre Kenntnisse in kürzester Zeit umzusetzen
    .
  • Empfohlene Seminardauer: 2 Tage
  • Leihgebühren Schulungsnotebook (auf Wunsch): 35,- Euro (pro Tag, pro Schulungsrechner)
  • Telefon: +49 611 531 500 91
  • E-Mail: training@masem-training.de

firmen webinar

Ideal für das Home-Office oder dezentrale Arbeitsgruppen

€1.290,00
pro Tag bis 4 Teilnehmer zzgl. gesetzlicher USt 

  • Bei Seminaren in unserem virtuellen Klassenzimmer genießen Sie alle Vorteile der Inhouse-Seminare. Dabei nutzen Sie Ihre eigenen Rechner und erhalten von uns den gleichen Service in der gleichen hohen Qualität bei weniger Aufwand!
  • Kursdauer: Nach Absprache!
  • Telefon: +49 611 531 500 91
  • E-Mail: training@masem-training.de

Wir verwenden Cookies
Cookie-Einstellungen
Unten finden Sie Informationen über die Zwecke, für welche wir und unsere Partner Cookies verwenden und Daten verarbeiten. Sie können Ihre Einstellungen der Datenverarbeitung ändern und/oder detaillierte Informationen dazu auf der Website unserer Partner finden.
Analytische Cookies Alle deaktivieren
Funktionelle Cookies
Andere Cookies
Wir verwenden Cookies, um die Inhalte und Werbung zu personalisieren, Funktionen sozialer Medien anzubieten und unseren Traffic zu analysieren. Mehr über unsere Cookie-Verwendung
Einstellungen ändern Alle akzeptieren
Cookies