Seminar
Microsoft Azure Databricks
Offenes Seminar (2 Tage) in Wiesbaden; Inhouse: Zuschnitt! Sie nennen uns Ihre Themen!
Der Workshop richtet sich an betriebliche Praktiker:innen, die Microsoft Azure Databricks einsetzen möchten.
Termine 2025 in Wiesbaden: 20./21. März 2025
LERNZIELE UND AGENDA
​
Lernziele:
Tag 1: Implementierung einer Data-Lakehouse-Analytics-Lösung mit Azure Databricks
-
Verständnis von Azure Databricks.
-
Datenanalyse durchführen.
-
Nutzung kollaborativer Notebooks.
-
Anwendung von Apache Spark.
-
Datenmanagement mit Delta Lake.
-
Erstellung von Datenpipelines.
-
Orchestrierung von Arbeitslasten.
​
Tag 2: Implementierung einer Machine Learning-Lösung mit Azure Databricks
-
Grundlagen des maschinellen Lernens verstehen.
-
Datenaufbereitung.
-
Modelltraining.
-
Nutzung von MLflow.
-
Hyperparameter-Optimierung.
-
Automatisierung mit AutoML.
-
Deep Learning-Modelle trainieren.
-
Management von Machine Learning in der Produktion.
OFFEN oder WORKSHOP
Workshop: Sie nennen uns Ihre Themen!
Umfang: ein- oder zwei Tage
​
Preis: 1090€ (offen, 2 Tage)
Workshop auf Anfrage
zzgl. gesetzlicher USt und ggf. Reisekoste
​
Alle Inhalte des Workshops werden individuell zugeschnitten und zielgruppenspezifisch vermittelt.
​
Gerne führen wir den Workshop bei Ihnen vor Ort, in Wiesbaden oder online durch.
​
Leihgebühren Schulungsnotebook (auf Wunsch): 60,- Euro (pro Tag, pro Schulungsrechner)
Tag 1: Implementierung einer Data-Lakehouse-Analytics-Lösung mit Azure Databricks
An Tag 1 bekommen Sie vermittelt, wie Sie die Leistung von Apache Spark und leistungsstarken Clustern, die auf der Azure Databricks-Plattform ausgeführt werden, nutzen können, um große Data-Engineering-Workloads in der Cloud auszuführen.
​
Einheit 1: Azure Databricks erkunden
Azure Databricks ist ein Cloud-Dienst, der eine skalierbare Plattform für Datenanalysen mit Apache Spark bietet.
-
Einführung
-
Erste Schritte mit Azure Databricks
-
Azure Databricks Arbeitslasten identifizieren
-
Wichtige Konzepte verstehen
-
Datenverwaltung mit Unity Catalog und Microsoft Purview
-
Übung - Azure Databricks erkunden
Einheit 2: Datenanalyse mit Azure Databricks durchführen
Lernen Sie, wie man Datenanalysen mit Azure Databricks durchführt. Erkunden Sie verschiedene Methoden zur Datenaufnahme und wie man Daten aus Quellen wie Azure Data Lake und Azure SQL-Datenbank integriert. Dieses Modul führt Sie durch die Verwendung kollaborativer Notebooks zur Durchführung explorativer Datenanalysen (EDA), um Daten zu visualisieren, zu manipulieren und zu untersuchen, um Muster, Anomalien und Korrelationen zu erkennen.
-
Einführung
-
Daten mit Azure Databricks aufnehmen
-
Datenexplorationswerkzeuge in Azure Databricks
-
Datenanalyse mit DataFrame-APIs
-
Übung - Daten mit Azure Databricks erkunden
Einheit 3: Apache Spark in Azure Databricks verwenden
Azure Databricks basiert auf Apache Spark und ermöglicht es Dateningenieuren und Analysten, Spark-Jobs auszuführen, um Daten in großem Maßstab zu transformieren, zu analysieren und zu visualisieren.
-
Einführung
-
Spark kennenlernen
-
Einen Spark-Cluster erstellen
-
Spark in Notebooks verwenden
-
Mit Daten-Dateien in Spark arbeiten
-
Daten visualisieren
-
Übung - Spark in Azure Databricks verwenden
Einheit 4: Daten mit Delta Lake verwalten
Delta Lake ist eine Datenmanagementlösung in Azure Databricks, die Funktionen wie ACID-Transaktionen, Schema-Einhaltung und Zeitreisen bietet, um die Datenkonsistenz, -integrität und Versionierung sicherzustellen.
-
Einführung
-
Mit Delta Lake beginnen
-
ACID-Transaktionen verwalten
-
Schema-Einhaltung implementieren
-
Datenversionierung und Zeitreise in Delta Lake
-
Datenintegrität mit Delta Lake
-
Übung - Delta Lake in Azure Databricks verwenden
Einheit 5: Datenpipelines mit Delta Live Tables erstellen
Der Aufbau von Datenpipelines mit Delta Live Tables ermöglicht die Echtzeit-, skalierbare und zuverlässige Datenverarbeitung unter Verwendung der fortschrittlichen Funktionen von Delta Lake in Azure Databricks.
-
Einführung
-
Delta Live Tables erkunden
-
Datenaufnahme und -integration
-
Echtzeitverarbeitung
-
Übung - Eine Datenpipeline mit Delta Live Tables erstellen
​
Einheit 6: Arbeitslasten mit Azure Databricks Workflows bereitstellen
Die Bereitstellung von Arbeitslasten mit Azure Databricks Workflows umfasst die Orchestrierung und Automatisierung komplexer Datenverarbeitungspipelines, maschineller Lern-Workflows und Analysaufgaben. In diesem Modul lernen Sie, wie man Arbeitslasten mit Databricks Workflows bereitstellt.
-
Einführung
-
Was sind Azure Databricks Workflows?
-
Wichtige Komponenten von Azure Databricks Workflows verstehen
-
Die Vorteile von Azure Databricks Workflows erkunden
-
Arbeitslasten mit Azure Databricks Workflows bereitstellen
-
Übung - Einen Azure Databricks Workflow erstellen
Tag 2: Implementierung einer Machine Learning-Lösung mit Azure Databricks
Azure Databricks ist eine Cloud-basierte Plattform für Datenanalysen und maschinelles Lernen. Datenwissenschaftler und Machine Learning-Ingenieure können Azure Databricks nutzen, um Machine Learning-Lösungen in großem Maßstab zu implementieren.
Einheit 1: Ein Machine Learning-Modell in Azure Databricks trainieren
Maschinelles Lernen umfasst die Verwendung von Daten, um ein prädiktives Modell zu trainieren. Azure Databricks unterstützt mehrere gängige Frameworks für maschinelles Lernen, die zur Modellierung verwendet werden können.
-
Einführung
-
Grundprinzipien des maschinellen Lernens verstehen
-
Maschinelles Lernen in Azure Databricks
-
Daten für das maschinelle Lernen vorbereiten
-
Ein Machine Learning-Modell trainieren
-
Ein Machine Learning-Modell bewerten
-
Übung - Ein Machine Learning-Modell in Azure Databricks trainieren
Einheit 2: MLflow in Azure Databricks verwenden
MLflow ist eine Open-Source-Plattform zur Verwaltung des Lebenszyklus von maschinellem Lernen, die nativ in Azure Databricks unterstützt wird.
-
Einführung
-
Funktionen von MLflow
-
Experimente mit MLflow durchführen
-
Modelle mit MLflow registrieren und bereitstellen
-
Übung - MLflow in Azure Databricks verwenden
Einheit 3: Hyperparameter in Azure Databricks optimieren
Die Optimierung von Hyperparametern ist ein wesentlicher Bestandteil des maschinellen Lernens. In Azure Databricks können Sie die Hyperopt-Bibliothek verwenden, um Hyperparameter automatisch zu optimieren.
-
Einführung
-
Hyperparameter mit Hyperopt optimieren
-
Hyperopt-Tests überprüfen
-
Hyperopt-Tests skalieren
-
Übung - Hyperparameter für das maschinelle Lernen in Azure Databricks optimieren
Einheit 4: AutoML in Azure Databricks verwenden
AutoML in Azure Databricks vereinfacht den Prozess der Erstellung eines effektiven Machine Learning-Modells für Ihre Daten.
-
Einführung
-
Was ist AutoML?
-
AutoML in der Benutzeroberfläche von Azure Databricks verwenden
-
Code verwenden, um ein AutoML-Experiment auszuführen
-
Übung - AutoML in Azure Databricks verwenden
Einheit 5: Deep Learning-Modelle in Azure Databricks trainieren
Deep Learning nutzt neuronale Netzwerke, um hochwirksame Machine Learning-Modelle für komplexe Vorhersagen, Computer Vision, natürliche Sprachverarbeitung und andere KI-Arbeitslasten zu trainieren.
-
Einführung
-
Konzepte des Deep Learning verstehen
-
Modelle mit PyTorch trainieren
-
PyTorch-Training mit TorchDistributor verteilen
-
Übung - Deep Learning-Modelle auf Azure Databricks trainieren
Einheit 6: Maschinelles Lernen in der Produktion mit Azure Databricks verwalten
Maschinelles Lernen ermöglicht datengestützte Entscheidungen und Automatisierung, aber die Bereitstellung von Modellen in der Produktion für Echtzeiteinblicke ist herausfordernd. Azure Databricks vereinfacht diesen Prozess, indem es eine einheitliche Plattform für den Aufbau, das Training und die Bereitstellung von Machine Learning-Modellen in großem Maßstab bereitstellt, die die Zusammenarbeit zwischen Datenwissenschaftlern und Ingenieuren fördert.
-
Einführung
-
Ihre Datenveränderungen automatisieren
-
Modellentwicklung erkunden
-
Strategien zur Bereitstellung von Modellen erkunden
-
Modellversionierung und Lifecycle-Management erkunden
-
Übung - Ein Machine Learning-Modell verwalten
​
INHALT
In unserem zweitägigen Seminar mit den Themen „Implementierung einer Daten-Lakehouse-Analytics-Lösung mit Azure Databricks (Tag 1)“ und "Implementierung einer Machine Learning-Lösung mit Azure Databricks(Tag 2)" erlernen die Teilnehmenden die entscheidenden Fähigkeiten zur Nutzung der Azure Databricks-Plattform.
​​
Tag 1: Implementierung einer Daten-Lakehouse-Analytics-Lösung mit Azure Databricks
​
Tag 1 beginnt mit einer umfassenden Einführung in Azure Databricks. Die Teilnehmenden erkunden die grundlegenden Konzepte und Funktionen dieser Cloud-basierten Plattform, die es ermöglicht, Apache Spark für große Datenanalysen zu nutzen. Durch praktische Übungen erfahren sie, wie sie verschiedene Azure Databricks-Arbeitslasten identifizieren und effektiv implementieren können. Ein wichtiger Aspekt dieser Einheit ist die Datenverwaltung mittels Unity Catalog und Microsoft Purview, was für eine effiziente und sichere Datenverwaltung unerlässlich ist.
​
In der zweiten Einheit konzentrieren wir uns auf die Datenanalyse mit Azure Databricks. Die Teilnehmenden lernen, wie sie Daten effizient aufnehmen und mit den integrierten Datenexplorationswerkzeugen in Azure Databricks arbeiten können. Die Verwendung von DataFrame-APIs zur Durchführung komplexer Datenanalysen wird ebenfalls behandelt. Durch praktische Übungen zur Datenanalyse können die Teilnehmer Muster und Einblicke in große Datensätze gewinnen, was ihnen ermöglicht, datenbasierte Entscheidungen zu treffen.
​
Die dritte Einheit bringt die Teilnehmenden näher an Apache Spark heran. Sie erfahren, wie sie einen Spark-Cluster erstellen und Spark in Notebooks verwenden können, um leistungsstarke Datenverarbeitungsaufgaben durchzuführen. Die Teilnehmer lernen, wie sie mit Daten-Dateien arbeiten und diese visualisieren können, was die Analyse von Daten enorm vereinfacht. Diese Fähigkeiten sind von großer Bedeutung für Dateningenieure und Analysten, die große Datenmengen effizient verarbeiten und analysieren möchten.
​
In der vierten Einheit steht die Verwaltung und Verarbeitung von Daten mit Delta Lake im Vordergrund. Die Teilnehmenden lernen, wie sie ACID-Transaktionen verwalten und die Schema-Einhaltung implementieren können. Durch das Verständnis der Datenversionierung und der Zeitreise in Delta Lake gewinnen sie wertvolle Einblicke in die Gewährleistung von Datenintegrität und Konsistenz. Praktische Übungen ermöglichen es den Teilnehmenden, die Theorie in die Praxis umzusetzen und die Funktionalitäten von Delta Lake effektiv zu nutzen.
​
In der fünften Einheit wird der Schwerpunkt auf die Erstellung von Datenpipelines mit Delta Live Tables gelegt. Die Teilnehmenden lernen die Vorteile und Möglichkeiten dieser Technologie kennen, um Echtzeitverarbeitung und -integration zu ermöglichen. Die praktischen Übungen helfen den Teilnehmenden, eine robuste und skalierbare Datenpipeline zu entwickeln, die auf ihren spezifischen Anwendungsfällen basiert.
​
Abschließend wird in der sechsten Einheit des ersten Tages behandelt, wie Azure Databricks Workflows zur Bereitstellung von Arbeitslasten verwendet werden. Die Teilnehmenden erfahren, wie sie komplexe Datenverarbeitungs-Pipelines orchestrieren und automatisieren können. Durch die Erkundung der wichtigen Komponenten und Vorteile von Azure Databricks Workflows sind sie in der Lage, ihre LLM-gestützten Anwendungen effektiv zu implementieren und zu verwalten.
​
Lernziele im Detail Tag 1:
-
Verständnis von Azure Databricks: Kenntnisse über die Funktionen und Möglichkeiten von Azure Databricks als Cloud-Dienst zur Datenanalyse erlangen.
-
Datenanalyse durchführen: Fähigkeit zur Durchführung von Datenanalysen mit Azure Databricks erlernen, einschließlich der Integration von Daten aus verschiedenen Quellen wie Azure Data Lake und Azure SQL-Datenbank.
-
Nutzung kollaborativer Notebooks: Erlernen der Verwendung von kollaborativen Notebooks zur Durchführung explorativer Datenanalysen (EDA) und zur Visualisierung von Daten.
-
Anwendung von Apache Spark: Praktische Kenntnisse in der Verwendung von Apache Spark innerhalb der Azure Databricks-Plattform zur Verarbeitung und Analyse großer Datenmengen erwerben.
-
Datenmanagement mit Delta Lake: Verständnis der Delta Lake-Funktionalitäten, einschließlich ACID-Transaktionen und Schema-Einhaltung, um Datenkonsistenz und -integrität zu gewährleisten.
-
Erstellung von Datenpipelines: Fähigkeit zur Entwicklung und Implementierung von Datenpipelines mit Delta Live Tables für Echtzeit-Datenverarbeitung erlangen.
-
Orchestrierung von Arbeitslasten: Kenntnisse in der Bereitstellung und Automatisierung von komplexen Arbeitslasten mit Azure Databricks Workflows erwerben.
​​
​
Tag 2: Seminar "Implementierung einer Machine Learning-Lösung mit Azure Databricks"
​​
Im zweiten Teil des Seminars Azure Data Bricks „Implementierung einer Machine Learning-Lösung mit Azure Databricks“ lernen die Teilnehmenden, wie sie die leistungsstarke Azure Databricks-Plattform für die Entwicklung und Implementierung von Machine Learning-Lösungen nutzen können. Azure Databricks bietet eine Cloud-basierte Umgebung, die speziell für Datenanalysen und maschinelles Lernen konzipiert wurde. Die Teilnehmer erwerben Kenntnisse über die Integration von Apache Spark und können sowohl online als auch offline Large Language Models (LLMs) verwenden, um skalierbare und effektive KI-Anwendungen zu entwickeln.
​
Teil 2 des Seminars konzentriert sich auf die Grundlagen des maschinellen Lernens in Azure Databricks. Die Teilnehmenden lernen, wie man Daten aufbereitet, um sie für Machine Learning-Projekte zu verwenden. Sie erfahren, wie sie Machine Learning-Modelle trainieren und evaluieren können, um fundierte Vorhersagen zu treffen. In diesem Teil wird auch MLflow eingeführt, eine Open-Source-Plattform zur Verwaltung des Lebenszyklus von Machine Learning, die nativ in Azure Databricks unterstützt wird. Die Teilnehmer können praktische Übungen durchführen, um ihre Fähigkeiten in der Anwendung von MLflow zu festigen.
​
Weiter vertiefen die Teilnehmenden ihre Kenntnisse in fortgeschrittenen Themen wie der Hyperparameter-Optimierung mit Hyperopt und dem Einsatz von AutoML. Diese Techniken sind entscheidend für die Effizienz und Genauigkeit von Machine Learning-Modellen. Darüber hinaus lernen die Teilnehmenden, wie sie Deep Learning-Modelle mit PyTorch trainieren und verteilen können, um komplexe Aufgaben in Bereichen wie Computer Vision und natürliche Sprachverarbeitung zu bewältigen.
​
Ein wichtiger Aspekt des Seminars ist auch das Management von Machine Learning in der Produktion mit Azure Databricks. Die Teilnehmer erfahren, wie sie Datenveränderungen automatisieren, Modelle entwickeln und geeignete Strategien zur Bereitstellung und Versionierung von Modellen implementieren können. Durch praxisnahe Übungen und Projekte erhalten die Teilnehmenden die Möglichkeit, das erlernte Wissen in realistischen Szenarien anzuwenden.
​
Dieses Seminar bietet eine umfassende Einführung in die Implementierung von Machine Learning-Lösungen mit Azure Databricks und ist ideal für Fachleute, die ihre Kenntnisse in Datenwissenschaft und Künstlicher Intelligenz erweitern möchten.
​
Lernziele im Detail Tag 2:
-
Grundlagen des maschinellen Lernens verstehen: Die Teilnehmer erlangen Kenntnisse über die Grundprinzipien des maschinellen Lernens und deren Anwendung in Azure Databricks.
-
Datenaufbereitung: Fähigkeit zur Vorbereitung von Daten für Machine Learning-Projekte in Azure Databricks entwickeln.
-
Modelltraining: Kenntnisse im Training und in der Evaluierung von Machine Learning-Modellen in Azure Databricks erwerben.
-
Nutzung von MLflow: Vertrautheit mit den Funktionen von MLflow zur Verwaltung des Machine Learning-Lebenszyklus, einschließlich der Durchführung von Experimenten und der Registrierung von Modellen.
-
Hyperparameter-Optimierung: Fähigkeiten zur Optimierung von Hyperparametern mit Hyperopt erlernen und bewerten.
-
Automatisierung mit AutoML: Verständnis für AutoML gewinnen und lernen, wie man AutoML in Azure Databricks effektiv nutzt, sowohl über die Benutzeroberfläche als auch mit Code.
-
Deep Learning-Modelle trainieren: Die Teilnehmer erlernen, wie man Deep Learning-Modelle mit PyTorch in Azure Databricks trainiert und verteilt.
-
Management von Machine Learning in der Produktion: Kenntnisse über die Automatisierung von Datenveränderungen, Modellentwicklung, Bereitstellungsstrategien und Lifecycle-Management erwerben.