Kompaktkurs Data Science mit R

Seminar für alle die Data Science mit R erlernen und einsetzen wollen!

Termine Offene Schulungen


23.11. + 24.11.2020 (Webinar); 20.01. + 21.01.2021 (Webinar)


Lernziele und Agenda

Lernziele
  • Data Science Fundamentals: Data Science Projekte mit R umsetzen – basierend auf dem CRISP-DM-Standard 
  • Zentrale Data Science Pakete kennen und einsetzen können 
  • Das Framework mlr3 (optional: caret/tidymodels) nutzen können
  • Data IO: Umgang auch mit größeren Datenmengen mittels mit data.table und Datenbanken beherrschen  
  • Automatisierungen: Eigene hilfreiche Funktionen für typische Data Science Tasks erstellen und einsetzen
  • Pipelines in R mittels mlr3 und drake
  • Zentrale Machine Learning-Algorithmen im Data Science kennenlernen und einsetzen (beinhaltet auch einen Überblick über Deep Learning)
  • Overfitting erkennen und kontrollieren
  • Modellevaluation: Identifikation eines optimalen Modells basierend auf den relevanten Fit-Maßen
  • Bei Bedarf: Churn-Modelle in R (z.B. zur Modellierung der Kundenabwanderung)
  • Bei Bedarf: Big Data: Überblick Apache Hadoop und Apache Spark mit R

Agenda

Tag 1:

  • Umsetzung von Data Science Projekten mittels CRISP-DM-Standard
  • Das mlr3-Framework (alternativ: caret/tidymodels)
  • Berichtserstellung entlang des CRISP-DM-Prozesses mittels Markdown in RStudio
  • Data Handling: Effizienter Umgang mit Daten in R: Bordmittel (das R Datenformat), data.table und Nutzung von Datenbanken
  • Data Understanding: Effiziente Analyse der Input-Datensätze mittels eigener Funktionen 
  • Data Preparation: Behandlung fehlender Werte, umplausibler Werte, Dummy-Building, Balancing etc.; Vorstellung geeigneter Pakete und Nutzung eigener Funktionen

Tag 2:

  • Machine Learning Algorithmen I: Nicht-Black-Box-Verfahren (ALM und GLM, Rekursive Partitionierung ("Bäume"); Weitere Verfahren;
  • Machine Learning Algorithmen II: Black-Box-Verfahren: Neuronale Netzwerke; SVM; Boosting und Bagging; Random Forests; Weitere Verfahren;
  • Machine Learning Algorithmen III: Deep Learning in R: Nutzung von Tensorflow mittels RStudio; Einsatz von Manet
  • Berücksichtigung von Overfitting; Kontrollstrategien;
  • Machine Learning Pipelines mittels mlr3 und drake;
  • Modelloptimierung: Identifikation optimaler Modelle; Hyperparametertuning; 
  • Deployement

Nach Bedarf:

  • Churn-Analysen zur Modellierung der Kundenabwanderungen;
  • Big Data mit Hadoop und/oder Apache Spark

Inhalt

Dieser Kurs vermittelt an zwei Tagen die Umsetzung von Data Science Projekten in R. TeilnehmerInnen sollten ein Grundwissen der Programmierung (gerne in R oder Python) und der Statistik / Machine Learning mitbringen, um optimal von diesem Seminar zu profitieren.  

In R stehen zwei grundlegende Machine Learning-Frameworks zur Verfügung: caret/Tidymodels sowie mlr/mlr3. Da mlr3 näher an der Umsetzung mittels scikat-learn in Python ist, wird dieses im Seminar genutzt. Im Vorfeld können wir uns aber auch gerne auf caret/TidyModels einigen.  

Die einzelnen Schritte werden anhand des CRISP-DM-Standards praxisorientiert besprochen, der sich aus den Schritten Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation und Deployment zusammensetzt. Alle Themen werden auf Basis realer Fragestellung in R und RStudio® intensiv eingeübt. 

Um auch größere Datensätze effektiv verarbeiten zu können, wird zum einen auf data.table zurückgegriffen als auch auf Datenbanken. Das mlr3-Paket (alternativ caret/tidymodels) bietet ein komplettes Framework zur Umsetzung an. Um hier einen strukturierten Zugang zu finden, werden zentrale Machine Learning-Algorithmen (inkl. Deep Learning) vorgestellt und praktisch eingesetzt. Die Modellevaluation hilt dabei, das optimale Modell für die jeweilige Fragestellung zu identifizieren. Dazu können die Modelle mittels Hyperparameter-Tuning oder Random Grid Search optimiert werden. 

Automatisierung wird durch Pipelines in Data Science Projekten erreicht. Hierzu bietet mlr3 eine Umsetzungsmöglichkeit, das drake-Paket arbeitet besonders effizient und passt nur Modellteile an, deren Datengrundlage sich geändert hat.

Es wird gezeigt, wie alle Schritte mittels Markdown in RStudio dokumentiert werden können. Eine weitere Automatisierung wird durch das Schreiben eigener Data Science spezifischer Funktionen erreicht.

Im gesamten Seminars werden immer Übungen entlang einer Case Study durchgeführt. Hier wird sehr viel wert auf eine möglichst effiziente Umsetzung der CRISP-DM-Prozessschritte gelegt. 

Ein direkter Einsatz der erlernten Techniken ist nach dem Seminar in Data Science Projekten ohne weiteres möglich!

INHOUSE-SEMINAR

LEIDER KÖNNEN WIR MOMENTAN KEINE OFFENEN SCHULUNGEN IN WIESBADEN DURCHFÜHREN. NUTZEN SIE UNSER WEBINAR-ANGEBOT!

1.290,00
pro Tag bis 4 Teilnehmer zzgl. gesetzlicher USt

  • Alle Inhalte der Inhouse-Seminare werden individuell zugeschnitten und zielgruppenspezifisch vermittelt.
    Intensive Nachbetreuung ermöglicht den Teilnehmern ihre Kenntnisse in kürzester Zeit umzusetzen
    .
  • Empfohlene Seminardauer: 2 Tage
  • Leihgebühren Schulungsnotebook (auf Wunsch): 35,- Euro (pro Tag, pro Schulungsrechner)
  • Telefon: +49 611 531 500 91
  • E-Mail: training@masem-training.de

firmen webinar

Ideal für das Home-Office oder dezentrale Arbeitsgruppen

€990,00
pro Tag bis 4 Teilnehmer zzgl. gesetzlicher USt - befristetes Angebot bis zum 31.12.2020, danach €1.290,00 netto

  • Bei Seminaren in unserem virtuellen Klassenzimmer genießen Sie alle Vorteile der Inhouse-Seminare. Dabei nutzen Sie Ihre eigenen Rechner und erhalten von uns den gleichen Service in der gleichen hohen Qualität bei weniger Aufwand!
  • Kursdauer: Nach Absprache!
  • Telefon: +49 611 531 500 91
  • E-Mail: training@masem-training.de

Hintergrundinformationen zu R

Sie wollen, ehe Sie ein R Seminar buchen, etwas mehr erfahren, was R ist und kann? R ist eine Programmiersprache, die unter der GNU-Lizenz veröffentlich wurde. Hauptaugenmerk der Sprache liegt auf der Umsetzung statistischer Analysen und der effizienten Erstellung von Grafiken. Historisch ist R aus der (proprietären) Programmiersprache S entstanden, weswegen die beiden in weiten Teilen sehr ähnlich sind. Nachdem R über Jahre vorwiegend im Hochschulbereich eingesetzt wurde, wird seine Leistungsfähigkeit vor allem im Bereich der Data Science sehr geschätzt. Durch über 600 Zusatzpakete (Stand Ende 2019) sind nahezu alle bekannten statistischen Verfahren und Darstellungsmethoden verfügbar. R kann problemlos auf allen gängigen Plattformen (MS Windows Vista/7/8/Server 2008/10, Mac OS X, Linux Redhat/Debian/sus/ubuntu) installiert werden. Mit der Installation von R wird zugleich auch eine Programmierumgebung installiert. Die meisten Anwenderinnen und Anwender verwenden jedoch RStudio® um R möglichst komfortabel zu nutzen. Auch RStudio® ist für fast alle gängigen Betriebssysteme verfügbar und steht in zwei verschiedenen Varianten zur Verfügung. Neben den freien Desktop und Server-Installationen stehen noch kostenpflichtige Angebote zur Verfügung, die darüber hinaus besseren Service und Dashboards und Systeme zur Projektorganisation bereitstellen. Hier finden Sie eine Übersicht über die Unterschiede der einzelnen Systeme. Für die R Seminare die masem training anbietet wird im Regelfall auf die freie Desktop-Installation von RStudio® zurückgegriffen. Shiny® von RStudio® ermöglicht es zudem komfortabel R-basierte Applikationen zu entwickeln, die eine interaktive Datenanalyse für die Betrachter ermöglichen. So können interaktive Grafiken Ihre Daten schnell und aussagekräftig visualisieren oder mit Widgets Tabellen so konstruiert werden, wie sie für die aktuelle Aufgabe benötigt werden.