Detail kurzu

Apache Spark 3.0 for Data Scientists - Advanced Analytics

DataScript s.r.o.

Popis kurzu

Apache Spark je distribuovaný výpočetní engine, který poskytuje unifikovaný framework pro zpracování velkých objemů dat, interaktivní analýzu, machine learning, analýzu grafu a streaming. V průběhu posledních několika let se stává standardem pro zpracování těchto workloadů a to nejen v prostředí velkých dat. Jedním z důvodů proč roste popularita Sparku je také jeho programové API, neboli tzv. DataFramy, které nabízejí univerzální datovou abstrakci, již je možné použít ve všech výše zmíněných oblastech.

Toto školení je orientované na čtyři oblasti datové analytiky. Za prvé je to interaktivní analýza dat za pomoci DataFramového API PySparku, kde také uvidíme, jak se Spark integruje s populární Python knihovnou Pandas. Za druhé je to machine learning s nativním modulem ML Pipelines, kde se podíváme jak trénovat ML modely a vytvářet ML prototypy. Třetí oblastí je deep learning a integrace Sparku s dalšími deep learning technologiemi jako např. Tensorflow a Keras a poslední oblastí je analýza grafu pomocí knihovny GraphFrames.

Školení probíhá v programovacím jazyku Python v lokálním prostředí s jupyter notebookem. Ve školení se zaměříme také na nové vlastnosti a novou funkcionalitu Sparku 3.0.

Obsah kurzu

Cíle kurzu
  • Umět analyzovat data pomocí Sparku
  • Naučit se Sparkem trénovat ML modely
  • Umět Spark integrovat s dalšími data science technologiemi jako je Pandas, SciPy, TensorFlow, Keras
  • Vidět state of the art postupy a funkcionalitu v nejaktuálnější verzi Sparku
 Garant kurzu

David Vrba Ph.D.

David pracuje v Socialbakers jako data scientist a data engineer. Na denní bázi se zabývá optimalizací Spakových aplikací a vyvíjí Sparkové joby, které zpracovávají data na různých škálách od jednotek GBs až po desítky TBs. Vedle toho se zabývá výukou Sparkových trainingů a jeho školeními již prošla celá řada týmů zejména datoví analytici, scientisti a inženýři. David je také Sparkovým kontributorem, přispívá do zdrojového kódu a pravidelně mluví na konferencích a meetupech jako je Spark + AI Summit, MLPrague nebo Spark + AI Prague meetup.
 

Osnova

Data analysis with DataFrame API

  • Advanced features of DataFrame API
  • Integration with Pandas 

Lab I

  • Analyzing data with DataFrame API

Machine learning with ML Pipelines

  • Basic concepts: Transformer, Estimator, Evaluator, Pipeline
  • Training/saving/loading a model
  • Classification problems
  • Cluster analysis

Lab II

  • Training ML prototypes

Deep learning

  • Integration with Tensorflow and Keras
  • Image processing
  • Transfer learning

Lab III

  • Inference with DL model on large scale

Graph processing with GraphFrames

  • Basic concepts: Vertices & Edges
  • Running Graph algoritms
Předpoklady účastníka

Tento kurz je navazujícím kurzem ke školení Apache Spark - od jednoduchých transformací po vysoce výkonné joby, ve kterém člověk mimo jiné získá dobrou znalost DataFramového API a úvod do analytiky ve Sparku. Pro absolvování tohoto kurzu je tedy dobré mít předchozí (alespoň základní) zkušenosti se Sparkem. Dále je užitečné chápat základní koncepty datové analytiky a machine learningu.

Cieľová skupina

Cílová skupina
  • Datoví analytici, scientisti a další uživatelé Sparku, kteří již mají se Sparkem nějakou zkušenost a chtějí Spark používat pro pokročilou analytiku jako je machine learning, deep learning nebo graph processing.
  • Všichni uživatelé Sparku, kteří chtějí vidět kam se technologie posouvá v nejaktuálnější verzi a to zejména v oblasti datové analytiky.
Hodnotenie




Organizátor