loader image

Gate Training

logo-png
Bases de données

Formation Spark : Développement d’applications Big Data

2 Jours

La formation Spark vous offre une expertise approfondie pour développer des applications Big Data performantes avec Apache Spark. Vous apprendrez à manipuler des données massives à l’aide de Spark SQL, à intégrer des flux de données en temps réel avec Spark Streaming, et à exploiter le machine learning avec Spark MLlib

Objectifs de la formation Spark

Cette formation Spark pour développeurs vous permettra de maîtriser l’utilisation de Spark pour le traitement de données massives. À l’issue de cette formation, vous serez capable de :

  • Comprendre la philosophie de Spark et ses limites dans le cadre du traitement des Big Data.
  • Utiliser Spark avec Hadoop pour le traitement distribué et l’analyse de données.
  • Développer des applications avec Spark Streaming pour l’analyse de flux en temps réel.
  • Manipuler des données structurées via Spark SQL et les utiliser dans vos applications.
  • Découvrir et appliquer les algorithmes de Machine Learning avec Spark MLlib.

À qui s’adresse cette formation ?

Public cible :

Cette formation est idéale pour les développeurs, data scientists, chefs de projet Big Data, et architectes travaillant avec des systèmes de données distribuées et souhaitant approfondir leur maîtrise de Spark pour développer des applications performantes.

Prérequis :

Une bonne connaissance en développement avec Java ou Python est recommandée pour suivre cette formation avec succès. Si vous êtes déjà familier avec des concepts de Big Data, cela renforcera votre compréhension.

Contenu du cours Spark pour Développeurs

Jour 1 : Introduction à Spark et Hadoop

  • Introduction à Hadoop et son écosystème : Comprendre le rôle de MapReduce et le traitement distribué avec Hadoop.
  • Architecture de Spark : Comprendre les services offerts par Spark et son moteur de traitement des données (RDD, Spark SQL, Spark Streaming).
  • Manipulation des données avec RDD : Créer, manipuler et transformer des Resilient Distributed Datasets (RDD).
  • Map-Reduce dans Spark : Utilisation de la programmation MapReduce avec Spark pour le traitement des données.
  • Travaux pratiques : Manipuler des fichiers HDFS, créer et sauvegarder des RDD, exécuter des requêtes SQL avec Spark SQL.

Jour 2 : Manipulation des données avec DataFrames et Datasets

  • DataFrames et Datasets : Créer des DataFrames à partir de diverses sources de données (CSV, JSON, etc.), manipuler des Données structurées et les transformer.
  • Opérations avec DataFrames : Requêter, agréger, et effectuer des jointures sur des DataFrames.
  • Comparaison DataFrames et Datasets : Comprendre les différences et quand utiliser l’un ou l’autre.
  • Machine Learning avec Spark MLlib : Introduction aux algorithmes de Machine Learning disponibles dans Spark MLlib.
  • Travaux pratiques : Implémentation d’algorithmes de classification supervisée avec Spark MLlib.

Jour 3 : Analyse en temps réel avec Spark Streaming

  • Architecture de Spark Streaming : Présentation de l’architecture streaming et des DStreams pour le traitement en temps réel.
  • Manipulation des flux de données : Traitement des flux de données avec Spark Streaming, agrégation, et watermarking.
  • Machine Learning en temps réel : Intégration du Machine Learning avec les flux de données en temps réel.
  • Travaux pratiques : Création de statistiques en temps réel et prédictions avec Spark Streaming et Spark MLlib.
  • Déploiement d’une application Spark : Développer, compiler et déployer une application Spark dans un environnement de production.
Niveau:

Fondamental

Classe à distance:

Possible