loader image

Gate Training

logo-png
Big Data -BI

Formation Développement Hadoop : Maîtriser le Big Data

1 Jours

La formation développement Hadoop vous permet de développer des applications pour le traitement de gros volumes de données. En suivant cette formation, vous apprendrez à utiliser l’écosystème Apache Hadoop pour traiter des Big Data et à développer des applications performantes sur des clusters Hadoop. 

Objectifs de la formation Développement Hadoop

À l’issue de cette formation, vous serez capable de :

  • Développer des applications pour le traitement de gros volumes de données à l’aide de l’écosystème Hadoop.
  • Comprendre le fonctionnement du système de fichiers distribué HDFS et de MapReduce.
  • Optimiser le développement d’algorithmes parallèles pour des traitements efficaces avec MapReduce.
  • Charger et manipuler des données non structurées avec HBase.
  • Simplifier les requêtes avec Hive et intégrer Spark pour des traitements avancés sur de grandes quantités de données.
  • Maîtriser l’utilisation de YARN pour orchestrer les jobs MapReduce dans un environnement Big Data.

À qui s’adresse cette formation ?

Public cible :

Cette formation est destinée aux développeurs, data scientists, architectes Big Data, et chefs de projets impliqués dans le développement d’applications pour des environnements Hadoop.

Prérequis :

Une connaissance préalable en programmation objet (Java, Python, C#, etc.) et en scripting est recommandée pour suivre cette formation dans les meilleures conditions.

Contenu de la formation Développement Hadoop

Jour 1 : Introduction à Hadoop et MapReduce

  • Introduction à Hadoop : Fonctionnalités, modules, et écosystème de Hadoop (HDFS, YARN, MapReduce).
  • MapReduce : Comprendre le principe de MapReduce et son utilisation dans le traitement des données.
    • Utilisation des fonctions map() et reduce().
    • Couples (clés, valeurs) et leur gestion dans le cadre de MapReduce.
  • Travaux pratiques : Écrire et exécuter un programme MapReduce avec Hadoop.
  • Configuration des jobs : Optimisation des jobs MapReduce avec HDFS, gestion des entrées et sorties (InputFormat, OutputFormat).

Jour 2 : Outils Complémentaires et Streaming

  • Outils complémentaires : Utilisation de ToolRunner, accès aux systèmes externes (S3, HDFS, HAR).
  • Streaming : Définir et utiliser MapReduce Streaming avec Hadoop.
  • HBase : Présentation et manipulation de données avec HBase (création de tables, gestion des filtres, utilisation de MapReduce avec HBase).
  • Travaux pratiques : Manipulation de données avec HBase et utilisation de données structurées pour MapReduce.

Jour 3 : Hive et Spark

  • Hive : Simplification des requêtes avec HiveQL, intégration de HBase pour des requêtes SQL efficaces, automatisation des flux de données.
  • Introduction à Spark : Programmation de Big Data avec Spark (RDD, DataFrame, et streaming structuré).
    • Machine Learning avec Spark ML : Appliquer des modèles d’apprentissage automatique à des données structurées.
  • Travaux pratiques : Exploiter des données CSV avec Spark et effectuer des analyses Big Data en utilisant SQL sur Spark.
Réf:

006

Tarif:

600 Dt

Niveau:

Fondamental

Classe à distance:

Possible