La formation développement Hadoop vous permet de développer des applications pour le traitement de gros volumes de données. En suivant cette formation, vous apprendrez à utiliser l’écosystème Apache Hadoop pour traiter des Big Data et à développer des applications performantes sur des clusters Hadoop.
Objectifs de la formation Développement Hadoop
À l’issue de cette formation, vous serez capable de :
- Développer des applications pour le traitement de gros volumes de données à l’aide de l’écosystème Hadoop.
- Comprendre le fonctionnement du système de fichiers distribué HDFS et de MapReduce.
- Optimiser le développement d’algorithmes parallèles pour des traitements efficaces avec MapReduce.
- Charger et manipuler des données non structurées avec HBase.
- Simplifier les requêtes avec Hive et intégrer Spark pour des traitements avancés sur de grandes quantités de données.
- Maîtriser l’utilisation de YARN pour orchestrer les jobs MapReduce dans un environnement Big Data.
À qui s’adresse cette formation ?
Public cible :
Cette formation est destinée aux développeurs, data scientists, architectes Big Data, et chefs de projets impliqués dans le développement d’applications pour des environnements Hadoop.
Prérequis :
Une connaissance préalable en programmation objet (Java, Python, C#, etc.) et en scripting est recommandée pour suivre cette formation dans les meilleures conditions.
Contenu de la formation Développement Hadoop
Jour 1 : Introduction à Hadoop et MapReduce
- Introduction à Hadoop : Fonctionnalités, modules, et écosystème de Hadoop (HDFS, YARN, MapReduce).
- MapReduce : Comprendre le principe de MapReduce et son utilisation dans le traitement des données.
- Utilisation des fonctions map() et reduce().
- Couples (clés, valeurs) et leur gestion dans le cadre de MapReduce.
- Travaux pratiques : Écrire et exécuter un programme MapReduce avec Hadoop.
- Configuration des jobs : Optimisation des jobs MapReduce avec HDFS, gestion des entrées et sorties (InputFormat, OutputFormat).
Jour 2 : Outils Complémentaires et Streaming
- Outils complémentaires : Utilisation de ToolRunner, accès aux systèmes externes (S3, HDFS, HAR).
- Streaming : Définir et utiliser MapReduce Streaming avec Hadoop.
- HBase : Présentation et manipulation de données avec HBase (création de tables, gestion des filtres, utilisation de MapReduce avec HBase).
- Travaux pratiques : Manipulation de données avec HBase et utilisation de données structurées pour MapReduce.
Jour 3 : Hive et Spark
- Hive : Simplification des requêtes avec HiveQL, intégration de HBase pour des requêtes SQL efficaces, automatisation des flux de données.
- Introduction à Spark : Programmation de Big Data avec Spark (RDD, DataFrame, et streaming structuré).
- Machine Learning avec Spark ML : Appliquer des modèles d’apprentissage automatique à des données structurées.
- Travaux pratiques : Exploiter des données CSV avec Spark et effectuer des analyses Big Data en utilisant SQL sur Spark.