Formation Développement Hadoop : Maîtriser le Big Data

1 Jours

La formation développement Hadoop vous permet de développer des applications pour le traitement de gros volumes de données. En suivant cette formation, vous apprendrez à utiliser l’écosystème Apache Hadoop pour traiter des Big Data et à développer des applications performantes sur des clusters Hadoop.

Objectifs de la formation Développement Hadoop

À l’issue de cette formation, vous serez capable de :

Développer des applications pour le traitement de gros volumes de données à l’aide de l’écosystème Hadoop.
Comprendre le fonctionnement du système de fichiers distribué HDFS et de MapReduce.
Optimiser le développement d’algorithmes parallèles pour des traitements efficaces avec MapReduce.
Charger et manipuler des données non structurées avec HBase.
Simplifier les requêtes avec Hive et intégrer Spark pour des traitements avancés sur de grandes quantités de données.
Maîtriser l’utilisation de YARN pour orchestrer les jobs MapReduce dans un environnement Big Data.

À qui s’adresse cette formation ?

Public cible :

Cette formation est destinée aux développeurs, data scientists, architectes Big Data, et chefs de projets impliqués dans le développement d’applications pour des environnements Hadoop.

Prérequis :

Une connaissance préalable en programmation objet (Java, Python, C#, etc.) et en scripting est recommandée pour suivre cette formation dans les meilleures conditions.

Contenu de la formation Développement Hadoop

Jour 1 : Introduction à Hadoop et MapReduce

Introduction à Hadoop : Fonctionnalités, modules, et écosystème de Hadoop (HDFS, YARN, MapReduce).
MapReduce : Comprendre le principe de MapReduce et son utilisation dans le traitement des données.
- Utilisation des fonctions map() et reduce().
- Couples (clés, valeurs) et leur gestion dans le cadre de MapReduce.
Travaux pratiques : Écrire et exécuter un programme MapReduce avec Hadoop.
Configuration des jobs : Optimisation des jobs MapReduce avec HDFS, gestion des entrées et sorties (InputFormat, OutputFormat).

Jour 2 : Outils Complémentaires et Streaming

Outils complémentaires : Utilisation de ToolRunner, accès aux systèmes externes (S3, HDFS, HAR).
Streaming : Définir et utiliser MapReduce Streaming avec Hadoop.
HBase : Présentation et manipulation de données avec HBase (création de tables, gestion des filtres, utilisation de MapReduce avec HBase).
Travaux pratiques : Manipulation de données avec HBase et utilisation de données structurées pour MapReduce.

Jour 3 : Hive et Spark

Hive : Simplification des requêtes avec HiveQL, intégration de HBase pour des requêtes SQL efficaces, automatisation des flux de données.
Introduction à Spark : Programmation de Big Data avec Spark (RDD, DataFrame, et streaming structuré).
- Machine Learning avec Spark ML : Appliquer des modèles d’apprentissage automatique à des données structurées.
Travaux pratiques : Exploiter des données CSV avec Spark et effectuer des analyses Big Data en utilisant SQL sur Spark.

Réf:

006

Tarif:

600 Dt

Niveau:

Fondamental

Classe à distance:

Possible

Réserver maintenant

Demande de devis