loader image

Gate Training

logo-png
Big Data -BI

Formation Big Data : Architecture et Infrastructure

3 Jours

Découvrez les architectures Big Data modernes et apprenez à déployer des infrastructures performantes pour gérer de gros volumes de données. Cette formation vous permet de maîtriser les technologies clés comme Hadoop, Spark et NoSQL, et de comprendre l’impact des données sur les architectures distribuées. Formez-vous aux pratiques et aux outils indispensables pour réussir vos projets Big Data en Tunisie.

Description de la formation Big Data Architecture Infrastructure

Cette formation Big Data Architecture Infrastructure vous permet de comprendre en profondeur l’écosystème Big Data et l’infrastructure sous-jacente des projets Big Data. Vous apprendrez à maîtriser les concepts clés du Big Data en Tunisie, tout en découvrant comment la nature des données et leur volume impactent l’architecture des systèmes. Vous comprendrez les différences essentielles par rapport aux architectures traditionnelles telles que les serveurs, SGBD et systèmes de fichiers, et pourquoi des solutions comme NoSQL, Hadoop ou Spark sont devenues incontournables pour gérer des volumes massifs de données.

La gestion de la qualité des données est également un aspect essentiel de cette formation. Vous apprendrez à utiliser des outils comme les ETL, Master Data Management (MDM) et bases multiples pour garantir des données fiables et prêtes pour l’analyse. Nous aborderons également les aspects éthiques, juridiques et sécuritaires dans le cadre des projets Big Data.

Enfin, cette formation vous permet de découvrir les technologies Big Data modernes (comme Hadoop, Spark, NoSQL, etc.) et leur mise en œuvre dans des architectures distribuées performantes. Vous apprendrez à installer, configurer et sécuriser un cluster Hadoop et à déployer des applications Big Data en conditions réelles.

Objectifs

Objectif opérationnel :

Obtenez une vue d’ensemble des architectures Big Data et des infrastructures nécessaires pour le traitement de gros volumes de données.

Objectifs pédagogiques :

À l’issue de cette formation Big Data Architecture Infrastructure, vous aurez acquis les compétences suivantes :

  • Comprendre l’écosystème Big Data dans sa globalité : concepts, technologies, architectures.
  • Analyser les risques et les difficultés spécifiques aux projets Big Data.
  • Appréhender la provenance et le format des données manipulées.
  • Maîtriser les aspects de sécurité, éthique, et les enjeux juridiques.
  • Connaître les architectures distribuées dominantes du marché (comme Hadoop et Spark).
  • Se repérer parmi les technologies Big Data pour concevoir une architecture performante.
  • Mettre en œuvre un cluster Hadoop et l’exploiter efficacement.
  • Déployer une application Hadoop/Spark dans une architecture Big Data.

À qui s’adresse cette formation ?

Public :

Cette formation s’adresse principalement aux chefs de projet, développeurs, Data Engineers, Data Scientists, ainsi qu’à tout professionnel impliqué dans la conception et l’exploitation d’une architecture Big Data.

Elle pourra aussi intéresser des administrateurs de bases de données, architectes, ingénieurs systèmes ou toute personne souhaitant comprendre les bases d’une architecture Big Data en Tunisie.

Prérequis :

Il est recommandé d’avoir une culture générale des systèmes d’information et des connaissances de base en modèles relationnels (tables, lignes, colonnes, SQL simple) pour mieux appréhender les données non structurées et les références SQL.

Des bases en programmation et en statistiques seront également utiles pour mieux comprendre l’écosystème Big Data (notamment Hadoop, Spark).

Contenu du cours Big Data Architecture Infrastructure

Jour 1 : Introduction aux Projets Big Data et Concepts Clés

  • Les origines du Big Data et les enjeux associés à l’explosion des données.
  • Les différents types de données : structurées, semi-structurées et non structurées.
  • Les limites des architectures traditionnelles et la nécessité des solutions Big Data.
  • Définition d’un système Big Data : principes de fonctionnement.
  • Les enjeux de sécurité, éthique et juridique des données (données personnelles, sensibles, etc.).
  • Les bases NoSQL (MongoDB, Cassandra, etc.) et leur rôle dans l’architecture Big Data.

Travaux pratiques :

  • Analyse des risques d’un projet Big Data et compréhension des implications juridiques et éthiques.

Jour 2 : Architectures Distribuées et Gestion des Données

  • Problématiques des architectures distribuées : cohérence, disponibilité, tolérance aux pannes.
  • Paradigmes de calcul distribué : MapReduce, HDFS, etc.
  • Bases NoSQL et calcul distribué : clef-valeur, clef-colonne, orientée document, base graphe.
  • Qualité des données (data quality) et gestion des formats de données (CSV, XML, JSON, Avro, Parquet, etc.).
  • Master Data Management (MDM) : réconciliation des données Big Data avec les données décisionnelles.

Travaux pratiques :

  • Conception d’une architecture Big Data adaptée aux besoins d’une entreprise.
  • Utilisation d’un ETL pour formater des gros volumes de données.

Jour 3 : Mise en Œuvre d’un Cluster Hadoop et Déploiement de Traitements

  • Vue globale de l’écosystème Hadoop : Hive, HBase, Flume, Spark.
  • Installation et configuration d’un cluster Hadoop : Prérequis, gestion des logs, sécurité, supervision.
  • Surveillance de la charge du cluster et résolution des problèmes fréquents.
  • Comparaison Hadoop vs. Spark : Différences techniques et conceptuelles.
  • Déploiement d’un programme MapReduce avec Spark pour traiter de gros volumes de données.

Travaux pratiques :

  • Installation et déploiement d’un cluster Hadoop et traitement de données en conditions réelles.
Niveau:

Fondamental

Classe à distance:

Possible