Dernière mise à jour : 27/01/2026
- Data analysts, data engineers et développeurs évoluant vers la data à l'échelle
- Équipes BI/IT souhaitant industrialiser l'analyse de données volumineuses
Jour 1 – Ingestion, stockage et préparation à l'échelle
Session du matin :
- Panorama Big Data pour l'analyse : cas d'usage, limites et bonnes pratiques
- Modélisation des zones de données (bronze/silver/gold) et data lake/lakehouse
- Formats et optimisation : Parquet/ORC, partitionnement, schémas et évolutions
Session de l'après-midi :
- Ingestion multi-sources (fichiers, API) et validation de schémas
- Préparation des données : nettoyage, jointures, agrégations, enrichissement
- Contrôles de qualité : règles, métriques et traçabilité
TP / Exercice :
Construire un pipeline d'ingestion et préparation d'un dataset volumineux (CSV/JSON → format colonne), avec contrôle qualité minimal. Livrables : scripts + diagramme de flux + rapport qualité.
Points clés & takeaways :
- Savoir choisir formats et stratégies d'ingestion adaptés au volume
- Maîtriser une chaîne de préparation reproductible et contrôlée
Jour 2 – Traitements distribués et orchestration
Session du matin :
- Traitements batch et streaming : principes, usages et arbitrages
- Notions de performance : partitions, parallélisme, coût vs latence
- Tests et observabilité : logs, métriques, profiling de jobs
Session de l'après-midi :
- Orchestration (ex. Airflow/Prefect) : DAG, dépendances, retries, SLA
- Mise en œuvre d'un job distribué sur échantillon réel (Spark/équivalent)
- Reprise après incident et idempotence
TP / Exercice :
Développer un workflow orchestré pour alimenter un datamart analytique (batch + micro-batch), avec métriques de performance. Livrables : DAG + code + tableau de métriques.
Points clés & takeaways :
- Capacité à exécuter et fiabiliser des traitements à l'échelle
- Mise en place d'une observabilité minimale utile à l'exploitation
Jour 3 – Visualisation, KPIs et restitution décisionnelle
Session du matin :
- Conception d'indicateurs : définitions, granularités, périodicités
- Bonnes pratiques de visualisation : choix de graphes et storytelling
- Publication et partage : data contracts, gouvernance et sécurité (aperçu)
Session de l'après-midi :
- Construction d'un tableau de bord de bout en bout (KPI, tendances, alertes)
- Documentation et checklist d'exploitation (rafraîchissement, qualité, coûts)
- Revue finale : limites, améliorations et feuille de route
TP / Exercice :
Créer un dashboard opérationnel alimenté par le pipeline J1–J2, incluant KPIs, filtres et alertes simples. Livrables : dashboard + note d'exploitation.
Points clés & takeaways :
- Produire des restitutions utiles et actionnables
- Relier pipeline, qualité et décision métier de façon cohérente
Docaposte Institute propose plusieurs dispositifs pédagogiques adaptés aux apprenants :
En amont de la formation :
Tout au long de la formation :
A la fin de la formation :