Prérequis
Avoir suivi le Bloc 1 ou maîtriser Fabric, OneLake, Dataflows Gen2 et Data Factory. Connaissances en SQL, datawarehousing et Python (indispensable pour la partie Spark).
Durée
4 jours
Contenu Technique de la Formation
La formation aborde les contenus techniques suivants :
- Ingestion et transformation avancées avec Spark
- Optimisation des performances et partitionnement Delta Lake
- DevOps et gouvernance dans Microsoft Fabric
- Patterns avancés : CDC, SCD, streaming
Objectifs de la Formation
Les objectifs visés par cette formation sont :
- Implémenter les techniques avancées d’ingestion et de transformation : CDC, Upsert, Merge, SCD Type 2.
- Exploiter Spark et les Notebooks pour les flux ETL complexes.
- Créer et optimiser des modèles sémantiques dans Fabric.
- Optimiser les performances (partitionnement, Delta, cache).
- Mettre en place le versioning Git et utiliser les Deployment Pipelines.
- Intégrer les pratiques DevOps et la gouvernance dans les projets data.
Table des Matières
Techniques avancées d’ingestion et de transformation
- CDC complet : logique, pipelines, cas d’usage.
- Upsert, Merge, gestion des duplicats.
- Implémentation d’un SCD Type 2 complet.
- Construction des zones Silver/Gold avancées.
- Création des modèles sémantiques dans Fabric.
Pro-Code avec Spark
- Introduction aux Notebooks Fabric et à l’environnement Spark.
- Lecture/écriture dans OneLake via Parquet et Delta Lake.
- Optimisation des traitements Spark (cache, partitions).
- Développement d’ETL complexes : joins, pipelines orientés performance.
Performance & optimisation
- Choix des formats et organisation du Lake.
- Indexation, partitionnement, clustering.
- Monitoring des performances Spark et Data Factory.
- Stratégies de réduction des coûts et optimisation du temps d’exécution.
DevOps & Gouvernance
- Intégration Git : versioning, branches, collaboration.
- Deployment Pipelines : promotion Dev → Test → Prod.
- Gouvernance de Fabric : accès, sécurité, RBAC, DataLineage.
- Bonnes pratiques d’industrialisation et exploitation.
En Pratique
- Mise en œuvre d’un pipeline avancé intégrant CDC + SCD Type 2.
- Développement d’un ETL Spark complet.
- Création d’un modèle sémantique Fabric avec optimisation.
- Intégration Git : push, branches, gestion des versions.
- Mise en place d’un Deployment Pipeline et d’un flux Dev → Test → Prod.
Modalités et Inscription
Cette formation est proposée selon deux formules pour s'adapter au mieux à vos besoins :
Session régulière
Des sessions sont organisées à intervalles réguliers. Demandez les prochaines dates planifiées pour vous inscrire à la prochaine session.
Sur mesure & intra-entreprise
Vous souhaitez former vos équipes directement dans vos locaux ou adapter le programme technique à votre contexte d'entreprise ? Contactez-nous pour obtenir un devis personnalisé.