Abbeal

Transport · Montréal

Opérateur canadien : 12 silos data → lakehouse, KPIs temps réel.

KPIs incohérents, dashboards en retard de 48h. Lakehouse Databricks, medallion, dbt, BI self-service.

KPI

60%

analystes autonomes

Durée

9 mois

Équipe

6 ingés

Hub(s)

Montréal

DatabricksdbtTableauAirflowAzure

Quand chaque departement vous donne un chiffre different pour le meme KPI, vous ne prenez pas des decisions : vous arbitrez entre les opinions.

Le contexte

Operateur de transport canadien, 11 000 collaborateurs, hub Montreal. 12 silos data historiques (operations, RH, finance, billettique, maintenance, etc.), data warehouse Oracle vieillissant, dashboards Excel envoyes par email.

Le probleme

  • 12 silos data sans gouvernance commune
  • KPIs incoherents entre departements (jusqu'a 18% d'ecart sur le meme indicateur)
  • Dashboards en retard de 48h, mises a jour manuelles
  • Aucun catalogue de donnees, doublons et definitions ambigues
  • Analystes bloques sur des extracts SQL, peu d'autonomie metier

L'approche

Data lakehouse Databricks avec architecture medallion (bronze/silver/gold), gouvernance Unity Catalog, transformations dbt versionnees, BI Tableau en self-service avec semantic layer.

Les piliers

  • Ingestion temps reel via Auto Loader (Kafka + fichiers)
  • Modelisation dimensionnelle dbt, tests de qualite obligatoires
  • Unity Catalog pour gouvernance, lineage, RBAC
  • Semantic layer expose a Tableau (definitions metier centralisees)
  • Programme d'enablement : 60% des analystes formes en 4 mois

La stack

  • Databricks Lakehouse Platform sur Azure
  • dbt Cloud pour transformations versionnees
  • Unity Catalog pour gouvernance et lineage
  • Tableau Cloud avec semantic layer
  • Apache Airflow pour orchestration ingestion

Les resultats

  1. Single source of truth : 100% des KPIs operationnels reconcilies
  2. Latence dashboards : 48h vers temps reel (sub-minute sur 80% des KPIs)
  3. Analystes autonomes : 60% en 4 mois (vs 12 vises)
  4. Couts data : -22% malgre x3 sur les volumes traites
  5. Data quality issues : -76% en 9 mois
« Pour la premiere fois en 15 ans, mes equipes operations et finance s'engueulent sur les leviers d'action, plus sur les chiffres. C'est ca le ROI d'une plateforme data. »
Head of Data . Operateur de transport canadien

Ce qu'on a appris

Unity Catalog est le vrai differenciateur de Databricks, pas le moteur Spark. dbt scale tres bien jusqu'a 800 modeles, au-dela il faut investir dans la modularisation. Erreur : on a livre la couche gold avant d'avoir consolide silver, retours en arriere couteux. A refaire : ne jamais ouvrir l'acces analyste avant d'avoir 90% de tests dbt verts. Sinon, tu perds la confiance et tu ne la recuperes pas.

Un cas similaire chez vous ?

Parler à un architecte