Transport · Montréal

Opérateur canadien : 12 silos data → lakehouse, KPIs temps réel.

KPIs incohérents, dashboards en retard de 48h. Lakehouse Databricks, medallion, dbt, BI self-service.

KPI

60%

analystes autonomes

Durée

9 mois

Équipe

6 ingés

Hub(s)

Montréal

DatabricksdbtTableauAirflowAzure

Quand chaque departement vous donne un chiffre different pour le meme KPI, vous ne prenez pas des decisions : vous arbitrez entre les opinions.

Le contexte

Operateur de transport canadien, 11 000 collaborateurs, hub Montreal. 12 silos data historiques (operations, RH, finance, billettique, maintenance, etc.), data warehouse Oracle vieillissant, dashboards Excel envoyes par email.

Le probleme

12 silos data sans gouvernance commune
KPIs incoherents entre departements (jusqu'a 18% d'ecart sur le meme indicateur)
Dashboards en retard de 48h, mises a jour manuelles
Aucun catalogue de donnees, doublons et definitions ambigues
Analystes bloques sur des extracts SQL, peu d'autonomie metier

L'approche

Data lakehouse Databricks avec architecture medallion (bronze/silver/gold), gouvernance Unity Catalog, transformations dbt versionnees, BI Tableau en self-service avec semantic layer.

Les piliers

Ingestion temps reel via Auto Loader (Kafka + fichiers)
Modelisation dimensionnelle dbt, tests de qualite obligatoires
Unity Catalog pour gouvernance, lineage, RBAC
Semantic layer expose a Tableau (definitions metier centralisees)
Programme d'enablement : 60% des analystes formes en 4 mois

La stack

Databricks Lakehouse Platform sur Azure
dbt Cloud pour transformations versionnees
Unity Catalog pour gouvernance et lineage
Tableau Cloud avec semantic layer
Apache Airflow pour orchestration ingestion

Les resultats

Single source of truth : 100% des KPIs operationnels reconcilies
Latence dashboards : 48h vers temps reel (sub-minute sur 80% des KPIs)
Analystes autonomes : 60% en 4 mois (vs 12 vises)
Couts data : -22% malgre x3 sur les volumes traites
Data quality issues : -76% en 9 mois

« Pour la premiere fois en 15 ans, mes equipes operations et finance s'engueulent sur les leviers d'action, plus sur les chiffres. C'est ca le ROI d'une plateforme data. »

— Head of Data . Operateur de transport canadien

Ce qu'on a appris

Unity Catalog est le vrai differenciateur de Databricks, pas le moteur Spark. dbt scale tres bien jusqu'a 800 modeles, au-dela il faut investir dans la modularisation. Erreur : on a livre la couche gold avant d'avoir consolide silver, retours en arriere couteux. A refaire : ne jamais ouvrir l'acces analyste avant d'avoir 90% de tests dbt verts. Sinon, tu perds la confiance et tu ne la recuperes pas.

// À lire ensuite

Un cas similaire chez vous ?

Parler à un architecte