Transport · Montréal
Opérateur canadien : 12 silos data → lakehouse, KPIs temps réel.
KPIs incohérents, dashboards en retard de 48h. Lakehouse Databricks, medallion, dbt, BI self-service.
KPI
60%
analystes autonomes
Durée
9 mois
Équipe
6 ingés
Hub(s)
Montréal
Quand chaque departement vous donne un chiffre different pour le meme KPI, vous ne prenez pas des decisions : vous arbitrez entre les opinions.
Le contexte
Operateur de transport canadien, 11 000 collaborateurs, hub Montreal. 12 silos data historiques (operations, RH, finance, billettique, maintenance, etc.), data warehouse Oracle vieillissant, dashboards Excel envoyes par email.
Le probleme
- 12 silos data sans gouvernance commune
- KPIs incoherents entre departements (jusqu'a 18% d'ecart sur le meme indicateur)
- Dashboards en retard de 48h, mises a jour manuelles
- Aucun catalogue de donnees, doublons et definitions ambigues
- Analystes bloques sur des extracts SQL, peu d'autonomie metier
L'approche
Data lakehouse Databricks avec architecture medallion (bronze/silver/gold), gouvernance Unity Catalog, transformations dbt versionnees, BI Tableau en self-service avec semantic layer.
Les piliers
- Ingestion temps reel via Auto Loader (Kafka + fichiers)
- Modelisation dimensionnelle dbt, tests de qualite obligatoires
- Unity Catalog pour gouvernance, lineage, RBAC
- Semantic layer expose a Tableau (definitions metier centralisees)
- Programme d'enablement : 60% des analystes formes en 4 mois
La stack
- Databricks Lakehouse Platform sur Azure
- dbt Cloud pour transformations versionnees
- Unity Catalog pour gouvernance et lineage
- Tableau Cloud avec semantic layer
- Apache Airflow pour orchestration ingestion
Les resultats
- Single source of truth : 100% des KPIs operationnels reconcilies
- Latence dashboards : 48h vers temps reel (sub-minute sur 80% des KPIs)
- Analystes autonomes : 60% en 4 mois (vs 12 vises)
- Couts data : -22% malgre x3 sur les volumes traites
- Data quality issues : -76% en 9 mois
« Pour la premiere fois en 15 ans, mes equipes operations et finance s'engueulent sur les leviers d'action, plus sur les chiffres. C'est ca le ROI d'une plateforme data. »
Ce qu'on a appris
Unity Catalog est le vrai differenciateur de Databricks, pas le moteur Spark. dbt scale tres bien jusqu'a 800 modeles, au-dela il faut investir dans la modularisation. Erreur : on a livre la couche gold avant d'avoir consolide silver, retours en arriere couteux. A refaire : ne jamais ouvrir l'acces analyste avant d'avoir 90% de tests dbt verts. Sinon, tu perds la confiance et tu ne la recuperes pas.
// À lire ensuite
Joaillerie & horlogerie de luxe · Genève + Paris + Tokyo
Cartier : de l'audit au LLM privé en interne.
Compass (audits archi front + back), Mapper (générateur produits horlogerie + joaillerie), ETL data concurrence sur BigQuery, et désormais un LLM privé fine-tuné sur l'infra Cartier. Un partenariat tech long-terme sur la stack data et IA d'une maison de luxe.
LLM privé
fine-tuné sur infra Cartier
Banque tier-1 · Paris
BNP Paribas : Reference Book PO, de React/Redux aux agents IA produits.
Trois ingénieurs Abbeal au cœur de la Marketplace PO. Plateforme React/Redux/Node initialement, désormais augmentée d'un RAG produits, d'agents Claude pour assistance PM, et d'une couche event-driven Kafka pour scaler.
RAG
catalog produits PO
Banking digitale / FinTech · Tokyo (Tamachi)
Money Forward : data backbone d'une nouvelle banque digitale à Tokyo.
Money Forward, leader FinTech japonais coté à Tokyo, s'est associé à un grand groupe bancaire japonais pour lancer une nouvelle banque digitale construite from-scratch. Abbeal accompagne sur le volet Data Engineering : conception et industrialisation du Data Hub (Databricks + Delta Lake + dbt + AWS Tokyo) qui sert le reporting JFSA, l'AML, le risk management.
Data Hub
digital bank from-scratch Tokyo
