Mobilité urbaine · Paris + Montréal
Scale-up mobilité : −30 % de facture cloud, mêmes SLOs.
Facture AWS doublée en 18 mois sans trafic proportionnel. Audit GreenOps, refonte, Karpenter, ARM64. Résultat mesuré.
KPI
−30%
facture cloud
Durée
9 mois
Équipe
4 ingés
Hub(s)
Paris + Montréal
Une facture AWS qui double en 18 mois sans que le trafic suive : c'est rarement de la croissance, c'est de la dette d'architecture qui se paie cash.
Le contexte
Scale-up de mobilite urbaine, 180 personnes, hubs Paris et Montreal, 4 millions d'utilisateurs actifs. Plateforme micro-services en production depuis quatre ans, equipe plateforme de 12 ingenieurs. La direction financiere a tape du poing : la facture cloud annuelle depassait 2,1 M$ avec une croissance de trafic de 22% sur la meme periode.
Le probleme
- Spend AWS x2 en 18 mois pour un trafic +22%
- Aucun budget par equipe, pas de FinOps en place
- Sur-provisionnement systematique des nodes EKS (CPU moyen 14%)
- MTTR a 47 minutes, alerting bruyant, pas de tracing distribue
- Ingenieurs incapables d'attribuer un cout a un service
L'approche
Six semaines d'audit GreenOps, puis sept mois de remediation par incrementale. Pas de big bang, pas de re-platforming. On a commence par mesurer, puis par couper le gras evident, puis par repenser ce qui devait l'etre.
Les quatre chantiers
- Observabilite complete : Prometheus, Grafana, Tempo, attribution cout par namespace via Kubecost
- Migration Cluster Autoscaler vers Karpenter : packing serre, spot first, consolidation aggressive
- ARM64 Graviton sur 60% des workloads stateless apres benchmarks
- Scheduling intelligent : batchs de nuit sur spot interruptible, taints/tolerations remis a plat
La stack
- Go 1.22, Kubernetes 1.29 sur EKS
- Karpenter 0.34, Graviton2/3 (c7g, m7g)
- Prometheus, Grafana, Tempo, OpenTelemetry SDK
- Kubecost pour l'attribution, Terraform pour l'IaC
Les resultats
- Facture cloud : -30% a iso-SLO sur 9 mois (-630 k$/an)
- MTTR : 47 min vers 11 min (divise par 4)
- CPU moyen cluster : 14% vers 51%
- Trafic absorbe : +35% sans ajout de capacite
- Empreinte carbone estimee : -38% (rapport Scope 3 client)
« Abbeal nous a appris a regarder notre facture comme un signal d'ingenierie, pas comme une fatalite. On a recupere du budget pour reinvestir sur le produit. »
Ce qu'on a appris
Karpenter est un game changer mais demande de la rigueur sur les pod disruption budgets. ARM64 marche sur 60% des workloads, pas 100% : certains binaires C++ tiers nous ont resistes deux mois. Le vrai levier durable, c'est le FinOps embarque dans l'equipe : on a forme deux relais internes pour que la baisse tienne au-dela de notre depart.
// À lire ensuite
E-commerce sport · Paris
Leader sport : PWA, +18 % conversion mobile, Lighthouse 92.
Lighthouse mobile à 38, conversion en chute. Next.js App Router, edge, image, splitting. Livré en 6 mois.
+18%
conversion mobile
Robotique industrielle · Tokyo
Industriel japonais : 80 AGV, ROS 2, +40 % throughput entrepôt.
Flotte lente, collisions, downtime. Refonte Nav2, perception fusion, planification multi-agents. Zéro collision sur 6 mois.
+40%
throughput entrepôt
FinTech SaaS · Tri-geo
FinTech SaaS : ISO 27001 en 9 mois, zéro régression de vélocité.
Roadmap freezée par la certif. DevSecOps, IaC policies, Vault, runbook incidents. DORA reste elite.
9 mois
ISO 27001 (vs 18 estimé)
