Abbeal

Mobilité urbaine · Paris + Montréal

Scale-up mobilité : −30 % de facture cloud, mêmes SLOs.

Facture AWS doublée en 18 mois sans trafic proportionnel. Audit GreenOps, refonte, Karpenter, ARM64. Résultat mesuré.

KPI

−30%

facture cloud

Durée

9 mois

Équipe

4 ingés

Hub(s)

Paris + Montréal

GoKubernetesKarpenterPrometheusOpenTelemetry

Une facture AWS qui double en 18 mois sans que le trafic suive : c'est rarement de la croissance, c'est de la dette d'architecture qui se paie cash.

Le contexte

Scale-up de mobilite urbaine, 180 personnes, hubs Paris et Montreal, 4 millions d'utilisateurs actifs. Plateforme micro-services en production depuis quatre ans, equipe plateforme de 12 ingenieurs. La direction financiere a tape du poing : la facture cloud annuelle depassait 2,1 M$ avec une croissance de trafic de 22% sur la meme periode.

Le probleme

  • Spend AWS x2 en 18 mois pour un trafic +22%
  • Aucun budget par equipe, pas de FinOps en place
  • Sur-provisionnement systematique des nodes EKS (CPU moyen 14%)
  • MTTR a 47 minutes, alerting bruyant, pas de tracing distribue
  • Ingenieurs incapables d'attribuer un cout a un service

L'approche

Six semaines d'audit GreenOps, puis sept mois de remediation par incrementale. Pas de big bang, pas de re-platforming. On a commence par mesurer, puis par couper le gras evident, puis par repenser ce qui devait l'etre.

Les quatre chantiers

  • Observabilite complete : Prometheus, Grafana, Tempo, attribution cout par namespace via Kubecost
  • Migration Cluster Autoscaler vers Karpenter : packing serre, spot first, consolidation aggressive
  • ARM64 Graviton sur 60% des workloads stateless apres benchmarks
  • Scheduling intelligent : batchs de nuit sur spot interruptible, taints/tolerations remis a plat

La stack

  • Go 1.22, Kubernetes 1.29 sur EKS
  • Karpenter 0.34, Graviton2/3 (c7g, m7g)
  • Prometheus, Grafana, Tempo, OpenTelemetry SDK
  • Kubecost pour l'attribution, Terraform pour l'IaC

Les resultats

  1. Facture cloud : -30% a iso-SLO sur 9 mois (-630 k$/an)
  2. MTTR : 47 min vers 11 min (divise par 4)
  3. CPU moyen cluster : 14% vers 51%
  4. Trafic absorbe : +35% sans ajout de capacite
  5. Empreinte carbone estimee : -38% (rapport Scope 3 client)
« Abbeal nous a appris a regarder notre facture comme un signal d'ingenierie, pas comme une fatalite. On a recupere du budget pour reinvestir sur le produit. »
CTO . Scale-up mobilite urbaine

Ce qu'on a appris

Karpenter est un game changer mais demande de la rigueur sur les pod disruption budgets. ARM64 marche sur 60% des workloads, pas 100% : certains binaires C++ tiers nous ont resistes deux mois. Le vrai levier durable, c'est le FinOps embarque dans l'equipe : on a forme deux relais internes pour que la baisse tienne au-dela de notre depart.

Un cas similaire chez vous ?

Parler à un architecte