Banque tier-1 · Paris
Banque européenne : RAG hybride, coût d'inférence divisé par dix.
POC RAG à 10 000 €/mois. Architecture hybride local+cloud, cache, reranking. 900 €/mois à qualité égale.
KPI
/10
coût inférence mensuel
Durée
7 mois
Équipe
4 ingés
Hub(s)
Paris
10 000 EUR par mois pour un RAG interne utilise par 40 personnes, c'est 250 EUR par utilisateur. A ce prix-la, autant embaucher un junior.
Le contexte
Banque europeenne tier-1, hub Paris, equipe innovation IA de 12 personnes. POC RAG interne pour assistance reglementaire et recherche documentaire (corpus de 280 000 documents). Tout sur GPT-4 via Azure OpenAI, pas de routing, pas de cache, pas d'evaluation systematique.
Le probleme
- Cout mensuel : 10 200 EUR pour 40 utilisateurs actifs
- Latence p95 : 4,1s, percue comme lente
- Pas de mecanisme d'evaluation continue, qualite estimee subjectivement
- Retrieval naif (cosine pure), beaucoup de contexte inutile injecte
- Comite IT-Compliance bloque la generalisation tant que le cout n'est pas maitrise
L'approche
Architecture hybride par routing : un classificateur de complexite oriente la requete vers Mistral 7B fine-tune local pour 78% des cas (questions factuelles), et vers GPT-4 pour les 22% complexes (raisonnement multi-document, comparaisons reglementaires).
Les optimisations
- Fine-tuning Mistral 7B sur 12 000 paires Q/R issues du corpus
- Embedding cache (Redis) avec TTL adaptatif
- Retrieval hybride : BM25 + dense, reranking cross-encoder
- Evaluation continue : LangSmith + benchmark interne de 800 questions
- Routing avec fallback automatique si confidence < seuil
La stack
- Mistral 7B fine-tune (LoRA), serve via vLLM sur g5.xlarge
- GPT-4 Turbo via AWS Bedrock pour cas complexes
- Qdrant pour vector store (HNSW), Redis pour cache embeddings
- LangSmith pour traces et evaluation
- FastAPI pour orchestration
Les resultats
- Cout mensuel : 10 200 EUR vers 900 EUR (-91%)
- Latence p95 : 4,1s vers 1,2s
- Qualite (benchmark interne) : 87% vers 91% (mieux qu'avant)
- Utilisateurs actifs : 40 vers 320 en 4 mois post-rollout
- Comite Compliance : feu vert pour generalisation
« Abbeal nous a evite l'erreur classique de la banque : croire que parce que c'est cher, c'est forcement bon. Leur approche par mesure systematique a debloque trois ans de freins internes. »
Ce qu'on a appris
Le fine-tuning LoRA marche tres bien sur ce volume (12k paires), pas la peine de viser 100k. vLLM tient la charge mais demande un sizing GPU genereux pour la latence p99. Erreur : on a sous-estime le travail de constitution du benchmark d'evaluation (six semaines au lieu de deux). A refaire : commencer par le benchmark, c'est la boussole de tout le projet.
// À lire ensuite
Mobilité urbaine · Paris + Montréal
Scale-up mobilité : −30 % de facture cloud, mêmes SLOs.
Facture AWS doublée en 18 mois sans trafic proportionnel. Audit GreenOps, refonte, Karpenter, ARM64. Résultat mesuré.
−30%
facture cloud
E-commerce sport · Paris
Leader sport : PWA, +18 % conversion mobile, Lighthouse 92.
Lighthouse mobile à 38, conversion en chute. Next.js App Router, edge, image, splitting. Livré en 6 mois.
+18%
conversion mobile
Robotique industrielle · Tokyo
Industriel japonais : 80 AGV, ROS 2, +40 % throughput entrepôt.
Flotte lente, collisions, downtime. Refonte Nav2, perception fusion, planification multi-agents. Zéro collision sur 6 mois.
+40%
throughput entrepôt
