Banque tier-1 · Paris

Banque européenne : RAG hybride, coût d'inférence divisé par dix.

POC RAG à 10 000 €/mois. Architecture hybride local+cloud, cache, reranking. 900 €/mois à qualité égale.

KPI

/10

coût inférence mensuel

Durée

7 mois

Équipe

4 ingés

Hub(s)

Paris

Mistral 7BvLLMQdrantLangSmithAWS Bedrock

10 000 EUR par mois pour un RAG interne utilise par 40 personnes, c'est 250 EUR par utilisateur. A ce prix-la, autant embaucher un junior.

Le contexte

Banque europeenne tier-1, hub Paris, equipe innovation IA de 12 personnes. POC RAG interne pour assistance reglementaire et recherche documentaire (corpus de 280 000 documents). Tout sur GPT-4 via Azure OpenAI, pas de routing, pas de cache, pas d'evaluation systematique.

Le probleme

Cout mensuel : 10 200 EUR pour 40 utilisateurs actifs
Latence p95 : 4,1s, percue comme lente
Pas de mecanisme d'evaluation continue, qualite estimee subjectivement
Retrieval naif (cosine pure), beaucoup de contexte inutile injecte
Comite IT-Compliance bloque la generalisation tant que le cout n'est pas maitrise

L'approche

Architecture hybride par routing : un classificateur de complexite oriente la requete vers Mistral 7B fine-tune local pour 78% des cas (questions factuelles), et vers GPT-4 pour les 22% complexes (raisonnement multi-document, comparaisons reglementaires).

Les optimisations

Fine-tuning Mistral 7B sur 12 000 paires Q/R issues du corpus
Embedding cache (Redis) avec TTL adaptatif
Retrieval hybride : BM25 + dense, reranking cross-encoder
Evaluation continue : LangSmith + benchmark interne de 800 questions
Routing avec fallback automatique si confidence < seuil

La stack

Mistral 7B fine-tune (LoRA), serve via vLLM sur g5.xlarge
GPT-4 Turbo via AWS Bedrock pour cas complexes
Qdrant pour vector store (HNSW), Redis pour cache embeddings
LangSmith pour traces et evaluation
FastAPI pour orchestration

Les resultats

Cout mensuel : 10 200 EUR vers 900 EUR (-91%)
Latence p95 : 4,1s vers 1,2s
Qualite (benchmark interne) : 87% vers 91% (mieux qu'avant)
Utilisateurs actifs : 40 vers 320 en 4 mois post-rollout
Comite Compliance : feu vert pour generalisation

« Abbeal nous a evite l'erreur classique de la banque : croire que parce que c'est cher, c'est forcement bon. Leur approche par mesure systematique a debloque trois ans de freins internes. »

— Head of AI . Banque tier-1

Ce qu'on a appris

Le fine-tuning LoRA marche tres bien sur ce volume (12k paires), pas la peine de viser 100k. vLLM tient la charge mais demande un sizing GPU genereux pour la latence p99. Erreur : on a sous-estime le travail de constitution du benchmark d'evaluation (six semaines au lieu de deux). A refaire : commencer par le benchmark, c'est la boussole de tout le projet.

// À lire ensuite

Un cas similaire chez vous ?

Parler à un architecte