Abbeal

Banque tier-1 · Paris

Banque européenne : RAG hybride, coût d'inférence divisé par dix.

POC RAG à 10 000 €/mois. Architecture hybride local+cloud, cache, reranking. 900 €/mois à qualité égale.

KPI

/10

coût inférence mensuel

Durée

7 mois

Équipe

4 ingés

Hub(s)

Paris

Mistral 7BvLLMQdrantLangSmithAWS Bedrock

10 000 EUR par mois pour un RAG interne utilise par 40 personnes, c'est 250 EUR par utilisateur. A ce prix-la, autant embaucher un junior.

Le contexte

Banque europeenne tier-1, hub Paris, equipe innovation IA de 12 personnes. POC RAG interne pour assistance reglementaire et recherche documentaire (corpus de 280 000 documents). Tout sur GPT-4 via Azure OpenAI, pas de routing, pas de cache, pas d'evaluation systematique.

Le probleme

  • Cout mensuel : 10 200 EUR pour 40 utilisateurs actifs
  • Latence p95 : 4,1s, percue comme lente
  • Pas de mecanisme d'evaluation continue, qualite estimee subjectivement
  • Retrieval naif (cosine pure), beaucoup de contexte inutile injecte
  • Comite IT-Compliance bloque la generalisation tant que le cout n'est pas maitrise

L'approche

Architecture hybride par routing : un classificateur de complexite oriente la requete vers Mistral 7B fine-tune local pour 78% des cas (questions factuelles), et vers GPT-4 pour les 22% complexes (raisonnement multi-document, comparaisons reglementaires).

Les optimisations

  • Fine-tuning Mistral 7B sur 12 000 paires Q/R issues du corpus
  • Embedding cache (Redis) avec TTL adaptatif
  • Retrieval hybride : BM25 + dense, reranking cross-encoder
  • Evaluation continue : LangSmith + benchmark interne de 800 questions
  • Routing avec fallback automatique si confidence < seuil

La stack

  • Mistral 7B fine-tune (LoRA), serve via vLLM sur g5.xlarge
  • GPT-4 Turbo via AWS Bedrock pour cas complexes
  • Qdrant pour vector store (HNSW), Redis pour cache embeddings
  • LangSmith pour traces et evaluation
  • FastAPI pour orchestration

Les resultats

  1. Cout mensuel : 10 200 EUR vers 900 EUR (-91%)
  2. Latence p95 : 4,1s vers 1,2s
  3. Qualite (benchmark interne) : 87% vers 91% (mieux qu'avant)
  4. Utilisateurs actifs : 40 vers 320 en 4 mois post-rollout
  5. Comite Compliance : feu vert pour generalisation
« Abbeal nous a evite l'erreur classique de la banque : croire que parce que c'est cher, c'est forcement bon. Leur approche par mesure systematique a debloque trois ans de freins internes. »
Head of AI . Banque tier-1

Ce qu'on a appris

Le fine-tuning LoRA marche tres bien sur ce volume (12k paires), pas la peine de viser 100k. vLLM tient la charge mais demande un sizing GPU genereux pour la latence p99. Erreur : on a sous-estime le travail de constitution du benchmark d'evaluation (six semaines au lieu de deux). A refaire : commencer par le benchmark, c'est la boussole de tout le projet.

Un cas similaire chez vous ?

Parler à un architecte