RAG en production : de 10 000 € à 900 € par mois.

Une banque européenne, un pipeline RAG, une stratégie hybride. Comment on a divisé les coûts d'inférence par dix.

10 mars 20268 min

Une banque européenne, 50 000 collaborateurs, un assistant interne de recherche documentaire en RAG. Première version livrée par un cabinet concurrent : 10 200 euros par jour de coût d'inférence, 87 % d'uptime, et une latence p95 à 14 secondes. Inacceptable. Nous avons repris le projet. Six semaines plus tard : 900 euros par jour, 99.7 % d'uptime, p95 à 1.8 seconde. Voici comment.

Le diagnostic : tout passe par GPT-4

L'architecture initiale envoyait chaque requête utilisateur, brute, à GPT-4 pour : (1) la reformuler, (2) router vers les bons documents, (3) re-ranker les résultats, (4) générer la réponse. Quatre appels LLM premium par requête, dont trois inutiles.

L'architecture hybride

Notre principe : un petit modèle local pour tout ce qui peut l'être, un LLM externe seulement pour le last mile. Concrètement, sur ce projet :

Reformulation et expansion de requête : Mistral 7B fine-tuné, hébergé sur GPU A10 interne. Coût marginal nul.
Embedding et recherche vectorielle : bge-m3, base Pinecone managée, ~50 ms par requête.
Re-ranking : cross-encoder MiniLM-L6 local, top-50 vers top-5 en 80 ms.
Génération finale : Anthropic Claude Sonnet 4 sur les 5 documents les plus pertinents uniquement.

Le pipeline complet

python
from anthropic import Anthropic
from local_models import MistralReformulator, BgeEmbedder, MiniLMReranker
from pinecone import Index

async def rag_query(user_query: str, tenant_id: str) -> str:
    # Étape 1-3 : 100 % local, ~250 ms
    reformulated = await MistralReformulator.expand(user_query)
    embeddings = await BgeEmbedder.encode(reformulated)
    candidates = await Index('bank-docs').query(embeddings, top_k=50, filter={'tenant': tenant_id})
    top_5 = await MiniLMReranker.rank(user_query, candidates, k=5)
    
    # Étape 4 : LLM externe uniquement sur le last mile
    return await Anthropic().messages.create(
        model='claude-sonnet-4-20250514',
        max_tokens=800,
        messages=[{'role': 'user', 'content': build_prompt(user_query, top_5)}]
    )

GDPR native, pas en patch

Les modèles locaux tournent dans le VPC de la banque, à Francfort. Aucune donnée client ne sort vers l'API Anthropic sans avoir été préalablement filtrée par un classifieur de PII (Microsoft Presidio fine-tuné). Les prompts envoyés à Claude sont loggés, hashés, audités. La banque peut produire un audit trail complet en moins de quatre heures.

Observabilité : on mesure tout

Datadog LLM Observability sur chaque span : latence par étape, coût par requête et par tenant, taux de fallback, qualité (mesurée par éval automatique sur un golden dataset de 800 questions hebdomadaires). Les alertes se déclenchent si le coût par requête dérive de plus de 15 % sur 24 heures.

Les chiffres finaux

Coût d'inférence : 10 200 euros/jour → 900 euros/jour (-91 %).
Uptime : 87 % → 99.7 %.
Latence p95 : 14 secondes → 1.8 seconde.
NPS interne utilisateurs : 11 → 68.
Conformité GDPR + DORA : audit passé en novembre 2025.

« Le piège du RAG d'entreprise, c'est de croire que GPT-4 fait tout. Le vrai design, c'est de décider ce que GPT-4 ne doit surtout pas faire. »

— Lead IA Abbeal

Le RAG en production n'est pas un problème de modèle, c'est un problème d'architecture. Si votre PoC RAG vous coûte un bras et tient mal la charge, l'architecture hybride résout généralement les deux à la fois. Nos équipes savent la déployer.

// À lire ensuite

Vous avez un projet qui ressemble à ça ?

Parler à un architecte