Banque tier-1 · Paris
Banque européenne : RAG hybride, coût d'inférence divisé par dix.
POC RAG à 10 000 €/mois. Architecture hybride local+cloud, cache, reranking. 900 €/mois à qualité égale.
KPI
/10
coût inférence mensuel
Durée
7 mois
Équipe
4 ingés
Hub(s)
Paris
10 000 EUR par mois pour un RAG interne utilise par 40 personnes, c'est 250 EUR par utilisateur. A ce prix-la, autant embaucher un junior.
Le contexte
Banque europeenne tier-1, hub Paris, equipe innovation IA de 12 personnes. POC RAG interne pour assistance reglementaire et recherche documentaire (corpus de 280 000 documents). Tout sur GPT-4 via Azure OpenAI, pas de routing, pas de cache, pas d'evaluation systematique.
Le probleme
- Cout mensuel : 10 200 EUR pour 40 utilisateurs actifs
- Latence p95 : 4,1s, percue comme lente
- Pas de mecanisme d'evaluation continue, qualite estimee subjectivement
- Retrieval naif (cosine pure), beaucoup de contexte inutile injecte
- Comite IT-Compliance bloque la generalisation tant que le cout n'est pas maitrise
L'approche
Architecture hybride par routing : un classificateur de complexite oriente la requete vers Mistral 7B fine-tune local pour 78% des cas (questions factuelles), et vers GPT-4 pour les 22% complexes (raisonnement multi-document, comparaisons reglementaires).
Les optimisations
- Fine-tuning Mistral 7B sur 12 000 paires Q/R issues du corpus
- Embedding cache (Redis) avec TTL adaptatif
- Retrieval hybride : BM25 + dense, reranking cross-encoder
- Evaluation continue : LangSmith + benchmark interne de 800 questions
- Routing avec fallback automatique si confidence < seuil
La stack
- Mistral 7B fine-tune (LoRA), serve via vLLM sur g5.xlarge
- GPT-4 Turbo via AWS Bedrock pour cas complexes
- Qdrant pour vector store (HNSW), Redis pour cache embeddings
- LangSmith pour traces et evaluation
- FastAPI pour orchestration
Les resultats
- Cout mensuel : 10 200 EUR vers 900 EUR (-91%)
- Latence p95 : 4,1s vers 1,2s
- Qualite (benchmark interne) : 87% vers 91% (mieux qu'avant)
- Utilisateurs actifs : 40 vers 320 en 4 mois post-rollout
- Comite Compliance : feu vert pour generalisation
« Abbeal nous a evite l'erreur classique de la banque : croire que parce que c'est cher, c'est forcement bon. Leur approche par mesure systematique a debloque trois ans de freins internes. »
Ce qu'on a appris
Le fine-tuning LoRA marche tres bien sur ce volume (12k paires), pas la peine de viser 100k. vLLM tient la charge mais demande un sizing GPU genereux pour la latence p99. Erreur : on a sous-estime le travail de constitution du benchmark d'evaluation (six semaines au lieu de deux). A refaire : commencer par le benchmark, c'est la boussole de tout le projet.
// À lire ensuite
Joaillerie & horlogerie de luxe · Genève + Paris + Tokyo
Cartier : de l'audit au LLM privé en interne.
Compass (audits archi front + back), Mapper (générateur produits horlogerie + joaillerie), ETL data concurrence sur BigQuery, et désormais un LLM privé fine-tuné sur l'infra Cartier. Un partenariat tech long-terme sur la stack data et IA d'une maison de luxe.
LLM privé
fine-tuné sur infra Cartier
Banque tier-1 · Paris
BNP Paribas : Reference Book PO, de React/Redux aux agents IA produits.
Trois ingénieurs Abbeal au cœur de la Marketplace PO. Plateforme React/Redux/Node initialement, désormais augmentée d'un RAG produits, d'agents Claude pour assistance PM, et d'une couche event-driven Kafka pour scaler.
RAG
catalog produits PO
Banking digitale / FinTech · Tokyo (Tamachi)
Money Forward : data backbone d'une nouvelle banque digitale à Tokyo.
Money Forward, leader FinTech japonais coté à Tokyo, s'est associé à un grand groupe bancaire japonais pour lancer une nouvelle banque digitale construite from-scratch. Abbeal accompagne sur le volet Data Engineering : conception et industrialisation du Data Hub (Databricks + Delta Lake + dbt + AWS Tokyo) qui sert le reporting JFSA, l'AML, le risk management.
Data Hub
digital bank from-scratch Tokyo
