Agents IA dans les banques françaises : 7 patterns côté production.

Notes de terrain BNP / Société Générale / assureur top 3 français. Ce qui change quand ton agent tourne contre des cores COBOL, des logs d'audit ACPR et un budget p99 de 4 ms.

Publié le 28 avril 2026Mis à jour le 29 mai 20267 min

La plupart des articles « agents IA en production » que tu lis sur Hacker News sortent d'une perspective tech US : stack greenfield, data lake moderne, culture engineering à la Stripe. La réalité dans les salles des marchés européennes est différente. Les cores sont en COBOL. Le journal d'audit est imposé par l'ACPR. Le budget p99 est de 4 millisecondes parce que la salle des marchés ne négocie pas. Après deux ans à livrer des agents IA chez BNP Paribas, Société Générale et un assureur top 3 français, voici sept patterns qui marchent — et que les démos habituelles ratent.

1. Le mainframe n'est pas ton ennemi

Tous les decks de consulting commencent par « on commence par moderniser le legacy ». La banque dit non — ce mainframe traite 800 millions de transactions par jour avec 5×9 de disponibilité, et tu n'y touches pas. Le pattern qui passe en prod : traiter le mainframe comme un nœud du graphe. Wrapper les programmes COBOL dans des adaptateurs MQ Series, les exposer à l'agent comme des outils déterministes. L'agent n'écrit jamais dans le core ; il lit, raisonne, rédige, et un humain valide. On a déployé ce pattern à la SocGen pour un assistant de pré-screening crédit. Le time-to-decision est passé de 11 minutes à 90 secondes. Mainframe intact. Auditeurs contents.

2. Le journal d'audit ACPR n'est pas une feature, c'est la colonne vertébrale

Les banques françaises répondent à l'ACPR (Autorité de contrôle prudentiel et de résolution). Chaque décision modèle doit être reproductible, chaque prompt versionné, chaque output explicable à un inspecteur humain dans cinq ans. Ta suite d'évals ne peut pas vivre dans une page Notion. Construis le journal d'audit en premier : chaque appel agent écrit un événement structuré avec hash du prompt, version du modèle, documents récupérés, output, statut d'override humain. On utilise une table Postgres write-only partitionnée par mois, répliquée vers S3 Glacier. L'ACPR débarque, tu leur tends un endpoint SQL et un document d'explication. On l'a fait deux fois en prod et ça a transformé des inspections de six mois en revues de deux jours.

3. Les chaînes de fallback supposent que ton modèle principal est banni en Europe demain matin

Le pattern est connu mais le profil de risque banking européen le rend non-négociable. Anthropic peut perdre son histoire de data residency EU du jour au lendemain ; OpenAI rate-limite à 40k tokens/min un vendredi matin où ta salle des marchés a besoin de réponses ; Mistral est conforme localement mais plus light sur le tool use. On câble trois providers en cascade derrière une interface partagée — Claude Sonnet d'abord, GPT-4o ensuite, Mistral Large en troisième — plus circuit breaker, retry budget et plafond de coût par provider. Quand Anthropic a hoqueté pendant 90 minutes en février, l'assistant compliance de BNP a continué à répondre à 92 % de la qualité normale, sur Mistral. L'équipe a appris l'incident dans notre weekly ops review.

4. Le RAG sur Confluence c'est du théâtre. Le RAG sur Filenet c'est le vrai boulot

Les banques ont 30 ans de documents réglementaires dans IBM Filenet, EMC Documentum, des clusters SharePoint on-prem avec des ACL Active Directory que personne ne maîtrise complètement. Le premier travail n'est pas la vector search — c'est un indexer permission-aware qui respecte le Bank Secrecy Act, le RGPD et le cloisonnement interne. On utilise un pipeline two-tier : extraction et chunking dans un container sandboxé qui ne voit jamais internet, puis indexation dans un vector store tenant-scoped avec row-level security. Stripe et Anthropic ont écrit d'excellents posts sur l'architecture RAG ; la taxe banking européenne en plus, c'est la couche access-control, et elle est plus lourde que le ML.

5. Mets l'humain dans la boucle, sur le budget de latence, à dessein

Le pattern américain : l'agent agit, on log tout, on audite plus tard. Le pattern banking français : l'agent rédige, l'humain valide, l'agent agit. Le coût : une seconde de latence en plus. Le bénéfice : un régulateur qui te laisse passer en prod. Chez un assureur on a instrumenté l'étape d'approbation humaine elle-même : à quelle fréquence l'humain override l'agent ? Sur quels types de documents ? Quelle distribution de time-to-approval ? Après trois mois on savait quelles décisions agent auto-approuver (84 % des clauses contractuelles avec confidence > 0,95) et lesquelles garder derrière une porte humaine pour toujours (tout ce qui touche à la souscription assurance vie). Le ratio se déplace par use case, pas selon un seuil global.

6. L'attribution des coûts est un outil de vente, pas un outil financier

Si tu ne sais pas répondre « combien cet agent a-t-il coûté à la division retail le trimestre dernier » mardi matin, le CFO tue le projet avant Q4. On logge chaque appel LLM avec tenant_id, business_unit, feature_id, prompt_hash, input_tokens, output_tokens et coût USD calculé. Agrégé chaque nuit dans une table de chargeback que le contrôleur pull dans le tableur de planification financière. La conversation passe de « l'IA c'est trop cher » à « le retail a dépensé 18 k€ le mois dernier pour un agent qui a closé 420 k€ de contrats additionnels ». Cette conversation, c'est ce qui fait survivre un projet au prochain cycle budgétaire.

7. Les preview environments façon Vercel sauvent ta roadmap

Les banques livrent lentement parce que chaque release passe par des CAB (change advisory boards) qui se réunissent le mardi. Emprunte le pattern preview-deployments de Vercel : chaque PR génère une stack agent complètement isolée avec données synthétiques et shadow traffic. Les stakeholders cliquent un lien, testent sur leur téléphone, laissent des commentaires. Au moment où tu arrives au CAB, tu as une preuve vidéo d'utilisateurs métier qui approuvent. On a coupé le cycle de release SocGen de six semaines à dix jours avec ce seul pattern, sans compromis compliance. Le CAB se réunit toujours le mardi. Ils ont juste moins à argumenter.

Ces sept patterns sont ce qui survit au contact avec la réalité banking française. Aucun n'est révolutionnaire ; tous sont absents du playbook agent IA standard à la sauce San Francisco. Si tu traites le contexte européen comme une feature contrainte plutôt qu'une friction, tu livres.

// À lire ensuite

Vous avez un projet qui ressemble à ça ?

Parler à un architecte