Agents IA dans les banques françaises : 7 patrons côté production.

Notes de terrain BNP / Société Générale / assureur top 3 français. Ce qui change quand ton agent tourne contre des noyaux COBOL, des journaux d'audit ACPR et un budget p99 de 4 ms.

Publié le 28 avril 2026Mis à jour le 29 mai 20267 min

La plupart des articles « agents IA en production » que tu lis sur Hacker News sortent d'une perspective techno US : stack greenfield, lac de données moderne, culture d'ingénierie à la Stripe. La réalité dans les salles des marchés européennes est différente. Les noyaux sont en COBOL. Le journal d'audit est imposé par l'ACPR. Le budget p99 est de 4 millisecondes parce que la salle des marchés ne négocie pas. Après deux ans à livrer des agents IA chez BNP Paribas, Société Générale et un assureur top 3 français, voici sept patrons qui fonctionnent — et que les démos habituelles ratent.

1. Le mainframe n'est pas ton ennemi

Tous les decks de consultation commencent par « on commence par moderniser le legacy ». La banque dit non — ce mainframe traite 800 millions de transactions par jour avec 5×9 de disponibilité, et tu n'y touches pas. Le patron qui passe en prod : traiter le mainframe comme un nœud du graphe. Encapsuler les programmes COBOL dans des adaptateurs MQ Series, les exposer à l'agent comme des outils déterministes. L'agent n'écrit jamais dans le noyau ; il lit, raisonne, rédige, et un humain valide. On a déployé ce patron à la SocGen pour un assistant de pré-screening crédit. Le délai de décision est passé de 11 minutes à 90 secondes. Mainframe intact. Auditeurs contents.

2. Le journal d'audit ACPR n'est pas une fonctionnalité, c'est la colonne vertébrale

Les banques françaises répondent à l'ACPR (Autorité de contrôle prudentiel et de résolution). Chaque décision modèle doit être reproductible, chaque prompt versionné, chaque sortie explicable à un inspecteur humain dans cinq ans. Ta suite d'évaluations ne peut pas vivre dans une page Notion. Construis le journal d'audit en premier : chaque appel agent écrit un événement structuré avec hachage du prompt, version du modèle, documents récupérés, sortie, statut de surclassement humain. On utilise une table Postgres write-only partitionnée par mois, répliquée vers S3 Glacier. L'ACPR débarque, tu leur tends un endpoint SQL et un document d'explication. On l'a fait deux fois en prod et ça a transformé des inspections de six mois en revues de deux jours.

3. Les chaînes de repli supposent que ton modèle principal est banni en Europe demain matin

Le patron est connu mais le profil de risque bancaire européen le rend non négociable. Anthropic peut perdre son histoire de résidence des données UE du jour au lendemain ; OpenAI rate-limite à 40k jetons/min un vendredi matin où ta salle des marchés a besoin de réponses ; Mistral est conforme localement mais plus léger sur l'utilisation d'outils. On câble trois fournisseurs en cascade derrière une interface partagée — Claude Sonnet d'abord, GPT-4o ensuite, Mistral Large en troisième — plus disjoncteur, budget de réessai et plafond de coût par fournisseur. Quand Anthropic a hoqueté pendant 90 minutes en février, l'assistant conformité de BNP a continué à répondre à 92 % de la qualité normale, sur Mistral. L'équipe a appris l'incident dans notre revue ops hebdomadaire.

4. Le RAG sur Confluence c'est du théâtre. Le RAG sur Filenet c'est le vrai boulot

Les banques ont 30 ans de documents réglementaires dans IBM Filenet, EMC Documentum, des grappes SharePoint sur place avec des ACL Active Directory que personne ne maîtrise complètement. Le premier travail n'est pas la recherche vectorielle — c'est un indexeur conscient des permissions qui respecte le Bank Secrecy Act, le RGPD et le cloisonnement interne. On utilise une pipeline à deux niveaux : extraction et chunking dans un conteneur isolé qui ne voit jamais internet, puis indexation dans un magasin vectoriel à portée locataire avec sécurité au niveau des lignes. Stripe et Anthropic ont écrit d'excellents articles sur l'architecture RAG ; la taxe bancaire européenne en plus, c'est la couche de contrôle d'accès, et elle est plus lourde que le ML.

5. Mets l'humain dans la boucle, sur le budget de latence, à dessein

Le patron américain : l'agent agit, on log tout, on audite plus tard. Le patron bancaire français : l'agent rédige, l'humain valide, l'agent agit. Le coût : une seconde de latence en plus. Le bénéfice : un régulateur qui te laisse passer en prod. Chez un assureur on a instrumenté l'étape d'approbation humaine elle-même : à quelle fréquence l'humain surclasse l'agent ? Sur quels types de documents ? Quelle distribution de délai d'approbation ? Après trois mois on savait quelles décisions agent auto-approuver (84 % des clauses contractuelles avec confiance > 0,95) et lesquelles garder derrière une porte humaine pour toujours (tout ce qui touche à la souscription d'assurance vie). Le ratio se déplace par cas d'usage, pas selon un seuil global.

6. L'attribution des coûts est un outil de vente, pas un outil financier

Si tu ne sais pas répondre « combien cet agent a-t-il coûté à la division retail le trimestre dernier » mardi matin, le directeur financier tue le projet avant Q4. On enregistre chaque appel LLM avec tenant_id, business_unit, feature_id, prompt_hash, input_tokens, output_tokens et coût USD calculé. Agrégé chaque nuit dans une table de refacturation que le contrôleur tire dans le tableur de planification financière. La conversation passe de « l'IA c'est trop cher » à « le retail a dépensé 18 k€ le mois dernier pour un agent qui a clos 420 k€ de contrats additionnels ». Cette conversation, c'est ce qui fait survivre un projet au prochain cycle budgétaire.

7. Les environnements de prévisualisation façon Vercel sauvent ta feuille de route

Les banques livrent lentement parce que chaque mise en production passe par des CAB (change advisory boards) qui se réunissent le mardi. Emprunte le patron de prévisualisations de déploiement de Vercel : chaque PR génère une pile agent complètement isolée avec données synthétiques et trafic fantôme. Les parties prenantes cliquent un lien, testent sur leur téléphone, laissent des commentaires. Au moment où tu arrives au CAB, tu as une preuve vidéo d'utilisateurs d'affaires qui approuvent. On a coupé le cycle de mise en production SocGen de six semaines à dix jours avec ce seul patron, sans compromis sur la conformité. Le CAB se réunit toujours le mardi. Ils ont juste moins à argumenter.

Ces sept patrons sont ce qui survit au contact avec la réalité bancaire française. Aucun n'est révolutionnaire ; tous sont absents du playbook agent IA standard à la sauce San Francisco. Si tu traites le contexte européen comme une contrainte de fonctionnalité plutôt qu'une friction, tu livres.

// À lire ensuite

Tu as un projet qui ressemble à ça ?

Parler à un architecte