Abbeal

AI

本番のAIエージェント:フランスの銀行から学んだ7つのパターン。

BNP、SocGen、フランス大手保険会社からのフィールドノート。COBOLコア、ACPR監査ログ、4ms p99予算に対してエージェントが動作する場合の変更点。

7 min

Hacker Newsで読む「本番のAIエージェント」記事のほとんどは、米国テック企業の視点で書かれています:グリーンフィールドのスタック、モダンなデータレイク、Stripeのようなエンジニアリング文化。欧州銀行のフロアでの現実は異なります。コアはCOBOL。監査証跡はACPRが義務付け。トレーディングデスクは交渉しないため、p99予算は4ミリ秒。BNP Paribas、Société Générale、フランス大手保険会社トップ3でAIエージェントを2年間出荷した後、機能する7つのパターンと、通常のデモが見逃すものをご紹介します。

1. メインフレームは敵ではない

コンサルのデッキはすべて「まずレガシーを近代化する」から始まります。銀行はノーと言います — そのメインフレームは1日8億トランザクションを99.999%の可用性で処理しており、触らせません。本番に出るパターン:メインフレームをグラフのノードとして扱う。COBOLプログラムをMQ Seriesアダプタでラップし、エージェントに決定論的ツールとして公開。エージェントはコアに書き込まず、読み、推論し、ドラフトし、人間が承認する。SocGenでクレジット事前審査アシスタント向けにこのパターンをデプロイ。意思決定までの時間が11分から90秒に短縮。メインフレームは無傷。監査人も満足。

2. ACPR監査証跡は機能ではなく、背骨である

フランスの銀行はACPR(健全性監督・破綻処理機構)に答えます。すべてのモデル決定は再現可能で、すべてのプロンプトはバージョン管理され、すべてのアウトプットは5年後の人間の検査官に説明可能でなければなりません。Evalスイートをnotionページに置くことはできません。監査証跡を最初に構築:各エージェント呼び出しが、プロンプトハッシュ、モデルバージョン、取得ドキュメント、アウトプット、人間オーバーライドステータスを含む構造化イベントを書き込む。月別にパーティション化されたwrite-onlyのPostgresテーブルを使用、S3 Glacierに複製。ACPRが来たら、SQLエンドポイントと説明ドキュメントを渡す。本番で2回実施し、6ヶ月の検査が2日のレビューに変わりました。

3. フォールバックチェーンは、明日プライマリモデルが欧州で禁止されることを想定する

パターンはよく知られていますが、欧州銀行のリスクプロファイルはこれを譲れないものにします。AnthropicはEUのデータレジデンシーを一夜にして失う可能性があります。OpenAIは金曜日の朝、トレーディングフロアが回答を必要としているときに毎分40kトークンでレート制限されます。Mistralはローカルで準拠していますが、ツール使用がより軽い。共有インターフェース背後に3つのプロバイダーをカスケードで配線 — Claude Sonnetを最初、GPT-4oを2番目、Mistral Largeを3番目 — プラスサーキットブレーカー、リトライ予算、プロバイダー別コスト上限。2月にAnthropicが90分間ぐらついたとき、BNPのコンプライアンスアシスタントはMistralで通常品質の92%で回答を続けました。チームはweekly ops reviewでインシデントを知りました。

4. Confluence上のRAGは劇場。Filenet上のRAGが本物の仕事

銀行はIBM Filenet、EMC Documentum、誰も完全に把握していないActive Directory ACLを持つオンプレSharePointクラスターに30年分の規制文書を持っています。最初の仕事はベクトル検索ではなく、Bank Secrecy Act、GDPR、内部の区画化を尊重するパーミッション対応インデクサーです。2層パイプラインを使用:インターネットを見ないサンドボックス化されたコンテナで抽出とチャンキング、次にrow-level securityを持つテナントスコープのベクトルストアにインデックス化。StripeとAnthropicはRAGアーキテクチャに関する優れた投稿を書いています。欧州銀行の上乗せ税金はアクセス制御層であり、MLよりも重い。

5. ヒューマンインザループを、レイテンシ予算上に、意図的に置く

アメリカのパターン:エージェントが行動し、すべてをログし、後で監査。フランス銀行のパターン:エージェントがドラフトし、人間が承認し、エージェントが行動。コストは1秒の追加レイテンシ。ベネフィットは出荷を許す規制当局。ある保険会社で人間承認ステップ自体を計装:人間がエージェントをオーバーライドする頻度は?どのドキュメントタイプで?承認までの時間分布は?3ヶ月後、自動承認するエージェント決定(信頼度 > 0.95の契約条項の84%)と、永遠に人間ゲート背後に保持するもの(生命保険引受に触れるもの)が分かりました。比率はユースケースごとに変わり、グローバル閾値ではありません。

6. コスト帰属はセールスツールであり、ファイナンスツールではない

「このエージェントは前四半期にリテール部門にいくら掛かったか」を火曜の朝までに答えられない場合、CFOはQ4前にプロジェクトを殺します。各LLM呼び出しを、tenant_id、business_unit、feature_id、prompt_hash、input_tokens、output_tokens、計算されたUSDコストでログ。コントローラーが財務計画ワークブックに引き込むチャージバックテーブルに毎晩集計。会話が「AIは高すぎる」から「リテールは先月18k€を費やし、420k€の追加契約をクローズしたエージェントを得た」に変わります。その会話が、プロジェクトを次の予算サイクルで生き残らせるものです。

7. Vercelスタイルのプレビュー環境がロードマップを救う

銀行は遅く出荷します。各リリースが火曜日に開かれるCAB(change advisory boards)を通るためです。Vercelのプレビューデプロイメントパターンを借りる:各PRが合成データとシャドウトラフィックで完全に分離されたエージェントスタックを生成。ステークホルダーはリンクをクリックし、電話でテストし、コメントを残す。CABに到達する頃には、ビジネスユーザーが承認するビデオ証拠を持っています。このパターンだけでSocGenのリリースサイクルを6週間から10日に短縮、コンプライアンス妥協なし。CABはまだ火曜日に会議します。議論することが少なくなっただけ。

これら7つのパターンは、フランス銀行の現実との接触で生き残るものです。どれも革命的ではありません。すべて、標準的なサンフランシスコ風AIエージェントプレイブックには欠けています。欧州のコンテキストを摩擦ではなく機能制約として扱えば、出荷できます。

似たような案件がありますか?

アーキテクトと話す