IA
本番のRAG:月額10,000ユーロから900ユーロへ。
欧州銀行、RAGパイプライン、ハイブリッド戦略。推論コストを10分の1にした方法。
欧州銀行、50,000人の従業員、RAG社内ドキュメント検索アシスタント。競合コンサル会社が納品した初版:推論コスト1日10,200ユーロ、稼働率87%、p95レイテンシ14秒。容認不可。プロジェクトを引き継ぎました。6週間後:1日900ユーロ、稼働率99.7%、p95は1.8秒。その方法を紹介します。
診断:すべてがGPT-4を通過
初期アーキテクチャは、すべてのユーザークエリを生でGPT-4に送信:(1)リフレーズ、(2)正しいドキュメントへのルーティング、(3)結果のリランキング、(4)回答生成。リクエストごとに4回のプレミアムLLMコール、うち3回は不要。
ハイブリッドアーキテクチャ
原則:ローカルで可能なものはすべて小型ローカルモデル、最終マイルのみ外部LLM。具体的に、このプロジェクトでは:
- クエリリフレーズと拡張:ファインチューンMistral 7B、社内A10 GPUホスト。限界費用ゼロ。
- エンベディングとベクトル検索:bge-m3、マネージドPineconeデータベース、リクエストあたり約50ms。
- リランキング:ローカルMiniLM-L6クロスエンコーダ、トップ50からトップ5まで80ms。
- 最終生成:最も関連性の高い5ドキュメントのみでAnthropic Claude Sonnet 4。
完全なパイプライン
pythonfrom anthropic import Anthropic from local_models import MistralReformulator, BgeEmbedder, MiniLMReranker from pinecone import Index async def rag_query(user_query: str, tenant_id: str) -> str: # Étape 1-3 : 100 % local, ~250 ms reformulated = await MistralReformulator.expand(user_query) embeddings = await BgeEmbedder.encode(reformulated) candidates = await Index('bank-docs').query(embeddings, top_k=50, filter={'tenant': tenant_id}) top_5 = await MiniLMReranker.rank(user_query, candidates, k=5) # Étape 4 : LLM externe uniquement sur le last mile return await Anthropic().messages.create( model='claude-sonnet-4-20250514', max_tokens=800, messages=[{'role': 'user', 'content': build_prompt(user_query, top_5)}] )
GDPRネイティブ、パッチではない
ローカルモデルは銀行のVPC、フランクフルトで稼働。クライアントデータはPII分類器(ファインチューンMicrosoft Presidio)によって事前フィルタリングされずにAnthropic APIに出ません。Claudeに送られるプロンプトはログ、ハッシュ、監査されます。銀行は4時間未満で完全な監査証跡を生成できます。
可観測性:すべてを測定
各スパンでDatadog LLM Observability:ステップごとのレイテンシ、リクエストごとテナントごとのコスト、フォールバック率、品質(週次800問のゴールデンデータセットでの自動evalで測定)。リクエストあたりコストが24時間で15%以上ドリフトするとアラートが発火。
最終数字
- 推論コスト:1日10,200ユーロ → 1日900ユーロ(-91%)。
- 稼働率:87% → 99.7%。
- p95レイテンシ:14秒 → 1.8秒。
- 社内ユーザーNPS:11 → 68。
- GDPR + DORAコンプライアンス:2025年11月に監査通過。
« エンタープライズRAGの罠は、GPT-4がすべてを行うと信じることです。本当の設計は、GPT-4が絶対にやってはいけないことを決めることです。 »
本番のRAGはモデル問題ではなく、アーキテクチャ問題です。RAG PoCが高額で負荷に耐えられないなら、ハイブリッドアーキテクチャが通常両方を同時に解決します。当チームはデプロイ方法を知っています。
