本番のRAG：月額10,000ユーロから900ユーロへ。

欧州銀行、RAGパイプライン、ハイブリッド戦略。推論コストを10分の1にした方法。

2026年3月10日8 min

欧州銀行、50,000人の従業員、RAG社内ドキュメント検索アシスタント。競合コンサル会社が納品した初版：推論コスト1日10,200ユーロ、稼働率87%、p95レイテンシ14秒。容認不可。プロジェクトを引き継ぎました。6週間後：1日900ユーロ、稼働率99.7%、p95は1.8秒。その方法を紹介します。

診断：すべてがGPT-4を通過

初期アーキテクチャは、すべてのユーザークエリを生でGPT-4に送信：(1)リフレーズ、(2)正しいドキュメントへのルーティング、(3)結果のリランキング、(4)回答生成。リクエストごとに4回のプレミアムLLMコール、うち3回は不要。

ハイブリッドアーキテクチャ

原則：ローカルで可能なものはすべて小型ローカルモデル、最終マイルのみ外部LLM。具体的に、このプロジェクトでは：

クエリリフレーズと拡張：ファインチューンMistral 7B、社内A10 GPUホスト。限界費用ゼロ。
エンベディングとベクトル検索：bge-m3、マネージドPineconeデータベース、リクエストあたり約50ms。
リランキング：ローカルMiniLM-L6クロスエンコーダ、トップ50からトップ5まで80ms。
最終生成：最も関連性の高い5ドキュメントのみでAnthropic Claude Sonnet 4。

完全なパイプライン

python
from anthropic import Anthropic
from local_models import MistralReformulator, BgeEmbedder, MiniLMReranker
from pinecone import Index

async def rag_query(user_query: str, tenant_id: str) -> str:
    # Étape 1-3 : 100 % local, ~250 ms
    reformulated = await MistralReformulator.expand(user_query)
    embeddings = await BgeEmbedder.encode(reformulated)
    candidates = await Index('bank-docs').query(embeddings, top_k=50, filter={'tenant': tenant_id})
    top_5 = await MiniLMReranker.rank(user_query, candidates, k=5)
    
    # Étape 4 : LLM externe uniquement sur le last mile
    return await Anthropic().messages.create(
        model='claude-sonnet-4-20250514',
        max_tokens=800,
        messages=[{'role': 'user', 'content': build_prompt(user_query, top_5)}]
    )

GDPRネイティブ、パッチではない

ローカルモデルは銀行のVPC、フランクフルトで稼働。クライアントデータはPII分類器（ファインチューンMicrosoft Presidio）によって事前フィルタリングされずにAnthropic APIに出ません。Claudeに送られるプロンプトはログ、ハッシュ、監査されます。銀行は4時間未満で完全な監査証跡を生成できます。

可観測性：すべてを測定

各スパンでDatadog LLM Observability：ステップごとのレイテンシ、リクエストごとテナントごとのコスト、フォールバック率、品質（週次800問のゴールデンデータセットでの自動evalで測定）。リクエストあたりコストが24時間で15%以上ドリフトするとアラートが発火。

最終数字

推論コスト：1日10,200ユーロ → 1日900ユーロ（-91%）。
稼働率：87% → 99.7%。
p95レイテンシ：14秒 → 1.8秒。
社内ユーザーNPS：11 → 68。
GDPR + DORAコンプライアンス：2025年11月に監査通過。

« エンタープライズRAGの罠は、GPT-4がすべてを行うと信じることです。本当の設計は、GPT-4が絶対にやってはいけないことを決めることです。 »

— Abbealリード AI

本番のRAGはモデル問題ではなく、アーキテクチャ問題です。RAG PoCが高額で負荷に耐えられないなら、ハイブリッドアーキテクチャが通常両方を同時に解決します。当チームはデプロイ方法を知っています。

// 次に読む

似たような案件がありますか？

アーキテクトと話す