Abbeal

IA

本番のRAG:月額10,000ユーロから900ユーロへ。

欧州銀行、RAGパイプライン、ハイブリッド戦略。推論コストを10分の1にした方法。

8 min

欧州銀行、50,000人の従業員、RAG社内ドキュメント検索アシスタント。競合コンサル会社が納品した初版:推論コスト1日10,200ユーロ、稼働率87%、p95レイテンシ14秒。容認不可。プロジェクトを引き継ぎました。6週間後:1日900ユーロ、稼働率99.7%、p95は1.8秒。その方法を紹介します。

診断:すべてがGPT-4を通過

初期アーキテクチャは、すべてのユーザークエリを生でGPT-4に送信:(1)リフレーズ、(2)正しいドキュメントへのルーティング、(3)結果のリランキング、(4)回答生成。リクエストごとに4回のプレミアムLLMコール、うち3回は不要。

ハイブリッドアーキテクチャ

原則:ローカルで可能なものはすべて小型ローカルモデル、最終マイルのみ外部LLM。具体的に、このプロジェクトでは:

  1. クエリリフレーズと拡張:ファインチューンMistral 7B、社内A10 GPUホスト。限界費用ゼロ。
  2. エンベディングとベクトル検索:bge-m3、マネージドPineconeデータベース、リクエストあたり約50ms。
  3. リランキング:ローカルMiniLM-L6クロスエンコーダ、トップ50からトップ5まで80ms。
  4. 最終生成:最も関連性の高い5ドキュメントのみでAnthropic Claude Sonnet 4。

完全なパイプライン

python
from anthropic import Anthropic from local_models import MistralReformulator, BgeEmbedder, MiniLMReranker from pinecone import Index async def rag_query(user_query: str, tenant_id: str) -> str: # Étape 1-3 : 100 % local, ~250 ms reformulated = await MistralReformulator.expand(user_query) embeddings = await BgeEmbedder.encode(reformulated) candidates = await Index('bank-docs').query(embeddings, top_k=50, filter={'tenant': tenant_id}) top_5 = await MiniLMReranker.rank(user_query, candidates, k=5) # Étape 4 : LLM externe uniquement sur le last mile return await Anthropic().messages.create( model='claude-sonnet-4-20250514', max_tokens=800, messages=[{'role': 'user', 'content': build_prompt(user_query, top_5)}] )

GDPRネイティブ、パッチではない

ローカルモデルは銀行のVPC、フランクフルトで稼働。クライアントデータはPII分類器(ファインチューンMicrosoft Presidio)によって事前フィルタリングされずにAnthropic APIに出ません。Claudeに送られるプロンプトはログ、ハッシュ、監査されます。銀行は4時間未満で完全な監査証跡を生成できます。

可観測性:すべてを測定

各スパンでDatadog LLM Observability:ステップごとのレイテンシ、リクエストごとテナントごとのコスト、フォールバック率、品質(週次800問のゴールデンデータセットでの自動evalで測定)。リクエストあたりコストが24時間で15%以上ドリフトするとアラートが発火。

最終数字

  • 推論コスト:1日10,200ユーロ → 1日900ユーロ(-91%)。
  • 稼働率:87% → 99.7%。
  • p95レイテンシ:14秒 → 1.8秒。
  • 社内ユーザーNPS:11 → 68。
  • GDPR + DORAコンプライアンス:2025年11月に監査通過。
« エンタープライズRAGの罠は、GPT-4がすべてを行うと信じることです。本当の設計は、GPT-4が絶対にやってはいけないことを決めることです。 »
Abbealリード AI

本番のRAGはモデル問題ではなく、アーキテクチャ問題です。RAG PoCが高額で負荷に耐えられないなら、ハイブリッドアーキテクチャが通常両方を同時に解決します。当チームはデプロイ方法を知っています。

似たような案件がありますか?

アーキテクトと話す