Abbeal

Banque tier-1 · Paris

欧州銀行:ハイブリッドRAG、推論コスト10分の1。

RAGのPoCが月1万ユーロ。ローカル+クラウドのハイブリッド、キャッシュ、reranking。品質同等で月900ユーロ。

KPI

/10

coût inférence mensuel

期間

7 mois

チーム

4

ハブ

Paris

Mistral 7BvLLMQdrantLangSmithAWS Bedrock

40人に使われる社内RAGに月10,000ユーロ、それはユーザーあたり250ユーロ。その価格なら、ジュニアを雇った方が良い。

コンテキスト

欧州ティア1銀行、パリハブ、12人のAIイノベーションチーム。規制アシスタンスとドキュメント検索のための社内RAG POC(280,000ドキュメントのコーパス)。Azure OpenAI経由ですべてGPT-4、ルーティングなし、キャッシュなし、体系的評価なし。

問題

  • 月次コスト:40アクティブユーザーに10,200ユーロ
  • p95レイテンシ:4.1秒、遅いと感じられる
  • 継続的評価メカニズムなし、主観的に品質評価
  • 単純なリトリーバル(純粋コサイン)、多くの無駄なコンテキスト注入
  • IT-Complianceコミッティがコスト管理されるまで一般化をブロック

アプローチ

ルーティングによるハイブリッドアーキテクチャ:複雑性分類器が78%のケース(事実質問)でローカルファインチューンMistral 7Bへ、22%の複雑なケース(マルチドキュメント推論、規制比較)でGPT-4へクエリをルーティング。

最適化

  • コーパスからの12,000 Q/AペアでMistral 7Bファインチューニング
  • アダプティブTTL付きエンベディングキャッシュ(Redis)
  • ハイブリッドリトリーバル:BM25 + dense、クロスエンコーダリランキング
  • 継続的評価:LangSmith + 800問の社内ベンチマーク
  • 信頼度 < 閾値の場合の自動フォールバック付きルーティング

スタック

  • Mistral 7Bファインチューン(LoRA)、g5.xlargeでvLLM経由提供
  • 複雑なケースのAWS Bedrock経由GPT-4 Turbo
  • ベクトルストアのQdrant(HNSW)、エンベディングキャッシュのRedis
  • トレースと評価のためのLangSmith
  • オーケストレーションのためのFastAPI

結果

  1. 月次コスト:10,200ユーロから900ユーロ(-91%)
  2. p95レイテンシ:4.1秒から1.2秒
  3. 品質(社内ベンチマーク):87%から91%(以前より良い)
  4. アクティブユーザー:ロールアウト後4か月で40から320
  5. Complianceコミッティ:一般化にゴーサイン
« Abbealは銀行の古典的間違いを回避させてくれました:高いから必ず良いと信じること。体系的測定アプローチは3年の社内ブロッカーを解除しました。 »
Head of AI · ティア1銀行

学んだこと

LoRAファインチューニングはこのボリューム(12kペア)で非常にうまく機能し、100kを目指す必要はありません。vLLMは負荷に耐えますが、p99レイテンシのために寛大なGPUサイジングを要求します。間違い:評価ベンチマーク構築作業を過小評価しました(2週間ではなく6週間)。やり直すなら:ベンチマークから始める、プロジェクト全体のコンパスです。

貴社でも似たケースがある?

アーキテクトと話す