大手銀行 · Paris

欧州銀行：ハイブリッドRAG、推論コスト10分の1。

RAGのPoCが月1万ユーロ。ローカル+クラウドのハイブリッド、キャッシュ、reranking。品質同等で月900ユーロ。

KPI

/10

月次推論コスト

期間

7 mois

チーム

4 人

ハブ

Paris

Mistral 7BvLLMQdrantLangSmithAWS Bedrock

40人に使われる社内RAGに月10,000ユーロ、それはユーザーあたり250ユーロ。その価格なら、ジュニアを雇った方が良い。

コンテキスト

欧州ティア1銀行、パリハブ、12人のAIイノベーションチーム。規制アシスタンスとドキュメント検索のための社内RAG POC（280,000ドキュメントのコーパス）。Azure OpenAI経由ですべてGPT-4、ルーティングなし、キャッシュなし、体系的評価なし。

問題

月次コスト：40アクティブユーザーに10,200ユーロ
p95レイテンシ：4.1秒、遅いと感じられる
継続的評価メカニズムなし、主観的に品質評価
単純なリトリーバル（純粋コサイン）、多くの無駄なコンテキスト注入
IT-Complianceコミッティがコスト管理されるまで一般化をブロック

アプローチ

ルーティングによるハイブリッドアーキテクチャ：複雑性分類器が78%のケース（事実質問）でローカルファインチューンMistral 7Bへ、22%の複雑なケース（マルチドキュメント推論、規制比較）でGPT-4へクエリをルーティング。

最適化

コーパスからの12,000 Q/AペアでMistral 7Bファインチューニング
アダプティブTTL付きエンベディングキャッシュ（Redis）
ハイブリッドリトリーバル：BM25 + dense、クロスエンコーダリランキング
継続的評価：LangSmith + 800問の社内ベンチマーク
信頼度 < 閾値の場合の自動フォールバック付きルーティング

スタック

Mistral 7Bファインチューン（LoRA）、g5.xlargeでvLLM経由提供
複雑なケースのAWS Bedrock経由GPT-4 Turbo
ベクトルストアのQdrant（HNSW）、エンベディングキャッシュのRedis
トレースと評価のためのLangSmith
オーケストレーションのためのFastAPI

結果

月次コスト：10,200ユーロから900ユーロ（-91%）
p95レイテンシ：4.1秒から1.2秒
品質（社内ベンチマーク）：87%から91%（以前より良い）
アクティブユーザー：ロールアウト後4か月で40から320
Complianceコミッティ：一般化にゴーサイン

« Abbealは銀行の古典的間違いを回避させてくれました：高いから必ず良いと信じること。体系的測定アプローチは3年の社内ブロッカーを解除しました。 »

— Head of AI · ティア1銀行

学んだこと

LoRAファインチューニングはこのボリューム（12kペア）で非常にうまく機能し、100kを目指す必要はありません。vLLMは負荷に耐えますが、p99レイテンシのために寛大なGPUサイジングを要求します。間違い：評価ベンチマーク構築作業を過小評価しました（2週間ではなく6週間）。やり直すなら：ベンチマークから始める、プロジェクト全体のコンパスです。

// 次に読む

// 類似プロジェクトを相談

このミッションがニーズに似ていますか？組み込みスクワッドのオファー.

貴社でも似たケースがある？

アーキテクトと話す