Banque tier-1 · Paris
欧州銀行:ハイブリッドRAG、推論コスト10分の1。
RAGのPoCが月1万ユーロ。ローカル+クラウドのハイブリッド、キャッシュ、reranking。品質同等で月900ユーロ。
KPI
/10
coût inférence mensuel
期間
7 mois
チーム
4 人
ハブ
Paris
40人に使われる社内RAGに月10,000ユーロ、それはユーザーあたり250ユーロ。その価格なら、ジュニアを雇った方が良い。
コンテキスト
欧州ティア1銀行、パリハブ、12人のAIイノベーションチーム。規制アシスタンスとドキュメント検索のための社内RAG POC(280,000ドキュメントのコーパス)。Azure OpenAI経由ですべてGPT-4、ルーティングなし、キャッシュなし、体系的評価なし。
問題
- 月次コスト:40アクティブユーザーに10,200ユーロ
- p95レイテンシ:4.1秒、遅いと感じられる
- 継続的評価メカニズムなし、主観的に品質評価
- 単純なリトリーバル(純粋コサイン)、多くの無駄なコンテキスト注入
- IT-Complianceコミッティがコスト管理されるまで一般化をブロック
アプローチ
ルーティングによるハイブリッドアーキテクチャ:複雑性分類器が78%のケース(事実質問)でローカルファインチューンMistral 7Bへ、22%の複雑なケース(マルチドキュメント推論、規制比較)でGPT-4へクエリをルーティング。
最適化
- コーパスからの12,000 Q/AペアでMistral 7Bファインチューニング
- アダプティブTTL付きエンベディングキャッシュ(Redis)
- ハイブリッドリトリーバル:BM25 + dense、クロスエンコーダリランキング
- 継続的評価:LangSmith + 800問の社内ベンチマーク
- 信頼度 < 閾値の場合の自動フォールバック付きルーティング
スタック
- Mistral 7Bファインチューン(LoRA)、g5.xlargeでvLLM経由提供
- 複雑なケースのAWS Bedrock経由GPT-4 Turbo
- ベクトルストアのQdrant(HNSW)、エンベディングキャッシュのRedis
- トレースと評価のためのLangSmith
- オーケストレーションのためのFastAPI
結果
- 月次コスト:10,200ユーロから900ユーロ(-91%)
- p95レイテンシ:4.1秒から1.2秒
- 品質(社内ベンチマーク):87%から91%(以前より良い)
- アクティブユーザー:ロールアウト後4か月で40から320
- Complianceコミッティ:一般化にゴーサイン
« Abbealは銀行の古典的間違いを回避させてくれました:高いから必ず良いと信じること。体系的測定アプローチは3年の社内ブロッカーを解除しました。 »
学んだこと
LoRAファインチューニングはこのボリューム(12kペア)で非常にうまく機能し、100kを目指す必要はありません。vLLMは負荷に耐えますが、p99レイテンシのために寛大なGPUサイジングを要求します。間違い:評価ベンチマーク構築作業を過小評価しました(2週間ではなく6週間)。やり直すなら:ベンチマークから始める、プロジェクト全体のコンパスです。
// 次に読む
Mobilité urbaine · Paris + Montréal
モビリティスケールアップ:クラウド請求−30%、SLO同等。
18ヶ月でAWS請求が2倍、トラフィック増加は比例せず。GreenOps監査、リファクタ、Karpenter、ARM64。計測済みの成果。
−30%
facture cloud
E-commerce sport · Paris
スポーツ大手:PWA、モバイルCV+18%、Lighthouse 92。
モバイルLighthouseが38、CV低下。Next.js App Router、edge、画像、splitting。6ヶ月で納品。
+18%
conversion mobile
Robotique industrielle · Tokyo
日本メーカー:AGV80台、ROS 2、倉庫スループット+40%。
低速なフリート、衝突、ダウンタイム。Nav2刷新、知覚フュージョン、マルチエージェント計画。6ヶ月で衝突ゼロ。
+40%
throughput entrepôt
