大手銀行 · Paris
欧州銀行:ハイブリッドRAG、推論コスト10分の1。
RAGのPoCが月1万ユーロ。ローカル+クラウドのハイブリッド、キャッシュ、reranking。品質同等で月900ユーロ。
KPI
/10
月次推論コスト
期間
7 mois
チーム
4 人
ハブ
Paris
40人に使われる社内RAGに月10,000ユーロ、それはユーザーあたり250ユーロ。その価格なら、ジュニアを雇った方が良い。
コンテキスト
欧州ティア1銀行、パリハブ、12人のAIイノベーションチーム。規制アシスタンスとドキュメント検索のための社内RAG POC(280,000ドキュメントのコーパス)。Azure OpenAI経由ですべてGPT-4、ルーティングなし、キャッシュなし、体系的評価なし。
問題
- 月次コスト:40アクティブユーザーに10,200ユーロ
- p95レイテンシ:4.1秒、遅いと感じられる
- 継続的評価メカニズムなし、主観的に品質評価
- 単純なリトリーバル(純粋コサイン)、多くの無駄なコンテキスト注入
- IT-Complianceコミッティがコスト管理されるまで一般化をブロック
アプローチ
ルーティングによるハイブリッドアーキテクチャ:複雑性分類器が78%のケース(事実質問)でローカルファインチューンMistral 7Bへ、22%の複雑なケース(マルチドキュメント推論、規制比較)でGPT-4へクエリをルーティング。
最適化
- コーパスからの12,000 Q/AペアでMistral 7Bファインチューニング
- アダプティブTTL付きエンベディングキャッシュ(Redis)
- ハイブリッドリトリーバル:BM25 + dense、クロスエンコーダリランキング
- 継続的評価:LangSmith + 800問の社内ベンチマーク
- 信頼度 < 閾値の場合の自動フォールバック付きルーティング
スタック
- Mistral 7Bファインチューン(LoRA)、g5.xlargeでvLLM経由提供
- 複雑なケースのAWS Bedrock経由GPT-4 Turbo
- ベクトルストアのQdrant(HNSW)、エンベディングキャッシュのRedis
- トレースと評価のためのLangSmith
- オーケストレーションのためのFastAPI
結果
- 月次コスト:10,200ユーロから900ユーロ(-91%)
- p95レイテンシ:4.1秒から1.2秒
- 品質(社内ベンチマーク):87%から91%(以前より良い)
- アクティブユーザー:ロールアウト後4か月で40から320
- Complianceコミッティ:一般化にゴーサイン
« Abbealは銀行の古典的間違いを回避させてくれました:高いから必ず良いと信じること。体系的測定アプローチは3年の社内ブロッカーを解除しました。 »
学んだこと
LoRAファインチューニングはこのボリューム(12kペア)で非常にうまく機能し、100kを目指す必要はありません。vLLMは負荷に耐えますが、p99レイテンシのために寛大なGPUサイジングを要求します。間違い:評価ベンチマーク構築作業を過小評価しました(2週間ではなく6週間)。やり直すなら:ベンチマークから始める、プロジェクト全体のコンパスです。
// 次に読む
ラグジュアリージュエリー&時計 · Genève + Paris + Tokyo
カルティエ:監査から社内プライベートLLMまで。
Compass(フロント+バックエンド・アーキテクチャ監査)、Mapper(時計+ジュエリー製品ジェネレーター)、BigQuery上の競合データETL、そして現在Cartier自社インフラでファインチューニングされたプライベートLLM。ラグジュアリーメゾンのデータ&AIスタックでの長期テックパートナーシップ。
LLM privé
Cartierインフラでファインチューニング
大手銀行 · Paris
BNPパリバ:Reference Book PO、React/Reduxから製品AIエージェントへ。
BNPのPOマーケットプレイスの中核に3名のAbbealエンジニア。当初React/Redux/Nodeプラットフォーム、現在は製品RAG、PMアシスタント用Claudeエージェント、スケール用イベント駆動Kafka層で強化。
RAG
PO製品カタログ
デジタルバンキング / FinTech · Tokyo (Tamachi)
マネーフォワード:東京の新規デジタルバンクのデータ基盤。
東京証券取引所上場の日本FinTechリーダー、マネーフォワードは、日本の大手銀行グループとのジョイントベンチャーとして、ゼロから構築する新しいデジタルバンクを立ち上げました。Abbealはデータエンジニアリング領域で参画:JFSA報告、AML、リスクマネジメントを担うData Hub(Databricks + Delta Lake + dbt + AWS東京)の設計・運用。
Data Hub
ゼロから構築のデジタルバンク東京
