Abbeal

IA

本番のAIエージェント:デモ劇場を避ける。

信頼性、コスト、セキュリティ、評価。クライアントで実際に使う7つのパターン。

8 min

デモでAIエージェントをリリースしました。役員会は拍手喝采。3か月後、本番環境でハルシネーションを起こし、OpenAIの請求は3倍になり、誰もNPSが下がる理由を知りません。ようこそ、PoCシアターへ。GenAIプロジェクトの80%が立ち往生する煉獄です。

本番で耐えるエージェントは、巧妙なプロンプトとPythonラッパーではありません。独自のSLO、品質パイプライン、コストガバナンスを備えた分散システムです。Abbealがノートブックからレベニューに移行するために体系的に展開している7つのパターンを紹介します。

1. Evalが最優先:データセットなしに機能なし

Evalスイートなしに、プロンプトの1行も本番に出してはいけません。200から500件のラベル付き例でゴールデンデータセットを構築し、測定を自動化します:exactness、faithfulness、レイテンシ、リクエスト単価。いずれかの軸を劣化させるPRはCIでブロックします。この規律なしでは、盲目で操縦することになります。

2. リクエスト別、テナント別、機能別のコストトラッキング

マルチツールエージェントは、1つのユーザーリクエストに対して40回のLLMコールを発生させることがあります。詳細なテレメトリなしでは、マージンが溶けます。各スパンのコストをDatadogまたはHoneycombにログ出力します。customer_idと機能別に割り当てます。これが課金や制限の前提条件です。

python
from langgraph.graph import StateGraph from anthropic import Anthropic import datadog client = Anthropic() def call_llm(state): resp = client.messages.create(...) cost = resp.usage.input_tokens * 3e-6 + resp.usage.output_tokens * 15e-6 datadog.statsd.histogram( 'llm.cost.usd', cost, tags=[f'tenant:{state.tenant}', f'feature:{state.feature}'] ) return {'response': resp.content}

3. フォールバックチェーン:永遠に利用可能なモデルは存在しない

Anthropicが落ちます。OpenAIがレート制限をかけます。NotionではなくコードにプランBを配線する必要があります。カスケードを定義します:Claude Sonnet 4 → GPT-4o → セルフホストLlama 3。サーキットブレーカーとリトライ予算付き。クリティカル製品にレジリエンスはオプションではありません。

4. 入力と出力のガードレール

入力プロンプトをフィルタリング:インジェクション、PII、範囲外コンテンツ。出力をフィルタリング:検出可能なハルシネーション、禁止データ、ブランド外のトーン。Llama Guardガードレールや自家製分類器は50msかかります。GDPRインシデントより安いです。

5. モデルレジストリとバージョニング

プロンプトはコードです。Gitに置き、バージョン管理し、ピアレビューし、パイプライン経由でデプロイします。モデルレジストリ(MLflow、Weights & Biases、または自家製)が追跡するもの:プロンプトバージョン、モデルバージョン、evalメトリクス、ロールバック率。これなしでは、ジュニアがYAMLファイルを編集するだけで本番を壊せます。

6. ネイティブな可観測性、応急処置ではない

OpenTelemetryで各エージェント実行をトレースします。各ツールコール、各LLMコール、各リトライのスパン。LangSmith、Langfuse、Datadog LLM Observabilityで十分です。「なぜこのユーザーが昨日14:32にひどい回答を得たのか」に30秒で答えたいでしょう、3時間のgrepではなく。

7. フィードバックループ:本番がevalを養う

サムズアップ、手動修正、セッション放棄をキャプチャします。これらのシグナルを毎週evalデータセットに再注入します。本番のAIエージェントは生きた有機体です:フィードバックループなしでは、ドリフトします。

« 可観測性のないAIエージェントは、root権限を持ちログのないジュニア開発者のようなものです。被害を発見するのはプレスを読むときです。 »
Abbealリードエンジニア

これら7つのパターンは交渉の余地がありません。魅力的なPoCを、99.9%で耐え、ランウェイを焼き尽くさずにスケールするシステムに変えます。PoCシアターを抜け出しエージェントを工業化したい方、お話ししましょう。

似たような案件がありますか?

アーキテクトと話す