カテゴリ · AI

Eval（LLM評価）

LLMの品質を測定するための自動テストスイートです。

ユニットテストのLLM出力版です。Promptfoo、LangSmith、Braintrust、Lilypadなどがあります。入力と期待される出力のケースデータセットに、完全一致、LLM-as-judge、エンベディング類似度などの評価基準を組み合わせます。本番デプロイ前に不可欠です。

// クライアント事例

貴社で実装したい？