Abbeal

カテゴリ · AI

Eval(LLM評価)

LLMの品質を測定するための自動テストスイートです。

ユニットテストのLLM出力版です。Promptfoo、LangSmith、Braintrust、Lilypadなどがあります。入力と期待される出力のケースデータセットに、完全一致、LLM-as-judge、エンベディング類似度などの評価基準を組み合わせます。本番デプロイ前に不可欠です。

// クライアント事例

// 関連

貴社で実装したい?

アーキテクトと話す