カテゴリ · AI
Eval(LLM評価)
LLMの品質を測定するための自動テストスイートです。
ユニットテストのLLM出力版です。Promptfoo、LangSmith、Braintrust、Lilypadなどがあります。入力と期待される出力のケースデータセットに、完全一致、LLM-as-judge、エンベディング類似度などの評価基準を組み合わせます。本番デプロイ前に不可欠です。
// クライアント事例
関連サービス
// 関連
カテゴリ · AI
LLMの品質を測定するための自動テストスイートです。
ユニットテストのLLM出力版です。Promptfoo、LangSmith、Braintrust、Lilypadなどがあります。入力と期待される出力のケースデータセットに、完全一致、LLM-as-judge、エンベディング類似度などの評価基準を組み合わせます。本番デプロイ前に不可欠です。
// クライアント事例
関連サービス
// 関連