Catégorie · IA
Eval (évaluation LLM)
Jeu de tests automatisés pour mesurer la qualité d'un LLM.
Comme les tests unitaires, mais pour des sorties de LLM. Promptfoo, LangSmith, Braintrust, Lilypad. Dataset de cas (input → output attendu) + critères (exact match, LLM-as-judge, embedding sim). Essentiel avant chaque déploiement prod.
// En action chez nos clients
Services pertinents
// Voir aussi
