Abbeal

Catégorie · IA

Eval (évaluation LLM)

Jeu de tests automatisés pour mesurer la qualité d'un LLM.

Comme les tests unitaires, mais pour des sorties de LLM. Promptfoo, LangSmith, Braintrust, Lilypad. Dataset de cas (input → output attendu) + critères (exact match, LLM-as-judge, embedding sim). Essentiel avant chaque déploiement prod.

// En action chez nos clients

// Voir aussi

Tu veux qu'on applique ça chez toi ?

Parler à un architecte