Catégorie · IA
Inference
Exécution d'un modèle IA à la demande (par opposition au training).
Coût principal en prod pour un LLM : chaque requête consomme des GPU-secondes. Levers d'optim : prompt caching, batching, quantization, model routing (Claude Haiku pour requêtes simples, Sonnet pour complexes), vLLM self-hosted.
// En action chez nos clients
// Voir aussi
