Abbeal

Catégorie · IA

Inference

Exécution d'un modèle IA à la demande (par opposition au training).

Coût principal en prod pour un LLM : chaque requête consomme des GPU-secondes. Levers d'optim : prompt caching, batching, quantization, model routing (Claude Haiku pour requêtes simples, Sonnet pour complexes), vLLM self-hosted.

// En action chez nos clients

// Voir aussi

Tu veux qu'on applique ça chez toi ?

Parler à un architecte