IA
Agents IA en production : éviter le théâtre de démo.
Fiabilité, coûts, sécurité, évaluation. Sept patterns qu'on utilise vraiment chez nos clients.
Vous avez sorti un agent IA en démo. Le board a applaudi. Trois mois plus tard, il hallucine en production, votre facture OpenAI a triplé, et personne ne sait pourquoi le NPS chute. Bienvenue dans le PoC theatre, ce purgatoire où 80 % des projets GenAI s'enlisent.
Un agent qui tient en prod, ce n'est pas un prompt malin et un wrapper Python. C'est un système distribué avec ses propres SLO, ses pipelines de qualité, sa gouvernance des coûts. Voici les sept patterns que nous déployons systématiquement chez Abbeal pour passer du notebook au revenue.
1. Eval avant tout : pas de feature sans dataset
Aucune ligne de prompt ne part en prod sans suite d'évals. Constituez un golden dataset de 200 à 500 exemples annotés, puis automatisez la mesure : exactness, faithfulness, latence, coût par requête. Tout PR qui dégrade un axe est bloqué en CI. Sans cette discipline, vous pilotez à l'aveugle. Cas concret 2026 : sur un projet RAG FinTech, on est passé de 64 % à 91 % d'accuracy en 6 sprints — sans changer de LLM, juste en industrialisant les evals et le tuning retrieval.
2. Cost tracking par requête, par tenant, par feature
Un agent multi-tools peut générer 40 appels LLM pour une seule requête utilisateur. Sans télémétrie fine, votre marge fond. Loggez le coût de chaque span dans Datadog ou Honeycomb. Attribuez par customer_id et par feature. C'est la condition pour facturer ou rationner. LiteLLM s'est imposé chez nous comme routing layer : il bascule dynamiquement Haiku ↔ Sonnet ↔ Opus selon la complexité de la requête. Sur un projet Customer Support, on a divisé le coût LLM par 3,4 en 6 semaines sans dégrader la qualité — uniquement par cost routing.
pythonfrom langgraph.graph import StateGraph from anthropic import Anthropic import datadog client = Anthropic() def call_llm(state): resp = client.messages.create(...) cost = resp.usage.input_tokens * 3e-6 + resp.usage.output_tokens * 15e-6 datadog.statsd.histogram( 'llm.cost.usd', cost, tags=[f'tenant:{state.tenant}', f'feature:{state.feature}'] ) return {'response': resp.content}
3. Fallback chains : aucun modèle n'est éternellement disponible
Anthropic tombe. OpenAI ratelimit. Vous devez avoir un plan B câblé en code, pas dans un Notion. Définissez une cascade : Claude Sonnet 4 → GPT-4o → Llama 3 self-hosted. Avec circuit breaker et budget de retry. La résilience n'est pas une option pour un produit critique.
4. Guardrails à l'entrée et à la sortie
Filtrez les prompts entrants : injections, PII, contenu hors-scope. Filtrez les sorties : hallucinations détectables, données interdites, ton off-brand. Un guardrail Llama Guard ou un classifieur maison coûte 50 ms. C'est moins cher qu'un incident RGPD.
5. Model registry et versioning
Vos prompts sont du code. Ils doivent vivre dans Git, être versionnés, peer-reviewés, déployés via pipeline. Un model registry (MLflow, Weights & Biases ou maison) trace : version du prompt, version du modèle, métriques d'éval, taux de rollback. Sans ça, un junior peut casser la prod en éditant un fichier YAML.
6. Observabilité native, pas bricolée
Tracez chaque agent run avec OpenTelemetry. Spans pour chaque tool call, chaque LLM call, chaque retry. LangSmith, Langfuse ou Datadog LLM Observability suffisent. Vous voulez répondre à "pourquoi cet utilisateur a eu une réponse pourrie hier à 14h32" en 30 secondes, pas en trois heures de grep.
7. Feedback loop : la prod nourrit l'éval
Capturez les pouces bleus, les corrections manuelles, les abandons de session. Re-injectez ces signaux dans votre dataset d'éval chaque semaine. Un agent IA en prod est un organisme vivant : sans boucle de feedback, il dérive.
« Un agent IA sans observabilité, c'est un junior dev avec accès root et pas de logs. Vous découvrez les dégâts en lisant la presse. »
Ces sept patterns ne sont pas négociables. Ils transforment un PoC séduisant en système qui tient à 99.9 % et qui scale sans incinérer votre runway. Si vous voulez sortir du PoC theatre et industrialiser vos agents, parlons-en.
Stack agents IA 2026 — ce qu'on utilise vraiment
Au-delà des patterns, voici la pile d'outils sur laquelle on construit en mai 2026 chez nos clients. Tout est éprouvé en prod sur au moins 3 missions, pas du POC.
- **LLM providers** : Anthropic Claude 3.7 Sonnet (default), OpenAI GPT-4o (fallback), Llama 3.3 70B self-hosted via vLLM ou Modal pour les workloads sensibles (santé, banking, APPI Japon).
- **Orchestration agents** : LangGraph — machine à états explicite (nodes + edges) plutôt qu'un agent free-form qui décide tout seul. Bien plus debuggable + reproductible.
- **Evals CI** : Promptfoo dans la pipeline GitHub Actions (tests dataset-vs-judge). Langfuse pour le tracking continu en production. LangSmith si on est déjà chez LangChain.
- **Observability** : Langfuse + Helicone pour le multi-provider léger, Datadog LLM Observability pour les missions Enterprise.
- **Vector store** : Pinecone pour les workloads >10M vecteurs avec SLA stricts. PostgreSQL + pgvector pour les <1M où Postgres tourne déjà en prod (95 % des cas FinTech).
- **Routing & cost** : LiteLLM comme couche d'abstraction multi-LLM (provider switching + cost capping par requête).
// À lire ensuite
IA
Comment j'ai automatisé une journée de CEO d'ESN avec Claude (et ce que vous pouvez en tirer).
30 workflows orchestrés sur Notion + BoondManager + Google Workspace + LinkedIn + Apollo + Calendly + Tactiq, sans nouveau SaaS. 4 piliers : commercial multicanal anti-doublon, recrutement 48h, inbound SEO/LinkedIn/citations IA, productivité dirigeant. Zéro lead perdu en 6 mois, 15 min/jour vs 3-4h avant.
7 min
IA
RAG en production : de 10 000 € à 900 € par mois.
Une banque européenne, un pipeline RAG, une stratégie hybride. Comment on a divisé les coûts d'inférence par dix.
8 min
