Agents IA en production : éviter le théâtre de démo.

Fiabilité, coûts, sécurité, évaluation. Sept patterns qu'on utilise vraiment chez nos clients.

12 avril 20268 min

Vous avez sorti un agent IA en démo. Le board a applaudi. Trois mois plus tard, il hallucine en production, votre facture OpenAI a triplé, et personne ne sait pourquoi le NPS chute. Bienvenue dans le PoC theatre, ce purgatoire où 80 % des projets GenAI s'enlisent.

Un agent qui tient en prod, ce n'est pas un prompt malin et un wrapper Python. C'est un système distribué avec ses propres SLO, ses pipelines de qualité, sa gouvernance des coûts. Voici les sept patterns que nous déployons systématiquement chez Abbeal pour passer du notebook au revenue.

1. Eval avant tout : pas de feature sans dataset

Aucune ligne de prompt ne part en prod sans suite d'évals. Constituez un golden dataset de 200 à 500 exemples annotés, puis automatisez la mesure : exactness, faithfulness, latence, coût par requête. Tout PR qui dégrade un axe est bloqué en CI. Sans cette discipline, vous pilotez à l'aveugle.

2. Cost tracking par requête, par tenant, par feature

Un agent multi-tools peut générer 40 appels LLM pour une seule requête utilisateur. Sans télémétrie fine, votre marge fond. Loggez le coût de chaque span dans Datadog ou Honeycomb. Attribuez par customer_id et par feature. C'est la condition pour facturer ou rationner.

python
from langgraph.graph import StateGraph
from anthropic import Anthropic
import datadog

client = Anthropic()

def call_llm(state):
    resp = client.messages.create(...)
    cost = resp.usage.input_tokens * 3e-6 + resp.usage.output_tokens * 15e-6
    datadog.statsd.histogram(
        'llm.cost.usd',
        cost,
        tags=[f'tenant:{state.tenant}', f'feature:{state.feature}']
    )
    return {'response': resp.content}

3. Fallback chains : aucun modèle n'est éternellement disponible

Anthropic tombe. OpenAI ratelimit. Vous devez avoir un plan B câblé en code, pas dans un Notion. Définissez une cascade : Claude Sonnet 4 → GPT-4o → Llama 3 self-hosted. Avec circuit breaker et budget de retry. La résilience n'est pas une option pour un produit critique.

4. Guardrails à l'entrée et à la sortie

Filtrez les prompts entrants : injections, PII, contenu hors-scope. Filtrez les sorties : hallucinations détectables, données interdites, ton off-brand. Un guardrail Llama Guard ou un classifieur maison coûte 50 ms. C'est moins cher qu'un incident RGPD.

5. Model registry et versioning

Vos prompts sont du code. Ils doivent vivre dans Git, être versionnés, peer-reviewés, déployés via pipeline. Un model registry (MLflow, Weights & Biases ou maison) trace : version du prompt, version du modèle, métriques d'éval, taux de rollback. Sans ça, un junior peut casser la prod en éditant un fichier YAML.

6. Observabilité native, pas bricolée

Tracez chaque agent run avec OpenTelemetry. Spans pour chaque tool call, chaque LLM call, chaque retry. LangSmith, Langfuse ou Datadog LLM Observability suffisent. Vous voulez répondre à "pourquoi cet utilisateur a eu une réponse pourrie hier à 14h32" en 30 secondes, pas en trois heures de grep.

7. Feedback loop : la prod nourrit l'éval

Capturez les pouces bleus, les corrections manuelles, les abandons de session. Re-injectez ces signaux dans votre dataset d'éval chaque semaine. Un agent IA en prod est un organisme vivant : sans boucle de feedback, il dérive.

« Un agent IA sans observabilité, c'est un junior dev avec accès root et pas de logs. Vous découvrez les dégâts en lisant la presse. »

— Lead Engineer Abbeal

Ces sept patterns ne sont pas négociables. Ils transforment un PoC séduisant en système qui tient à 99.9 % et qui scale sans incinérer votre runway. Si vous voulez sortir du PoC theatre et industrialiser vos agents, parlons-en.

// À lire ensuite

Vous avez un projet qui ressemble à ça ?

Parler à un architecte