Paris / Tokyo
AI Engineer
Sortir l'IA des labs et l'intégrer en production. RAG, agents, MLOps, vision/NLP. Python, PyTorch, LangChain/LlamaIndex, Pinecone/Weaviate, FastAPI. Optimisation coûts/tokens.
GenAI · LLM · RAG · MLOps
Sortir l'IA des notebooks. Tu prends en charge des projets RAG / agents / LLM en production pour des clients qui ont déjà passé le POC et qui veulent du fiable. Pas de demo theater : on mesure l'accuracy, le coût, la latence, on tient des SLOs.
Ce que tu fais concrètement
- Architecturer des pipelines RAG production : retrieval (Pinecone, pgvector, Qdrant), chunking + reranking, eval framework CI (Promptfoo, Langfuse).
- Déployer des agents LLM avec garde-fous : tool use validation, cost guards, retry logic, observability via Langfuse/Helicone.
- Optimiser les coûts d'inférence : routing multi-LLM (LiteLLM), batching, cache sémantique, fine-tuning quand le ROI le justifie.
- Pair-design avec les data scientists internes du client pour transférer la propriété en fin de mission.
- Évangéliser les patterns AI-safe en interne : RBAC sur les contexts, prompt injection mitigation, audit logs APPI/GDPR-ready.
Stack typique
- LLM providers : Claude (default pour reasoning), OpenAI (default pour tool use), Llama 3.3 self-hosted (vLLM) pour privacy-critical.
- Frameworks : LangChain (legacy clients), LlamaIndex, DSPy (en assess), Pydantic AI. Pour les agents : LangGraph, Vercel AI SDK.
- Vector DB : Pinecone (managed, default), pgvector (si Postgres déjà en prod), Qdrant (self-hosted).
- Observability + evals : Langfuse (default), Helicone, Promptfoo en CI.
- Backend : Python (FastAPI) ou Node (Hono). Déploiement Modal, Runpod, ou K8s GPU node-groups.
Le profil qu'on cherche
- 4+ ans en production sur des projets ML/AI. Ou 2+ ans avec une vraie spécialisation LLM/RAG production.
- Solide en Python (typage strict, async, tests). Une stack backend secondaire (Node, Go) est un plus.
- Comprends la différence entre un POC qui marche en demo et un système qui tient à 10k QPS avec p99 < 4s.
- Connaissance pratique des trade-offs : embedding model choice, chunk size, retrieval strategy, prompt engineering vs fine-tuning.
- Bonus : expérience LLM agents en prod (LangGraph, AutoGen, ou framework custom), ou MLOps (Kubeflow, MLflow, BentoML).
Pourquoi Abbeal pour ce rôle
On a 12+ missions AI production en cours (BNP, Cartier, Le Monde, AXA, plus des moins-glamour). Notre tech radar Q2 2026 met Rust et Pinecone en Adopt, Bun et DSPy en Trial, MongoDB et low-code en Hold — on est opinionated et on tient des comptes.
Tu rejoins une équipe AI qui couvre Paris + Tokyo (la mission Cartier qui combine LLM privé et NLP japonais te donne une idée du niveau). Code review pair-à-pair avec un autre senior AI hebdomadaire, accès au tech radar interne.
FAQ
- Quel package sur ce rôle ?
- Salarié CDI : 75-100 k€ brut + bonus. Freelance : 800-1100 € TJM HT selon expertise. Les profils confirmés sur RAG production + observability (Langfuse, Promptfoo CI) sont en haut de la fourchette.
- Faut-il un PhD ?
- Non. On préfère 4 ans de production AI à un PhD sans expérience industrielle. Si tu as les deux : tant mieux.
- Quels clients sur ce rôle ?
- Banques (BNP, SocGen, BNC, Desjardins) : RAG sur core COBOL + audit ACPR. Luxe (Cartier) : LLM privé sur catalogue produit + NLP JP. Médias (Le Monde) : Insights data pour la rédaction. Industriels (Toyota, Money Forward) : agents tool-use sur ERP. Mix selon ta dispo.
- Le mode hybride Tokyo ?
- Pour les missions à Tokyo : présentiel partiel chez le client + remote depuis le hub Higashi-Azabu. JLPT N2 minimum demandé côté Tokyo (clients enterprise japonais ne tournent pas en english-only, sauf exceptions startups).
Postuler
AI Engineer
