Abbeal

Carrières

Paris / Tokyo

Ingénieur IA

Sortir l'IA des laboratoires et l'intégrer en production. RAG, agents, MLOps, vision/TLN. Python, PyTorch, LangChain/LlamaIndex, Pinecone/Weaviate, FastAPI. Optimisation des coûts et des jetons.

IA générative · GMA · RAG · MLOps

Sortir l'IA des notebooks. Tu prends en charge des projets RAG / agents / LLM en production pour des clients qui ont déjà passé le POC et qui veulent du fiable. Pas de demo theater : on mesure l'accuracy, le coût, la latence, on tient des SLOs.

Ce que tu fais concrètement

  • Architecturer des pipelines RAG production : retrieval (Pinecone, pgvector, Qdrant), chunking + reranking, eval framework CI (Promptfoo, Langfuse).
  • Déployer des agents LLM avec garde-fous : tool use validation, cost guards, retry logic, observability via Langfuse/Helicone.
  • Optimiser les coûts d'inférence : routing multi-LLM (LiteLLM), batching, cache sémantique, fine-tuning quand le ROI le justifie.
  • Pair-design avec les data scientists internes du client pour transférer la propriété en fin de mission.
  • Évangéliser les patterns AI-safe en interne : RBAC sur les contexts, prompt injection mitigation, audit logs APPI/GDPR-ready.

Stack typique

  • LLM providers : Claude (default pour reasoning), OpenAI (default pour tool use), Llama 3.3 self-hosted (vLLM) pour privacy-critical.
  • Frameworks : LangChain (legacy clients), LlamaIndex, DSPy (en assess), Pydantic AI. Pour les agents : LangGraph, Vercel AI SDK.
  • Vector DB : Pinecone (managed, default), pgvector (si Postgres déjà en prod), Qdrant (self-hosted).
  • Observability + evals : Langfuse (default), Helicone, Promptfoo en CI.
  • Backend : Python (FastAPI) ou Node (Hono). Déploiement Modal, Runpod, ou K8s GPU node-groups.

Le profil qu'on cherche

  • 4+ ans en production sur des projets ML/AI. Ou 2+ ans avec une vraie spécialisation LLM/RAG production.
  • Solide en Python (typage strict, async, tests). Une stack backend secondaire (Node, Go) est un plus.
  • Comprends la différence entre un POC qui marche en demo et un système qui tient à 10k QPS avec p99 < 4s.
  • Connaissance pratique des trade-offs : embedding model choice, chunk size, retrieval strategy, prompt engineering vs fine-tuning.
  • Bonus : expérience LLM agents en prod (LangGraph, AutoGen, ou framework custom), ou MLOps (Kubeflow, MLflow, BentoML).

Pourquoi Abbeal pour ce rôle

On a 12+ missions AI production en cours (BNP, Cartier, Le Monde, AXA, plus des moins-glamour). Notre tech radar Q2 2026 met Rust et Pinecone en Adopt, Bun et DSPy en Trial, MongoDB et low-code en Hold — on est opinionated et on tient des comptes.

Tu rejoins une équipe AI qui couvre Paris + Tokyo (la mission Cartier qui combine LLM privé et NLP japonais te donne une idée du niveau). Code review pair-à-pair avec un autre senior AI hebdomadaire, accès au tech radar interne.

FAQ

Quel package sur ce rôle ?
Salarié CDI : 75-100 k€ brut + bonus. Freelance : 800-1100 € TJM HT selon expertise. Les profils confirmés sur RAG production + observability (Langfuse, Promptfoo CI) sont en haut de la fourchette.
Faut-il un PhD ?
Non. On préfère 4 ans de production AI à un PhD sans expérience industrielle. Si tu as les deux : tant mieux.
Quels clients sur ce rôle ?
Banques (BNP, SocGen, BNC, Desjardins) : RAG sur core COBOL + audit ACPR. Luxe (Cartier) : LLM privé sur catalogue produit + NLP JP. Médias (Le Monde) : Insights data pour la rédaction. Industriels (Toyota, Money Forward) : agents tool-use sur ERP. Mix selon ta dispo.
Le mode hybride Tokyo ?
Pour les missions à Tokyo : présentiel partiel chez le client + remote depuis le hub Higashi-Azabu. JLPT N2 minimum demandé côté Tokyo (clients enterprise japonais ne tournent pas en english-only, sauf exceptions startups).

Postuler

Ingénieur IA

Ingénieur IA · Abbeal