Abbeal

カテゴリ · AI

推論(Inference)

学習ではなく、必要に応じてAIモデルを実行することです。

LLMの本番環境における主要コストで、リクエストごとにGPU秒を消費します。最適化手段はプロンプトキャッシング、バッチング、量子化、モデルルーティング(簡単なクエリはClaude Haiku、複雑なものはSonnet)、セルフホストのvLLMなどです。

// クライアント事例

// 関連

貴社で実装したい?

アーキテクトと話す