カテゴリ · AI
推論(Inference)
学習ではなく、必要に応じてAIモデルを実行することです。
LLMの本番環境における主要コストで、リクエストごとにGPU秒を消費します。最適化手段はプロンプトキャッシング、バッチング、量子化、モデルルーティング(簡単なクエリはClaude Haiku、複雑なものはSonnet)、セルフホストのvLLMなどです。
// クライアント事例
// 関連
カテゴリ · AI
学習ではなく、必要に応じてAIモデルを実行することです。
LLMの本番環境における主要コストで、リクエストごとにGPU秒を消費します。最適化手段はプロンプトキャッシング、バッチング、量子化、モデルルーティング(簡単なクエリはClaude Haiku、複雑なものはSonnet)、セルフホストのvLLMなどです。
// クライアント事例
// 関連