TRITON INFERENCE SERVER

Tagged

A collection of 2 posts

大模型推理加速与服务优化

使用 Triton Inference Server 部署 TensorRT-LLM 并设置与 OpenAI 兼容的 API 可实现高效、高性能的推理大型语言模型。

Triton Inference Server 由 NVIDIA 开发，是一个开源平台，旨在简化生产中 AI 和深度学习模型的部署、扩展和优化。