文档中心/最佳实践/性能优化指南

性能优化指南

通过优化配置可以显著提升 API 响应速度。

性能优化建议

1. 使用流式输出

启用流式输出可以降低首字延迟

首字延迟降低 50%+

2. 限制 max_tokens

设置合理的 max_tokens 上限

减少等待时间

3. 选择低延迟模型

选择 Turbo/Lite 系列模型

延迟降低 30-50%

4. 实现客户端缓存

缓存相似请求的响应

命中缓存时响应时间 < 10ms

延迟对比

模型平均延迟P95 延迟P99 延迟
DeepSeek-V375ms150ms250ms
Qwen-Turbo50ms100ms180ms
Qwen-Plus70ms140ms220ms
Qwen-Max85ms170ms300ms