文档中心/最佳实践/性能优化指南

性能优化指南

通过优化配置可以显著提升 API 响应速度。

性能优化建议

1. 使用流式输出

启用流式输出可以降低首字延迟

首字延迟降低 50%+

2. 限制 max_tokens

设置合理的 max_tokens 上限

减少等待时间

3. 选择低延迟模型

选择 Turbo/Lite 系列模型

延迟降低 30-50%

4. 实现客户端缓存

缓存相似请求的响应

命中缓存时响应时间 < 10ms

延迟对比

模型	平均延迟	P95 延迟	P99 延迟
DeepSeek-V3	75ms	150ms	250ms
Qwen-Turbo	50ms	100ms	180ms
Qwen-Plus	70ms	140ms	220ms
Qwen-Max	85ms	170ms	300ms