性能优化指南
通过优化配置可以显著提升 API 响应速度。
性能优化建议
1. 使用流式输出
启用流式输出可以降低首字延迟
首字延迟降低 50%+
2. 限制 max_tokens
设置合理的 max_tokens 上限
减少等待时间
3. 选择低延迟模型
选择 Turbo/Lite 系列模型
延迟降低 30-50%
4. 实现客户端缓存
缓存相似请求的响应
命中缓存时响应时间 < 10ms
延迟对比
| 模型 | 平均延迟 | P95 延迟 | P99 延迟 |
|---|---|---|---|
| DeepSeek-V3 | 75ms | 150ms | 250ms |
| Qwen-Turbo | 50ms | 100ms | 180ms |
| Qwen-Plus | 70ms | 140ms | 220ms |
| Qwen-Max | 85ms | 170ms | 300ms |