大模型性能排行榜
基于 7×24 小时实时监测数据,从延迟、吞吐量、稳定性、成本等多个维度综合评估
数据更新于:07:51
排序:
| 排名 | 模型名称 | 服务商 | 综合评分 | 延迟 | 吞吐量 | 上下文 | 价格 |
|---|---|---|---|---|---|---|---|
1 | GPT-5 | OpenAI | 99.2 | 100ms | 55 tokens/s | 256K | $0.015/1K |
2 | GPT-4o | OpenAI | 98.5 | 120ms | 50 tokens/s | 256K | $0.01/1K |
3 | Claude 4 Opus | Anthropic | 98.2 | 130ms | 48 tokens/s | 512K | $0.015/1K |
| 4 | Claude 3.5 Sonnet | Anthropic | 97.8 | 140ms | 45 tokens/s | 256K | $0.008/1K |
| 5 | Gemini 2.5 Pro | 97.5 | 110ms | 52 tokens/s | 1M | $0.012/1K | |
| 6 | Gemini 2.0 Flash | 95.8 | 70ms | 75 tokens/s | 128K | $0.003/1K | |
| 7 | Qwen3-Max-Thinking | 阿里百炼 | 97.2 | 85ms | 55 tokens/s | 512K | ¥0.025/1K |
| 8 | 通义千问 Max | 阿里百炼 | 96.2 | 80ms | 52 tokens/s | 256K | ¥0.02/1K |
| 9 | 豆包-Seed-2.0 Pro | 火山引擎 | 96 | 75ms | 58 tokens/s | 256K | ¥0.018/1K |
| 10 | 豆包 Pro | 火山引擎 | 95.6 | 90ms | 50 tokens/s | 128K | ¥0.015/1K |
| 11 | 混元 Turbo | 腾讯 | 95.2 | 88ms | 53 tokens/s | 256K | ¥0.016/1K |
| 12 | 混元 Pro | 腾讯 | 94.8 | 95ms | 48 tokens/s | 256K | ¥0.018/1K |
| 13 | 文心一言 5.0 | 百度 | 94.5 | 92ms | 50 tokens/s | 256K | ¥0.018/1K |
| 14 | 文心一言 4.0 | 百度 | 94.2 | 100ms | 46 tokens/s | 128K | ¥0.02/1K |
| 15 | Kimi 2.0 | 月之暗面 | 94 | 105ms | 45 tokens/s | 512K | ¥0.015/1K |
| 16 | MiniMax M2 | MiniMax | 93.8 | 95ms | 50 tokens/s | 256K | ¥0.012/1K |
| 17 | MiniMax ABAB 6.5 | MiniMax | 93.5 | 110ms | 42 tokens/s | 240K | ¥0.012/1K |
| 18 | Kimi Moonshot | 月之暗面 | 92.8 | 120ms | 40 tokens/s | 200K | ¥0.015/1K |
| 19 | DeepSeek V3 | 深度求索 | 92.5 | 85ms | 55 tokens/s | 128K | ¥0.008/1K |
| 20 | 零一万物 YI-Large | 零一万物 | 91.5 | 100ms | 48 tokens/s | 256K | ¥0.01/1K |
| 21 | 通义千问 Plus | 阿里百炼 | 91.8 | 65ms | 60 tokens/s | 32K | ¥0.01/1K |
| 22 | Claude 3 Haiku | Anthropic | 90.5 | 75ms | 65 tokens/s | 200K | $0.0025/1K |
| 23 | 豆包 Lite | 火山引擎 | 89.8 | 55ms | 68 tokens/s | 32K | ¥0.005/1K |
| 24 | GPT-4o Mini | OpenAI | 89.5 | 60ms | 70 tokens/s | 64K | $0.0015/1K |
| 25 | Qwen2.5-72B-Long | 阿里百炼 | 90 | 150ms | 35 tokens/s | 1M | ¥0.03/1K |
| 26 | Kimi Plus | 月之暗面 | 89.5 | 160ms | 32 tokens/s | 2M | ¥0.02/1K |
评分方法论
延迟 (30%)
首次 token 延迟 (TTFT) 和端到端延迟的综合评估
吞吐量 (25%)
每秒生成 token 数量和并发处理能力
稳定性 (25%)
服务可用性、错误率和请求成功率
性价比 (20%)
单位成本下的性能表现和免费额度