大模型性能排行榜

基于 7×24 小时实时监测数据,从延迟、吞吐量、稳定性、成本等多个维度综合评估

数据更新于:07:51
排序:
排名模型名称服务商综合评分延迟吞吐量上下文价格
1
GPT-5OpenAI
99.2
100ms55 tokens/s256K$0.015/1K
2
GPT-4oOpenAI
98.5
120ms50 tokens/s256K$0.01/1K
3
Claude 4 OpusAnthropic
98.2
130ms48 tokens/s512K$0.015/1K
4Claude 3.5 SonnetAnthropic
97.8
140ms45 tokens/s256K$0.008/1K
5Gemini 2.5 ProGoogle
97.5
110ms52 tokens/s1M$0.012/1K
6Gemini 2.0 FlashGoogle
95.8
70ms75 tokens/s128K$0.003/1K
7Qwen3-Max-Thinking阿里百炼
97.2
85ms55 tokens/s512K¥0.025/1K
8通义千问 Max阿里百炼
96.2
80ms52 tokens/s256K¥0.02/1K
9豆包-Seed-2.0 Pro火山引擎
96
75ms58 tokens/s256K¥0.018/1K
10豆包 Pro火山引擎
95.6
90ms50 tokens/s128K¥0.015/1K
11混元 Turbo腾讯
95.2
88ms53 tokens/s256K¥0.016/1K
12混元 Pro腾讯
94.8
95ms48 tokens/s256K¥0.018/1K
13文心一言 5.0百度
94.5
92ms50 tokens/s256K¥0.018/1K
14文心一言 4.0百度
94.2
100ms46 tokens/s128K¥0.02/1K
15Kimi 2.0月之暗面
94
105ms45 tokens/s512K¥0.015/1K
16MiniMax M2MiniMax
93.8
95ms50 tokens/s256K¥0.012/1K
17MiniMax ABAB 6.5MiniMax
93.5
110ms42 tokens/s240K¥0.012/1K
18Kimi Moonshot月之暗面
92.8
120ms40 tokens/s200K¥0.015/1K
19DeepSeek V3深度求索
92.5
85ms55 tokens/s128K¥0.008/1K
20零一万物 YI-Large零一万物
91.5
100ms48 tokens/s256K¥0.01/1K
21通义千问 Plus阿里百炼
91.8
65ms60 tokens/s32K¥0.01/1K
22Claude 3 HaikuAnthropic
90.5
75ms65 tokens/s200K$0.0025/1K
23豆包 Lite火山引擎
89.8
55ms68 tokens/s32K¥0.005/1K
24GPT-4o MiniOpenAI
89.5
60ms70 tokens/s64K$0.0015/1K
25Qwen2.5-72B-Long阿里百炼
90
150ms35 tokens/s1M¥0.03/1K
26Kimi Plus月之暗面
89.5
160ms32 tokens/s2M¥0.02/1K

评分方法论

延迟 (30%)

首次 token 延迟 (TTFT) 和端到端延迟的综合评估

吞吐量 (25%)

每秒生成 token 数量和并发处理能力

稳定性 (25%)

服务可用性、错误率和请求成功率

性价比 (20%)

单位成本下的性能表现和免费额度