大模型性能排行榜

基于 7×24 小时实时监测数据，从延迟、吞吐量、稳定性、成本等多个维度综合评估

数据更新于：07:51

排序:

排名	模型名称	服务商	综合评分	延迟	吞吐量	上下文	价格
1	GPT-5	OpenAI	99.2	100ms	55 tokens/s	256K	$0.015/1K
2	GPT-4o	OpenAI	98.5	120ms	50 tokens/s	256K	$0.01/1K
3	Claude 4 Opus	Anthropic	98.2	130ms	48 tokens/s	512K	$0.015/1K
4	Claude 3.5 Sonnet	Anthropic	97.8	140ms	45 tokens/s	256K	$0.008/1K
5	Gemini 2.5 Pro	Google	97.5	110ms	52 tokens/s	1M	$0.012/1K
6	Gemini 2.0 Flash	Google	95.8	70ms	75 tokens/s	128K	$0.003/1K
7	Qwen3-Max-Thinking	阿里百炼	97.2	85ms	55 tokens/s	512K	¥0.025/1K
8	通义千问 Max	阿里百炼	96.2	80ms	52 tokens/s	256K	¥0.02/1K
9	豆包-Seed-2.0 Pro	火山引擎	96	75ms	58 tokens/s	256K	¥0.018/1K
10	豆包 Pro	火山引擎	95.6	90ms	50 tokens/s	128K	¥0.015/1K
11	混元 Turbo	腾讯	95.2	88ms	53 tokens/s	256K	¥0.016/1K
12	混元 Pro	腾讯	94.8	95ms	48 tokens/s	256K	¥0.018/1K
13	文心一言 5.0	百度	94.5	92ms	50 tokens/s	256K	¥0.018/1K
14	文心一言 4.0	百度	94.2	100ms	46 tokens/s	128K	¥0.02/1K
15	Kimi 2.0	月之暗面	94	105ms	45 tokens/s	512K	¥0.015/1K
16	MiniMax M2	MiniMax	93.8	95ms	50 tokens/s	256K	¥0.012/1K
17	MiniMax ABAB 6.5	MiniMax	93.5	110ms	42 tokens/s	240K	¥0.012/1K
18	Kimi Moonshot	月之暗面	92.8	120ms	40 tokens/s	200K	¥0.015/1K
19	DeepSeek V3	深度求索	92.5	85ms	55 tokens/s	128K	¥0.008/1K
20	零一万物 YI-Large	零一万物	91.5	100ms	48 tokens/s	256K	¥0.01/1K
21	通义千问 Plus	阿里百炼	91.8	65ms	60 tokens/s	32K	¥0.01/1K
22	Claude 3 Haiku	Anthropic	90.5	75ms	65 tokens/s	200K	$0.0025/1K
23	豆包 Lite	火山引擎	89.8	55ms	68 tokens/s	32K	¥0.005/1K
24	GPT-4o Mini	OpenAI	89.5	60ms	70 tokens/s	64K	$0.0015/1K
25	Qwen2.5-72B-Long	阿里百炼	90	150ms	35 tokens/s	1M	¥0.03/1K
26	Kimi Plus	月之暗面	89.5	160ms	32 tokens/s	2M	¥0.02/1K

评分方法论

延迟 (30%)

首次 token 延迟 (TTFT) 和端到端延迟的综合评估

吞吐量 (25%)

每秒生成 token 数量和并发处理能力

稳定性 (25%)

服务可用性、错误率和请求成功率

性价比 (20%)

单位成本下的性能表现和免费额度