AI Model Benchmark Hub

大模型测评集：看懂榜单，而不是盲目追第一名

这里整理全球主流大模型测评网站，并用中文解释它们分别适合判断什么。Arena 更像真实用户偏好， Artificial Analysis 更适合综合能力、速度和价格比较，Vals AI 更接近行业任务，HELM 则强调透明和可复现。

Guozhen AI Composite Ranking v0.1

郭震 AI 综合加权榜

这是本站的原创综合排名：把 Arena 多场景偏好、Vals 真实任务、Artificial Analysis 生产选型信号、 HELM 透明评测信号归一化为 0-100 分后加权。它不是任何单一网站的官方排名，而是面向中文用户的综合判断。

自动快照：2026-06-01
每 3 天自动刷新一次，下一轮约 2026-06-05

榜单综合 LMArena Text、WebDev、Vision、Document 等公开测评信号，再结合 Vals、Artificial Analysis 和 HELM 类方法论做编辑校准。外部数据源短暂不可用时，页面会继续保留稳定的综合排名，不把抓取诊断信息展示给普通读者。

40%

Arena 多场景偏好

综合 Text、WebDev、Vision、Document 等用户偏好榜信号，反映真实使用体验。

25%

Vals / 真实任务

参考代码、终端、行业任务和 Agent 类任务表现，避免只看聊天体验。

25%

Artificial Analysis

参考综合智能、速度、延迟和价格等生产选型信号。

10%

HELM / 透明评测

参考可复现、鲁棒性、多指标分析和研究透明度。

排名	模型	综合分	Arena	任务	效率	透明	最适合
1	claude-opus-4-7-thinking Anthropic	94.8	99	94	90	87	复杂推理、长文档、工程 Agent、WebDev Arena 多项靠前，同时在真实任务和工程类评测中保持强势，是当前综合榜的第一梯队核心模型。
2	claude-opus-4-6-thinking Anthropic	93.6	98	92	89	87	文档理解、深度写作、推理任务在 Text、Vision、Document 等偏好榜里非常稳定，综合能力略低于新版 thinking 模型。
3	gemini-3.1-pro-preview Google	91.7	91	96	91	84	代码、长上下文、多模态、搜索增强任务 Vals 代码类和长上下文任务信号很强，综合分被真实任务表现显著拉高。
4	gpt-5.5-high OpenAI	90.9	88	95	96	83	通用智能、代码修复、API 生产选型在 Vals SWE-bench 类任务和综合智能信号上很强，成本速度维度也有优势。
5	claude-opus-4-7 Anthropic	89.4	96	88	86	86	写作、对话、文档、轻量 Agent 非 thinking 版本在 Arena 和 WebDev 中仍然很强，但复杂任务稳定性略低于 thinking 版本。
6	claude-opus-4-6 Anthropic	88.8	95	87	86	86	文本创作、视觉理解、文档分析综合体验很稳，适合高质量内容和复杂材料分析。
7	gemini-3-pro Google	88.3	90	89	91	84	视觉、多模态、长上下文 Vision 和多模态场景优势明显，综合分在 Google 模型中保持高位。
8	gpt-5.4-high OpenAI	84.1	87	88	85	82	竞赛编程、稳定 API、通用助手在部分学术和代码任务中仍有强信号，但整体已被 GPT-5.5 和新 Claude 拉开。
9	qwen3.7-max-20260517 Alibaba	83.7	86	83	86	79	中文任务、WebDev、性价比 API WebDev 榜表现突出，中文和成本场景值得单独关注。
10	gemini-3.5-flash Google	82.6	84	81	93	80	低延迟、多模态、高吞吐任务不是最强智能模型，但速度和成本优势明显，适合规模化生产场景。
11	claude-sonnet-4-6 Anthropic	80.8	82	81	82	84	日常写作、代码解释、成本受控任务不是顶级 Opus 档，但在成本与质量之间比较均衡。
12	glm-5.1 Zhipu AI	79.2	82	78	82	75	中文问答、国产生态、企业私有化评估 WebDev 信号不错，适合中文和国产生态场景继续复测。
13	kimi-k2.6 Moonshot AI	78.4	81	77	82	74	中文长文档、知识整理、性价比场景长文档和中文生态有看点，但跨源覆盖还不如前三大厂充分。
14	muse-spark Meta	77.1	85	73	78	76	通用对话、开源生态观察 Arena Text 信号较强，但工程、行业和生产选型数据覆盖不足，因此综合排名下调。
15	deepseek-r1-202605 DeepSeek	76.4	78	79	83	72	中文推理、数学、低成本 API 推理和性价比信号较好，适合中文技术问答和成本敏感任务复测。
16	deepseek-v3.1 DeepSeek	75.8	77	76	86	72	通用中文、批量处理、工具调用效率和成本表现较好，适合作为批量工作流候选模型。
17	llama-4-maverick Meta	74.9	75	74	78	88	开放生态、本地部署、研究复现开放生态和透明度优势明显，但顶级任务能力弱于闭源第一梯队。
18	qwen3.7-plus Alibaba	74.2	76	73	84	76	中文应用、低成本生产、国产生态中文生态和价格友好，适合作为企业生产备选模型。
19	grok-4 xAI	73.6	76	72	77	70	实时信息、创意问答、社交语境实时信息和创意问答有特点，但跨源评测覆盖不如主流第一梯队充分。
20	mistral-large-2 Mistral	72.8	73	72	80	79	欧盟合规、开放生态、多语言任务多语言和合规场景有价值，但综合能力不在最前排。

Trusted Sources

主流大模型测评网站怎么读

Arena / LMArena

真实用户偏好

来源

通过匿名、成对比较收集真实用户投票，适合观察通用对话、写作、图片等体验型能力，但单一 Elo/BT 分数不等于所有业务场景最优。

通用聊天写作体验多模态偏好新模型热度

局限：用户偏好会受样本、流量分配、提示类型和模型曝光影响。

Artificial Analysis

能力、速度、价格综合

来源

同时跟踪智能指数、输出速度、延迟和价格，适合做 API 选型、成本控制和生产性能比较。

API 选型成本比较速度延迟综合能力

局限：综合指数无法覆盖每个公司的私有任务，仍需用自己的提示和数据复测。

Vals AI

行业任务测评

来源

聚焦金融、法律、医疗、代码、教育等高价值任务，适合判断模型在行业材料、长上下文和智能体流程里的实际可用性。

金融法律行业文档长上下文Agent 工作流

局限：部分数据集和评分细节是私有的，更适合作为行业信号而不是可完全复现实验。

Stanford HELM

透明可复现评测

来源

强调公开场景、指标和可复现流程，适合研究型读者理解模型能力、鲁棒性和评测方法。

研究复现能力分项评测方法多指标分析

局限：更新节奏通常不如商业榜单快，实时新模型覆盖可能滞后。

Guozhen AI Scorecard

本站建议的综合分析框架

30%

综合智能

看数学、科学、推理、知识和复杂指令的整体表现，避免只看单个榜单第一名。

25%

真实任务

关注行业文档、代码仓库、工具调用、多轮流程和长上下文，而不是只看考试题。

20%

稳定性

观察是否容易幻觉、是否能稳定遵循格式、是否能在长任务中保持一致。

15%

成本与速度

同等质量下，比较输入输出价格、延迟、吞吐和上下文窗口。

10%

开放性与可控性

区分闭源 API、开放权重、本地部署、数据合规和可审计能力。

Model Selection

按真实场景选择模型

日常写作、问答、知识整理

优先参考 Arena 偏好榜，再结合 Artificial Analysis 的速度和成本。

代码生成、修 bug、工程 Agent

优先看 LiveCodeBench、SWE-bench、Terminal-Bench、Vals 代码类任务，并用自己的仓库复测。

金融、法律、医疗、教育等行业场景

优先看 Vals 这类行业任务榜，再补充企业内部私有评测。

研究、论文、模型能力分析

优先看 HELM、GPQA、MMLU-Pro、HLE 等透明或学术测评，并阅读方法说明。

本地部署、私有数据、安全合规

单独比较开放权重、许可证、部署成本、上下文窗口和数据留存策略。

日常写作、问答、知识整理

优先参考 Arena 偏好榜，再结合 Artificial Analysis 的速度和成本。

权重：Arena Text/Document 偏好 50%，综合智能 20%，输出速度和成本 20%，中文知识整理体验 10%。

claude-opus-4-7-thinking

Anthropic

96.2

写作质量、长答案组织、复杂问答和文档总结稳定性最强，适合高质量内容生产。

claude-opus-4-6-thinking

Anthropic

95.1

Arena Text 和 Document 信号非常稳，适合长文档理解、深度写作和知识整理。

gemini-3.1-pro-preview

Google

91.8

多模态、长上下文和信息组织能力强，适合资料汇总和跨格式知识整理。

gpt-5.5-high

OpenAI

90.7

综合问答、结构化输出和 API 生产体验好，适合知识库、客服和自动化问答。

gemini-3.5-flash

Google

84.4

质量不是最高，但速度和成本优势明显，适合高频摘要、批量改写和轻量问答。

claude-opus-4-7

Anthropic

88.9

非 thinking 版本写作和对话体验仍然很强，适合高质量内容草稿和长文改写。

gemini-3-pro

Google

87.6

多模态资料整理和长上下文问答较强，适合跨文档知识汇总。

gpt-5.4-high

OpenAI

86.8

结构化问答和知识整理稳定，适合通用助手和企业知识库候选。

claude-sonnet-4-6

Anthropic

85.7

质量和成本比较均衡，适合日常写作、解释和摘要。

#10

qwen3.7-max-20260517

Alibaba

84.9

中文表达和 Web 信息整理较好，适合中文内容生产复测。

#11

deepseek-r1-202605

DeepSeek

83.8

推理型问答较强，适合技术解释和中文知识问答。

#12

kimi-k2.6

Moonshot AI

82.7

中文长文档整理有优势，适合资料归纳和长文本提炼。

#13

glm-5.1

Zhipu AI

81.9

中文通用问答较稳，适合国产生态和企业中文场景。

#14

deepseek-v3.1

DeepSeek

81.3

成本友好，适合批量问答和低成本内容处理。

#15

qwen3.7-plus

Alibaba

80.6

适合中文轻量知识整理和成本敏感应用。

#16

muse-spark

Meta

79.8

Arena 文本偏好信号不错，适合开放生态观察。

#17

llama-4-maverick

Meta

78.9

开放生态友好，适合可控部署下的文本任务。

#18

grok-4

xAI

78.1

实时信息和创意表达有特色，适合轻量探索。

#19

mistral-large-2

Mistral

76.8

多语言表达稳定，适合欧盟合规和多语种内容场景。

#20

command-r-plus-next

Cohere

75.9

检索增强和企业知识问答方向值得作为备选模型。

代码生成、修 bug、工程 Agent

优先看 LiveCodeBench、SWE-bench、Terminal-Bench、Vals 代码类任务，并用自己的仓库复测。

权重：Vals/SWE 类真实任务 40%，WebDev/Arena 工程偏好 25%，Agent 稳定性 20%，速度成本 15%。

gemini-3.1-pro-preview

Google

96.0

代码类任务、长上下文和仓库级理解信号强，适合复杂工程修改和搜索增强开发。

gpt-5.5-high

OpenAI

95.2

SWE 风格修复、结构化工具调用和生产 API 表现强，适合工程 Agent 和自动修 bug。

claude-opus-4-7-thinking

Anthropic

94.5

WebDev 榜和复杂推理强，适合前端重构、架构分析和长链路代码任务。

qwen3.7-max-20260517

Alibaba

87.6

WebDev 信号突出，中文工程场景和成本敏感 API 场景值得优先复测。

claude-sonnet-4-6

Anthropic

84.9

成本和质量较均衡，适合日常代码解释、局部修复和轻量 Agent 工作流。

claude-opus-4-6-thinking

Anthropic

84.0

复杂代码解释和架构分析稳定，但工程自动化弱于前三。

gpt-5.4-high

OpenAI

83.4

竞赛编程和通用代码任务仍然强，适合作为稳定备选。

claude-opus-4-7

Anthropic

82.9

前端、文档和轻量 Agent 表现不错，复杂推理略弱于 thinking。

gemini-3-pro

Google

82.1

长上下文和多模态工程材料处理较强。

#10

deepseek-r1-202605

DeepSeek

81.6

推理和算法题信号较强，适合技术问答和局部修复。

#11

deepseek-v3.1

DeepSeek

80.7

成本效率不错，适合批量代码解释和轻量生成。

#12

qwen3.7-plus

Alibaba

79.9

中文工程场景和成本敏感 API 可以复测。

#13

glm-5.1

Zhipu AI

78.8

WebDev 信号尚可，适合中文工程助手备选。

#14

kimi-k2.6

Moonshot AI

77.9

长文档代码说明和需求梳理有价值。

#15

llama-4-maverick

Meta

76.8

本地可控代码助手可测试，但仓库级能力需复测。

#16

mistral-large-2

Mistral

75.8

多语言代码解释可用，顶级修复能力有限。

#17

muse-spark

Meta

74.9

开放生态候选，真实工程任务覆盖还需补充。

#18

grok-4

xAI

74.1

适合实时技术资料辅助，但工程修复稳定性需自测。

#19

command-r-plus-next

Cohere

73.4

RAG 工程解释有价值，代码生成不是最强项。

#20

yi-large-next

01.AI

72.8

中文工程资料问答可作为长尾候选。

金融、法律、医疗、教育等行业场景

优先看 Vals 这类行业任务榜，再补充企业内部私有评测。

权重：Vals 行业任务 45%，长文档和推理 25%，合规可控性 15%，成本速度 15%。

claude-opus-4-7-thinking

Anthropic

95.0

长文档、复杂推理和安全回答风格稳定，适合法律、金融研究和教育内容审核。

gemini-3.1-pro-preview

Google

93.8

长上下文、多模态和行业材料处理能力强，适合报告、文档和跨格式资料分析。

gpt-5.5-high

OpenAI

92.9

综合智能和工具生态好，适合企业知识库、客服、内部流程自动化和合规审阅。

claude-opus-4-6-thinking

Anthropic

91.5

文档处理和推理能力稳定，适合行业研究和专业材料整理。

kimi-k2.6

Moonshot AI

82.3

中文长文档和知识整理有优势，适合中文行业材料的低成本复测。

claude-opus-4-7

Anthropic

89.9

专业写作和材料整理稳定，适合非最高复杂度行业工作流。

gemini-3-pro

Google

88.4

多模态行业材料和长上下文任务表现较好。

gpt-5.4-high

OpenAI

87.8

企业工具生态稳定，适合行业知识库备选。

qwen3.7-max-20260517

Alibaba

86.2

中文行业材料和国产生态场景值得复测。

#10

claude-sonnet-4-6

Anthropic

85.4

成本和质量均衡，适合日常行业文档助手。

#11

deepseek-r1-202605

DeepSeek

84.1

推理类行业问答有价值，适合技术和规则解释。

#12

glm-5.1

Zhipu AI

83.3

国产生态和中文场景友好，适合企业内部评估。

#13

deepseek-v3.1

DeepSeek

82.4

低成本批量处理行业文本可作为候选。

#14

qwen3.7-plus

Alibaba

81.6

中文成本敏感行业场景可继续复测。

#15

llama-4-maverick

Meta

80.5

开放部署价值高，适合私有数据合规前提下评估。

#16

mistral-large-2

Mistral

79.7

欧盟合规和多语言行业材料有优势。

#17

muse-spark

Meta

78.8

开放生态候选，但行业任务覆盖需加强。

#18

command-r-plus-next

Cohere

78.0

RAG 和企业知识问答方向有可用性。

#19

grok-4

xAI

77.1

实时信息辅助有价值，严肃行业场景需谨慎复测。

#20

yi-large-next

01.AI

76.2

中文行业资料问答可作为长尾候选。

研究、论文、模型能力分析

优先看 HELM、GPQA、MMLU-Pro、HLE 等透明或学术测评，并阅读方法说明。

权重：透明学术评测 35%，推理和知识能力 30%，可复现性 20%，工具/检索辅助 15%。

claude-opus-4-7-thinking

Anthropic

94.2

复杂推理、论文总结和长链路分析能力强，适合研究助理和方法论比较。

gpt-5.5-high

OpenAI

93.4

综合知识、工具生态和结构化分析能力强，适合论文阅读、实验设计和代码验证。

gemini-3.1-pro-preview

Google

92.8

长上下文和多模态材料处理能力强，适合跨论文、图表和数据资料分析。

claude-opus-4-6-thinking

Anthropic

91.0

推理和文档理解稳定，适合严肃长文阅读和研究笔记整理。

gemini-3-pro

Google

87.1

视觉和多模态理解较好，适合图表、论文插图和实验材料分析。

claude-opus-4-7

Anthropic

88.9

长文阅读和结构化研究笔记稳定。

gpt-5.4-high

OpenAI

88.2

学术问答和代码验证能力仍然较强。

deepseek-r1-202605

DeepSeek

86.7

推理和数学解释适合作为研究辅助候选。

qwen3.7-max-20260517

Alibaba

85.6

中文论文和技术资料整理可用性较好。

#10

claude-sonnet-4-6

Anthropic

84.9

研究笔记整理和论文解释成本较稳。

#11

llama-4-maverick

Meta

84.1

开放生态和可复现性较好，适合研究复核。

#12

deepseek-v3.1

DeepSeek

83.3

低成本技术材料处理可作为批量研究助手。

#13

glm-5.1

Zhipu AI

82.2

中文研究材料解释和国产生态有价值。

#14

kimi-k2.6

Moonshot AI

81.5

中文长文档和资料摘要适合复测。

#15

qwen3.7-plus

Alibaba

80.6

中文研究资料整理的成本友好候选。

#16

mistral-large-2

Mistral

79.8

多语言研究资料处理和合规场景有价值。

#17

muse-spark

Meta

78.7

开放生态候选，但学术任务覆盖仍需补充。

#18

grok-4

xAI

77.9

实时资料探索有特色，严肃研究需核验。

#19

command-r-plus-next

Cohere

77.0

检索增强研究资料问答可作为专用候选。

#20

yi-large-next

01.AI

76.2

中文研究文本整理可做长尾备选。

本地部署、私有数据、安全合规

单独比较开放权重、许可证、部署成本、上下文窗口和数据留存策略。

权重：开放性和可部署性 35%，数据控制 25%，中文可用性 15%，成本效率 15%，能力表现 10%。

qwen3.7-max / Qwen 开放生态

Alibaba

89.0

中文生态、开源社区和本地部署路线完整，适合私有知识库和国产化评估。

glm-5.1 / GLM 开放生态

Zhipu AI

86.4

中文能力和企业落地生态较强，适合国产模型私有化和行业应用验证。

kimi-k2.6 / Moonshot 生态

Moonshot AI

83.2

长上下文和中文文档场景值得关注，适合中文资料整理与内部知识问答复测。

muse-spark / Meta 开放生态

Meta

81.5

开放生态和社区可玩性强，但中文、行业任务和企业支持需要额外验证。

gemini-3.5-flash

Google

78.8

严格意义上不是本地部署优先项，但在低成本、高吞吐、私有数据脱敏后调用场景有价值。

deepseek-r1 / DeepSeek open ecosystem

DeepSeek

77.9

推理和开源生态有价值，适合私有推理任务评估。

deepseek-v3.1 / DeepSeek ecosystem

DeepSeek

77.2

成本友好，适合私有批量文本任务。

mistral-large-2 / Mistral ecosystem

Mistral

76.5

多语言和欧盟合规场景有吸引力。

qwen3.7-plus / Qwen open ecosystem

Alibaba

75.8

中文部署和成本敏感场景值得复测。

#10

command-r-plus-next

Cohere

74.9

企业 RAG 和数据控制场景有价值。

#11

yi-large-next

01.AI

74.0

中文本地化生态可作为候选。

#12

baichuan-4-next

Baichuan

73.2

中文企业场景和私有化路线可评估。

#13

internlm3-latest

Shanghai AI Lab

72.6

研究和教育生态友好，适合实验型部署。

#14

minimax-text-01

MiniMax

71.8

中文应用生态候选，需结合私有化条件判断。

#15

ernie-4.5

Baidu

71.1

国产生态和企业集成渠道可考虑。

#16

gemini-3.5-flash

Google

70.5

非本地优先，但脱敏后高吞吐调用有价值。

#17

gpt-5.5-high

OpenAI

69.4

能力强但本地部署和数据控制不是优势。

#18

claude-sonnet-4-6

Anthropic

68.8

能力均衡，但私有部署维度受限。

#19

claude-opus-4-7-thinking

Anthropic

68.1

能力最强之一，但本地和私有部署维度不占优。

#20

gemini-3.1-pro-preview

Google

67.6

能力很强，但本地部署和私有数据控制不是主要优势。

编辑说明

本页不是复制外部榜单，也不声称某个模型永远最好。郭震 AI 会把公开测评来源、方法差异和中文应用场景放在一起解释。对企业或个人项目来说，最稳妥的方法是先看公开榜单，再用自己的提示、数据、预算和合规要求做小样本复测。

继续看今日 AI 返回 AI 教程