Arena 多场景偏好
综合 Text、WebDev、Vision、Document 等用户偏好榜信号,反映真实使用体验。
Guozhen AI Composite Ranking v0.1
这是本站的原创综合排名:把 Arena 多场景偏好、Vals 真实任务、Artificial Analysis 生产选型信号、 HELM 透明评测信号归一化为 0-100 分后加权。它不是任何单一网站的官方排名,而是面向中文用户的综合判断。
榜单综合 LMArena Text、WebDev、Vision、Document 等公开测评信号,再结合 Vals、Artificial Analysis 和 HELM 类方法论做编辑校准。外部数据源短暂不可用时,页面会继续保留稳定的综合排名,不把抓取诊断信息展示给普通读者。
综合 Text、WebDev、Vision、Document 等用户偏好榜信号,反映真实使用体验。
参考代码、终端、行业任务和 Agent 类任务表现,避免只看聊天体验。
参考综合智能、速度、延迟和价格等生产选型信号。
参考可复现、鲁棒性、多指标分析和研究透明度。
| 排名 | 模型 | 综合分 | Arena | 任务 | 效率 | 透明 | 最适合 |
|---|---|---|---|---|---|---|---|
| 1 | claude-opus-4-7-thinking Anthropic | 94.8 | 99 | 94 | 90 | 87 | 复杂推理、长文档、工程 Agent、WebDev Arena 多项靠前,同时在真实任务和工程类评测中保持强势,是当前综合榜的第一梯队核心模型。 |
| 2 | claude-opus-4-6-thinking Anthropic | 93.6 | 98 | 92 | 89 | 87 | 文档理解、深度写作、推理任务 在 Text、Vision、Document 等偏好榜里非常稳定,综合能力略低于新版 thinking 模型。 |
| 3 | gemini-3.1-pro-preview Google | 91.7 | 91 | 96 | 91 | 84 | 代码、长上下文、多模态、搜索增强任务 Vals 代码类和长上下文任务信号很强,综合分被真实任务表现显著拉高。 |
| 4 | gpt-5.5-high OpenAI | 90.9 | 88 | 95 | 96 | 83 | 通用智能、代码修复、API 生产选型 在 Vals SWE-bench 类任务和综合智能信号上很强,成本速度维度也有优势。 |
| 5 | claude-opus-4-7 Anthropic | 89.4 | 96 | 88 | 86 | 86 | 写作、对话、文档、轻量 Agent 非 thinking 版本在 Arena 和 WebDev 中仍然很强,但复杂任务稳定性略低于 thinking 版本。 |
| 6 | claude-opus-4-6 Anthropic | 88.8 | 95 | 87 | 86 | 86 | 文本创作、视觉理解、文档分析 综合体验很稳,适合高质量内容和复杂材料分析。 |
| 7 | gemini-3-pro Google | 88.3 | 90 | 89 | 91 | 84 | 视觉、多模态、长上下文 Vision 和多模态场景优势明显,综合分在 Google 模型中保持高位。 |
| 8 | gpt-5.4-high OpenAI | 84.1 | 87 | 88 | 85 | 82 | 竞赛编程、稳定 API、通用助手 在部分学术和代码任务中仍有强信号,但整体已被 GPT-5.5 和新 Claude 拉开。 |
| 9 | qwen3.7-max-20260517 Alibaba | 83.7 | 86 | 83 | 86 | 79 | 中文任务、WebDev、性价比 API WebDev 榜表现突出,中文和成本场景值得单独关注。 |
| 10 | gemini-3.5-flash Google | 82.6 | 84 | 81 | 93 | 80 | 低延迟、多模态、高吞吐任务 不是最强智能模型,但速度和成本优势明显,适合规模化生产场景。 |
| 11 | claude-sonnet-4-6 Anthropic | 80.8 | 82 | 81 | 82 | 84 | 日常写作、代码解释、成本受控任务 不是顶级 Opus 档,但在成本与质量之间比较均衡。 |
| 12 | glm-5.1 Zhipu AI | 79.2 | 82 | 78 | 82 | 75 | 中文问答、国产生态、企业私有化评估 WebDev 信号不错,适合中文和国产生态场景继续复测。 |
| 13 | kimi-k2.6 Moonshot AI | 78.4 | 81 | 77 | 82 | 74 | 中文长文档、知识整理、性价比场景 长文档和中文生态有看点,但跨源覆盖还不如前三大厂充分。 |
| 14 | muse-spark Meta | 77.1 | 85 | 73 | 78 | 76 | 通用对话、开源生态观察 Arena Text 信号较强,但工程、行业和生产选型数据覆盖不足,因此综合排名下调。 |
| 15 | deepseek-r1-202605 DeepSeek | 76.4 | 78 | 79 | 83 | 72 | 中文推理、数学、低成本 API 推理和性价比信号较好,适合中文技术问答和成本敏感任务复测。 |
| 16 | deepseek-v3.1 DeepSeek | 75.8 | 77 | 76 | 86 | 72 | 通用中文、批量处理、工具调用 效率和成本表现较好,适合作为批量工作流候选模型。 |
| 17 | llama-4-maverick Meta | 74.9 | 75 | 74 | 78 | 88 | 开放生态、本地部署、研究复现 开放生态和透明度优势明显,但顶级任务能力弱于闭源第一梯队。 |
| 18 | qwen3.7-plus Alibaba | 74.2 | 76 | 73 | 84 | 76 | 中文应用、低成本生产、国产生态 中文生态和价格友好,适合作为企业生产备选模型。 |
| 19 | grok-4 xAI | 73.6 | 76 | 72 | 77 | 70 | 实时信息、创意问答、社交语境 实时信息和创意问答有特点,但跨源评测覆盖不如主流第一梯队充分。 |
| 20 | mistral-large-2 Mistral | 72.8 | 73 | 72 | 80 | 79 | 欧盟合规、开放生态、多语言任务 多语言和合规场景有价值,但综合能力不在最前排。 |
Trusted Sources
真实用户偏好
通过匿名、成对比较收集真实用户投票,适合观察通用对话、写作、图片等体验型能力,但单一 Elo/BT 分数不等于所有业务场景最优。
局限:用户偏好会受样本、流量分配、提示类型和模型曝光影响。
能力、速度、价格综合
同时跟踪智能指数、输出速度、延迟和价格,适合做 API 选型、成本控制和生产性能比较。
局限:综合指数无法覆盖每个公司的私有任务,仍需用自己的提示和数据复测。
行业任务测评
聚焦金融、法律、医疗、代码、教育等高价值任务,适合判断模型在行业材料、长上下文和智能体流程里的实际可用性。
局限:部分数据集和评分细节是私有的,更适合作为行业信号而不是可完全复现实验。
透明可复现评测
强调公开场景、指标和可复现流程,适合研究型读者理解模型能力、鲁棒性和评测方法。
局限:更新节奏通常不如商业榜单快,实时新模型覆盖可能滞后。
Guozhen AI Scorecard
看数学、科学、推理、知识和复杂指令的整体表现,避免只看单个榜单第一名。
关注行业文档、代码仓库、工具调用、多轮流程和长上下文,而不是只看考试题。
观察是否容易幻觉、是否能稳定遵循格式、是否能在长任务中保持一致。
同等质量下,比较输入输出价格、延迟、吞吐和上下文窗口。
区分闭源 API、开放权重、本地部署、数据合规和可审计能力。
Model Selection
优先参考 Arena 偏好榜,再结合 Artificial Analysis 的速度和成本。
优先看 LiveCodeBench、SWE-bench、Terminal-Bench、Vals 代码类任务,并用自己的仓库复测。
优先看 Vals 这类行业任务榜,再补充企业内部私有评测。
优先看 HELM、GPQA、MMLU-Pro、HLE 等透明或学术测评,并阅读方法说明。
单独比较开放权重、许可证、部署成本、上下文窗口和数据留存策略。
优先参考 Arena 偏好榜,再结合 Artificial Analysis 的速度和成本。
权重:Arena Text/Document 偏好 50%,综合智能 20%,输出速度和成本 20%,中文知识整理体验 10%。
写作质量、长答案组织、复杂问答和文档总结稳定性最强,适合高质量内容生产。
Arena Text 和 Document 信号非常稳,适合长文档理解、深度写作和知识整理。
多模态、长上下文和信息组织能力强,适合资料汇总和跨格式知识整理。
综合问答、结构化输出和 API 生产体验好,适合知识库、客服和自动化问答。
质量不是最高,但速度和成本优势明显,适合高频摘要、批量改写和轻量问答。
非 thinking 版本写作和对话体验仍然很强,适合高质量内容草稿和长文改写。
多模态资料整理和长上下文问答较强,适合跨文档知识汇总。
结构化问答和知识整理稳定,适合通用助手和企业知识库候选。
质量和成本比较均衡,适合日常写作、解释和摘要。
中文表达和 Web 信息整理较好,适合中文内容生产复测。
推理型问答较强,适合技术解释和中文知识问答。
中文长文档整理有优势,适合资料归纳和长文本提炼。
中文通用问答较稳,适合国产生态和企业中文场景。
成本友好,适合批量问答和低成本内容处理。
适合中文轻量知识整理和成本敏感应用。
Arena 文本偏好信号不错,适合开放生态观察。
开放生态友好,适合可控部署下的文本任务。
实时信息和创意表达有特色,适合轻量探索。
多语言表达稳定,适合欧盟合规和多语种内容场景。
检索增强和企业知识问答方向值得作为备选模型。
优先看 LiveCodeBench、SWE-bench、Terminal-Bench、Vals 代码类任务,并用自己的仓库复测。
权重:Vals/SWE 类真实任务 40%,WebDev/Arena 工程偏好 25%,Agent 稳定性 20%,速度成本 15%。
代码类任务、长上下文和仓库级理解信号强,适合复杂工程修改和搜索增强开发。
SWE 风格修复、结构化工具调用和生产 API 表现强,适合工程 Agent 和自动修 bug。
WebDev 榜和复杂推理强,适合前端重构、架构分析和长链路代码任务。
WebDev 信号突出,中文工程场景和成本敏感 API 场景值得优先复测。
成本和质量较均衡,适合日常代码解释、局部修复和轻量 Agent 工作流。
复杂代码解释和架构分析稳定,但工程自动化弱于前三。
竞赛编程和通用代码任务仍然强,适合作为稳定备选。
前端、文档和轻量 Agent 表现不错,复杂推理略弱于 thinking。
长上下文和多模态工程材料处理较强。
推理和算法题信号较强,适合技术问答和局部修复。
成本效率不错,适合批量代码解释和轻量生成。
中文工程场景和成本敏感 API 可以复测。
WebDev 信号尚可,适合中文工程助手备选。
长文档代码说明和需求梳理有价值。
本地可控代码助手可测试,但仓库级能力需复测。
多语言代码解释可用,顶级修复能力有限。
开放生态候选,真实工程任务覆盖还需补充。
适合实时技术资料辅助,但工程修复稳定性需自测。
RAG 工程解释有价值,代码生成不是最强项。
中文工程资料问答可作为长尾候选。
优先看 Vals 这类行业任务榜,再补充企业内部私有评测。
权重:Vals 行业任务 45%,长文档和推理 25%,合规可控性 15%,成本速度 15%。
长文档、复杂推理和安全回答风格稳定,适合法律、金融研究和教育内容审核。
长上下文、多模态和行业材料处理能力强,适合报告、文档和跨格式资料分析。
综合智能和工具生态好,适合企业知识库、客服、内部流程自动化和合规审阅。
文档处理和推理能力稳定,适合行业研究和专业材料整理。
中文长文档和知识整理有优势,适合中文行业材料的低成本复测。
专业写作和材料整理稳定,适合非最高复杂度行业工作流。
多模态行业材料和长上下文任务表现较好。
企业工具生态稳定,适合行业知识库备选。
中文行业材料和国产生态场景值得复测。
成本和质量均衡,适合日常行业文档助手。
推理类行业问答有价值,适合技术和规则解释。
国产生态和中文场景友好,适合企业内部评估。
低成本批量处理行业文本可作为候选。
中文成本敏感行业场景可继续复测。
开放部署价值高,适合私有数据合规前提下评估。
欧盟合规和多语言行业材料有优势。
开放生态候选,但行业任务覆盖需加强。
RAG 和企业知识问答方向有可用性。
实时信息辅助有价值,严肃行业场景需谨慎复测。
中文行业资料问答可作为长尾候选。
优先看 HELM、GPQA、MMLU-Pro、HLE 等透明或学术测评,并阅读方法说明。
权重:透明学术评测 35%,推理和知识能力 30%,可复现性 20%,工具/检索辅助 15%。
复杂推理、论文总结和长链路分析能力强,适合研究助理和方法论比较。
综合知识、工具生态和结构化分析能力强,适合论文阅读、实验设计和代码验证。
长上下文和多模态材料处理能力强,适合跨论文、图表和数据资料分析。
推理和文档理解稳定,适合严肃长文阅读和研究笔记整理。
视觉和多模态理解较好,适合图表、论文插图和实验材料分析。
长文阅读和结构化研究笔记稳定。
学术问答和代码验证能力仍然较强。
推理和数学解释适合作为研究辅助候选。
中文论文和技术资料整理可用性较好。
研究笔记整理和论文解释成本较稳。
开放生态和可复现性较好,适合研究复核。
低成本技术材料处理可作为批量研究助手。
中文研究材料解释和国产生态有价值。
中文长文档和资料摘要适合复测。
中文研究资料整理的成本友好候选。
多语言研究资料处理和合规场景有价值。
开放生态候选,但学术任务覆盖仍需补充。
实时资料探索有特色,严肃研究需核验。
检索增强研究资料问答可作为专用候选。
中文研究文本整理可做长尾备选。
单独比较开放权重、许可证、部署成本、上下文窗口和数据留存策略。
权重:开放性和可部署性 35%,数据控制 25%,中文可用性 15%,成本效率 15%,能力表现 10%。
中文生态、开源社区和本地部署路线完整,适合私有知识库和国产化评估。
中文能力和企业落地生态较强,适合国产模型私有化和行业应用验证。
长上下文和中文文档场景值得关注,适合中文资料整理与内部知识问答复测。
开放生态和社区可玩性强,但中文、行业任务和企业支持需要额外验证。
严格意义上不是本地部署优先项,但在低成本、高吞吐、私有数据脱敏后调用场景有价值。
推理和开源生态有价值,适合私有推理任务评估。
成本友好,适合私有批量文本任务。
多语言和欧盟合规场景有吸引力。
中文部署和成本敏感场景值得复测。
企业 RAG 和数据控制场景有价值。
中文本地化生态可作为候选。
中文企业场景和私有化路线可评估。
研究和教育生态友好,适合实验型部署。
中文应用生态候选,需结合私有化条件判断。
国产生态和企业集成渠道可考虑。
非本地优先,但脱敏后高吞吐调用有价值。
能力强但本地部署和数据控制不是优势。
能力均衡,但私有部署维度受限。
能力最强之一,但本地和私有部署维度不占优。
能力很强,但本地部署和私有数据控制不是主要优势。
本页不是复制外部榜单,也不声称某个模型永远最好。郭震 AI 会把公开测评来源、方法差异和中文应用场景放在一起解释。 对企业或个人项目来说,最稳妥的方法是先看公开榜单,再用自己的提示、数据、预算和合规要求做小样本复测。