郭震 AI公众号:郭震AI

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

发布日期:

分类: AI消息

预计阅读: 6 分钟

阅读次数: 0

预计阅读6 分钟
结构重点5 个
图文要点0 张
正文规模2.4k 字

你好,我是郭震!

最近MiniMax M3 发布,

听说coding能力已局部接近Claude Opus 4.7,

实际使用到底怎样,这两天实测了下,感兴趣的可以看下。

1 新模型介绍

下面是 AA Intelligence Index 榜单(简称AA),榜单显示MiniMax M3,排名全球第七,国产大模型排名第二:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

AA是目前较受关注的综合模型能力榜单之一。它选取真实任务、智能体、代码、长上下文、知识/幻觉、科学推理等 10 项评测,并按固定权重合成总分。

从该榜单看,MiniMax M3 在综合智能、代码工程和智能体/工具调用相关任务上已进入第一梯队,总分 54.7,接近 Claude Opus 4.7 的 57.3,显示出较强的工程任务与复杂任务处理能力。

真实开发场景到底好用不,接下来直接开始测评。

2 对比实测

测评思路:使用三个典型的中小型Agent任务,测评大家普遍关心的智能体能力。

然后选择Gemini3.1-Pro为裁判,根据两个裁判的打分,给出客观的结果评估。

第一个任务,它能测长 prompt 跟随、前端工程完整度等,提示词如下:

开发一个单文件 HTML 网页,实现 Excel 数据分析与可视化工具。支持上传 .xlsx/.xls,使用 SheetJS 解析 Excel,读取多 Sheet,并展示可搜索、分页、横向滚动的数据表格。自动识别字段类型、统计行列数、缺失值、唯一值、最大/最小/平均/求和,并生成中文数据分析报告。使用 ECharts 自动生成柱状图、折线图、饼图、散点图等可视化,并支持用户选择 X/Y 字段和图表类型自定义生成。只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。

先发给MiniMax-M3:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

输出下面前端界面:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

得到数据表格:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

统计分析:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

分析报告:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

可视化图:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

同样提示词发给GPT-5.5,输出前端界面如下所示:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

数据表格:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

中文分析报告:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

可视化图:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

同样提示词发给DeepSeek-V4-Pro,输出下面界面:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

表格展示:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

数据概览:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

可视化图:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

第二个任务提示词:

创建一个完整可运行的单文件 HTML 页面,用 Three.js 实现一个 3D 智能工厂能源管理场景。场景包含厂房、光伏板、储能电池柜、变压器、控制中心、充电桩,以及它们之间流动的彩色能量管线。要求支持 OrbitControls 旋转缩放,包含光照、阴影、材质细节、中文设备标签、实时参数面板和能量流动动画。点击设备时,右侧显示设备详情。整体视觉要有工业科技感,所有几何体和纹理用代码生成,不使用外部模型或图片。只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。

发送给MiniMax-M3:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

因为是动图,录制了一个GIF :

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

同样提示词发给GPT-5.5:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

同样提示词发给DeepSeek-V4-Pro,生成结果也录制了一个动态图:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

第三个任务提示词:

请根据我上传的这张产品界面截图,开发一个完整可运行的单文件 HTML 页面,高保真复刻截图中的 UI。要求:1. 尽可能还原截图中的整体布局、颜色、字体层级、卡片结构、按钮样式、间距、阴影和交互状态;2. 所有图标优先用 CSS 或内置 Unicode/Emoji/简单 SVG 实现,不依赖外部图片;3. 页面必须响应式适配桌面端和手机端;4. 如果截图中有图表、表格、导航栏、侧边栏、搜索框、筛选器、数据卡片,都要完整实现;5. 所有内容用合理的中文业务文案补齐,不要出现 lorem ipsum;6. 增加基础交互:Tab 切换、筛选按钮、卡片 hover、弹窗或抽屉详情;7. 最终效果要像真实可上线的 SaaS 产品页面,而不是静态截图拼贴。只输出完整可运行的单文件 HTML 代码,不要解释,不要 Markdown,不依赖后端。

我传入的原图:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

这是MiniMax-M3根据原图得到的html文件,截图如下所示:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

双击打开后的UI图,如下所示:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

这是GPT-5.5对应的html打开后的UI:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

以下DeepSeek-V4-Pro对应的html,打开后UI:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

以上测试了三个case,接下来交给裁判Gemini-3.1-Pro逐case打分。

3 裁判打分

为了更加客观,交给裁判Gemini-3.1-pro模型,评估如下图所示:

对于第一个测试案例,这是Gemini-3.1-pro使用三个打分维度的最终得分:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

最终排名如下:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

MiniMax-M3排名第一,DeepSeek-V4-排名第二,GPT-5.5排名第三。

对于第二个测试case,如下发给Gemini-3.1-Pro:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

最终排名结果如下:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

MiniMax-M3排名第一,GPT-5.5排名第二,DeepSeek-V4-Pro微弱劣势排第三。

对于第三个case,发给Gemini-3.1-Pro:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

最终排名结果如下:

实测最新 MiniMax-M3,对比 GPT-5.5,DeepSeek-V4,结果出人意料!

GPT-5.5和MiniMax-M3并列第一,DeepSeek-V4-Pro这次排第三。

最后总结一下

这次三个 case 跑下来,Excel 工具、3D 场景、截图复刻这三类任务里,MiniMax-M3 都拿到了第一或并列第一,尤其生成的3D动画效果太棒了,整体完成度超过了 GPT-5.5 和 DeepSeek-V4-Pro,这个结果我没有全部预料到。

意外的是,GPT-5.5在Excel工具任务上,只拿到第三,原本以为它的数据分析能力应该是最强的,这个出乎我的意料。

一句话总结:MiniMax M3 在前端视觉、复杂网页和 Agent 执行任务上,已进入第一梯队。

全文1796字,39图,如果你觉得这篇文章对你有帮助,也欢迎给我一个三连击:点赞、转发和在看;如果可以,再帮我点一个⭐️。谢谢你看到这里,我们下篇再见。

继续阅读

更多相关文章推荐

返回栏目

Reader Messages

读者留言

有问题、补充资料或实测结果,可以直接留下。这里不需要登录。

最多 800 字

为了防刷,每条留言会做长度、链接数量和提交频率限制。

0/800

留言列表

0
正在加载留言...