要闻列表Qwen 3.7 Max Preview:Alibaba 的這款新 AI 做對了什麼,又有哪些不足
Decrypt2026-05-20 18:10:44 警示

Qwen 3.7 Max Preview:Alibaba 的這款新 AI 做對了什麼,又有哪些不足

ORIGINALQwen 3.7 Max Preview: What Alibaba's New AI Gets Right and Where It Falls Short
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯11300 字
简要内容 - Qwen 3.7 Max 于 2026 年 5 月 14 日在 Arena AI 首次亮相——距阿里云峰会还有五天。 - 该模型在文本类全球排名第 13 位,使阿里巴巴成为全球第六大 AI 实验室。 - Plus 版本将开源;Max 旗舰版则不会——延续了阿里巴巴将最佳模型货币化、同时向开发者开放次一级模型的转向策略。 阿里巴巴正在疯狂推出 AI 模型,而随着 Qwen 3.7 系列开放测试,它们如今比以往任何时候都更强大。本周,两款新模型悄然出现在 Arena AI 的排行榜上:Qwen 3.7 Max-Preview 和 Qwen 3.7-Plus-Preview。这两款模型当然是阿里云峰会 2026 的开胃菜。 🚀🚀Qwen3.7 Preview 登陆 Arena! Qwen3.7-Max-Preview 与 Qwen3.7-Plus-Preview 来了。阿里巴巴目前在文本类排名第 6,视觉类排名第 5。⚡️⚡️ 迫不及待要发布 Qwen3.7 系列模型!敬请期待!@arena https://t.co/nhtxlCZI6D — Qwen (@Alibaba_Qwen) 2026 年 5 月 18 日 这与阿里巴巴在四月份推出 Qwen 3.6 Max 时所采用的剧本如出一辙。先验证,再营销。这一举措比看上去更聪明——Arena AI 采用盲测、众包式的比较方式,因此排名反映的是真实用户实际偏好的内容,而非基准测试新闻稿所宣称的内容。 结果经受住了考验。正如 Decrypt 在 Qwen 3.6 Max 发布时所报道的那样,阿里巴巴几个月来一直在悄然缩小与西方前沿实验室之间的差距。Qwen 3.7 Max-Preview 在 Text Arena 综合排名第 13 位,数学类排名第七,专家级提示类排名第九,软件与 IT 类排名第九。这使阿里巴巴成为全球文本类排名第六的 AI 实验室,视觉能力排名第五。 开源问题在此至关重要。阿里巴巴上个月终止了 Qwen Code 的免费版本,并一直在将其最佳模型转入付费墙之后。Qwen 3.7 遵循同样的逻辑:Plus 开源,Max 保持专有。Qwen 3.7 官方博客文章直接证实了这一点。想要获得最佳 Qwen 的开发者将需要为此付费。 话虽如此,用于本地推理的最佳小型、开源智能编码模型都基于 Qwen,而这一新系列有望在 3.6 受 AI 爱好者欢迎的基础上做出改进。 两款模型(Plus 和 Max)目前都被锁定在深度思考模式中,禁用了网络搜索和代码解释器。这是一个预览版本。完整版预计将在 5 月 20 日的云峰会上发布。 我们对 Qwen 3.7 Max 进行了快速测试,看看它与另一个表现极佳的中国模型 Xiaomi Mimo 相比如何。以下是我们的发现。 创意写作 我们让 Qwen 3.7 Max 处理了与 MiMo-V2-Pro 相同的提示:一个围绕主角文化背景、哲学性时间悖论和特定历史背景构建的时间旅行故事。两个模型都理解了任务。但它们的处理方式却截然不同。 Qwen 走的是加勒比海路线。故事开场于 2150 年的 Neo-Borinquen——一个被淹没的波多黎各,钛合金海堤正被一种名为 Crimson Blight 的合成细菌活活吞噬。主角佩戴着一个数字化的 cemí——他祖母给他的古老 Taíno 神灵石的全息投影。文化的具体性是即时且准确的:Ostionoid 血统、对 Yemayá 的引用、非裔加勒比传统。 Qwen 没有把"拉丁美洲"用谷歌翻译成一个场景,而是其框架本身就让一切显而易见,这是许多其他模型未能理解的。 然而,文笔比 MiMo 的更紧凑、更棱角分明。比较一下两者的开场。MiMo:"The chronopod smelled of burnt copal when it opened. The air hit him first —thick, almost chewy with moisture, carrying the green rot of jungle and something sweeter underneath: wild cacao blooming in the understory." Qwen:"The neon-drenched smog of Neo-Borinquen in the year 2150 tasted of ozone and dying kelp. Jose Lanz stood on the precipice of the floating seawall, his amber eyes reflecting the sickly, pulsing magenta of the city's failing holographic advertisements." MiMo 深入纹理。Qwen 则在场景上铺得很广。两者都行得通。它们只是不同的直觉。 尽管两个模型在开场都表现尚可,但随着故事的推进,它们走向了完全不同的方向。我们多次测试,结果都是如此。Qwen 直奔主题——没有铺陈,没有丰富细节。它确实遵循了提示,只是方式不够引人入胜。 悖论的解决方式是更大的差异。在 Qwen 的故事中,故事的关键要素非常容易理解。未来社会存在污染。Jose 穿越回过去解决问题,但污染恰恰是由他的时间机器抵达过去所导致的,所以他无法解决这个问题,因为它在自己的时间线中早已是一个无法解决的问题。 故事比 MiMo 的短,且不那么追求极致。MiMo 构建了五个完整章节,包含层层叠加的内心戏和缓慢的回报,而 Qwen 写了一个锋利、高效的短篇小说,精准命中后即收尾。两种方式都没有错。如果说 MiMo 写作像小说家,那么 Qwen 写作像一位非常优秀的短篇小说家。根据使用场景,其中一种正是你所需要的。 你可以在我们的 Github 仓库中阅读这些故事。 编码 说到编码,特别是一个游戏挑战,Qwen 3.7 Max 选择了 2D,而 MiMo 走的是 3D。这一点值得审视。这不一定是局限,而是有意为之的范围决策。然而,在首次提示输出的正面对比中,MiMo 产出了视觉上更丰富的体验。 不过,Qwen 构建的东西在逻辑上更连贯。这款游戏中有真正的游戏设计思路。敌方记者拥有各自的姓名和分配的角色。玩家在被发现时可以主动逃脱,而不是被困在静态的检测状态中。关卡中内置了真正的藏身区域。视线具有正常的视觉行为——与物体碰撞并不会完全阻挡检测——但底层逻辑比我们测试过的大多数首次输出都更紧凑、更具意图性。 随后我们让模型将游戏转换为 3D 美学,它也能够做到。这方面它不会有困难。 Qwen 还对简洁代码有强烈的偏好。在不牺牲可读性或正确性的前提下,用更少的行实现相同的功能性结果。在其他人需要维护代码库的生产环境中,这可能是个加分项。整体结果不是我们测试过的所有模型中最出色的编码测试,但它是一个值得尊敬的、可运行的输出,显示出模型在思考问题,而不仅仅是按字面执行提示。 游戏可在此处获取。 逻辑与常识 与 MiMo 相同的提示。更好的结果。显著更好。 当被问及一名男子根据 Falkland Islands 法律是否可以合法娶其遗孀的姐妹时,Qwen 的思维链立即识别出它所称的"一个巧妙伪装的谜题,看似考察法律知识,实则取决于一个事实性的不可能"。到此为止,与 MiMo 一致。区别在于接下来发生了什么。 MiMo 悄悄重构了问题,回答了修正后的版本,却没有标记原始的不可能性。Qwen 则在最终答案中明确地揭示了这一点。它首先处理字面解读——一个有遗孀的男人已经死了,而死人无法执行婚姻契约——然后针对推定意图提供了完整的实质性法律分析:一名鳏夫根据 Falkland Islands 法律是否可以娶其已故妻子的姐妹。它详细论述了 Deceased Wife's Sister's Marriage Act 1907、Marriage (Prohibited Degrees of Relationship) Act 1986 以及现行的 Falkland Islands 法规。 因此,Qwen 在不假设用户意图的情况下,给出了两个清晰标注的结论。这是一个更完整、更诚实的回应——而且你无需深入思维链就能看清它的来龙去脉。 数学 这是 Qwen 3.7 Max 在我们所做的所有测试中最明显的胜出。这个问题——正如你在我们的 Github 仓库中所见——构造一个 19 次的 Dickson 多项式,验证其在复数域上的不可约成分分解,并计算 p(19)——是那种会让大多数模型陷入 token 螺旋或产生一个自信但恰好错误的捷径的问题类型。 Qwen 正确地完成了它。它识别出了 Chebyshev 多项式等价关系,验证了 p(x) − p(y) 在 ℂ 上分解为 10 个不可约成分——一条线性对角线加上九条二次曲线——并建立了递推关系 Sn = 19S{n−1} − S_{n−2} 以迭代计算最终值。它通过对七个不同模数的模运算进行了交叉验证。答案:1,876,572,071,974,094,803,391,179。正确。 MiMo 在同一问题上两次卡住,最终给出了错误答案。Qwen 一次都没有卡住。这是实际可用性方面一个有意义的差距——而且这与 Arena Math 全球排名第七相吻合,对于这个价位的模型来说这是相当出色的。Qwen 团队将数学推理作为核心能力的押注似乎正在获得回报。 这个问题此前已经被解决过,然而,我们是在零样本设置中免费做到的(一次提示,一次结果)。先前的尝试需要在思考配置下运行极其强大的模型,而这对于日常普通任务而言并不真正可行。 以下是结果。 非数学推理 这是 Qwen 3.7 Max 失误的地方。这道谜题——一次冬季学校旅行、一个跟踪者、一个无辜的嫌疑人——是对叙事推理和时间线逻辑的测试。 对于我们的问题——涉及在一次有不同高年级学生和其他工作人员参与的学校旅行中猜测跟踪者的名字——正确答案是 Leo。但模型说是其中一位高年级学生。 推理并非不连贯。Qwen 围绕高年级学生构建了一个结构合理的案例,但它完全忽略了时间线。在三起绑架中的两起发生之前,Leo 早已回到了小屋。夹克是在黑冰上摔倒时弄湿的。失忆是脑震荡导致的,而非便利的掩饰。Qwen 看到了一个叙事框架并很好地论证了它。但它没有将时间线与该框架进行核对。 结果可以在我们的 Github 仓库中找到。 结论 这是一个相当不错的模型,可能会吸引那些运行 Hermes 工作流或寻找西方 AI 替代品的人的注意。 Qwen 3.7 Max 是为处理棘手问题的人打造的。数学、结构化推理、多语言输出、简洁代码——它在所有这些方面都处于顶级水平,而且很可能比 Claude Opus 甚至 Sonnet 降价后的成本更低。如果这是你的工作流,那么这就是你的模型。 创意专业人士将获得扎实的输出,但没有什么特别出彩之处。Qwen 写作高效,但不富有表现力。它会遵循你的提示,但不会像某些模型那样进行拓展。对于大多数用例来说足够好。但不是长篇叙事工作的首选。 预览版完全锁定了代码解释器和网络搜索——阿里巴巴所承诺的 1,000 步自主运行是未经测试的领域。非数学推理方面的差距也是真实存在的,但这可能只是阿里巴巴在正式发布模型之前调整设置和进行一些最终微调的问题。所以预计在不久的将来会有改进,就像 Qwen 3.6 那样。 官方 API 定价和完整版预计将在 5 月 20 日的阿里云峰会之后公布。
数据状态✓ 已抓取全文阅读原文(Decrypt)
🔍历史类似事件· 关键词 + 标的比对6 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:5962f6ea29
来源:Decrypt
发布:2026-05-20 18:10:44
分类:bearish · 导出分类 bearish
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言