要闻列表这款 Frankenstein AI 融合了 Claude Opus、GLM 和 Qwen,性能超越了顶级模型
Decrypt2026-04-21 16:55:23

这款 Frankenstein AI 融合了 Claude Opus、GLM 和 Qwen,性能超越了顶级模型

ORIGINALThis Frankenstein AI Merges Claude Opus, GLM and Qwen—And Outperforms Top Models
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4382 字
简述 - AI 工程师 Kyle Hessling 将 Jackrong 的两个 Claude Opus 4.6 和 GLM-5.1 蒸馏微调模型合并为一个“frankenmerge”。 - 合并后需要进行一次“修复微调”(heal fine-tune),以解决因两个独立训练模型之间的层边界导致的乱码输出问题。 - 该模型在某些任务上存在过度推理的情况,但这是一个可解决的问题。 你觉得 Qwopus 很酷是因为它合并了 Qwen 和 Opus?那么,拥有丰富知识和闲暇时间的 AI 工程师 Kyle Hessling 刚刚采用了同样的配方,并将 GLM——目前最强的推理模型之一——也加入其中。其结果是一个 180 亿参数的 frankenmerge,它可以在廉价 GPU 上运行,且性能优于阿里巴巴最新的 35B 模型。 对于那些不知道的人,参数是神经网络在训练过程中固化的数值,就像神经网络可以调节的旋钮——参数越多,模型能处理的知识和复杂性就越高,运行所需的内存也就越多。 AI 基础设施工程师 Hessling 将 Jackrong 的两个 Qwen3.5 微调模型堆叠在一起:Qwopus 3.5-9B-v3.5 的第 0 到 31 层(该模型将 Claude 4.6 Opus 的推理风格蒸馏到 Qwen 基础模型中),以及 Qwen 3.5-9B-GLM5.1-Distill-v1 的第 32 到 63 层(该模型在同一个 Qwen 基础模型之上,使用来自 z.AI 的 GLM-5.1 教师模型的推理数据进行训练)。 假设是:让模型在推理的前半部分具备 Opus 风格的结构化规划,在后半部分具备 GLM 的问题分解框架——总共 64 层,集成在一个模型中。 这种技术被称为 passthrough frankenmerge——没有混合,没有权重平均,只是原始的层堆叠。Hessling 必须从零开始编写自己的合并脚本,因为现有的工具不支持 Qwen 3.5 的混合线性/全注意力架构。最终的模型通过了 44 项能力测试中的 40 项,击败了阿里巴巴的 Qwen 3.6-35B-A3B MoE(需要 22 GB VRAM),而它在 Q4_K_M 量化下仅需 9.2 GB 显存。 NVIDIA RTX 3060 可以轻松处理它……理论上是这样。 Hessling 解释说,制作这个模型并不容易。原始合并版本曾输出乱码。但即便如此,他发布的测试模型在爱好者中还是引起了轰动。 Hessling 的最终修复方案是“修复微调”(heal fine-tune)——本质上是一种 QLoRA(一段像阑尾一样嵌入模型并对最终输出进行深度调节的代码),针对所有注意力和投影层。 我们尝试了它,尽管在我们的“土豆”电脑上本地运行 Qwen、Claude Opus 和 GLM 5.1 的想法非常诱人,但实际上我们发现该模型在推理方面表现得太好,以至于最终陷入了过度思考。 我们在运行 MLX 量化版本(针对 Mac 优化的模型)的 M1 MacBook 上进行了测试。当提示生成我们常用的测试游戏时,推理链运行时间过长,以至于达到了 token 限制,并给了我们一段很长的推理内容,但在零样本交互中没有产生可运行的结果。对于任何想在消费级硬件上本地运行此模型进行严肃应用的人来说,这是一个日常使用的障碍。 我们尝试降低难度,但情况依然具有挑战性。一个简单的“写一个贪吃蛇游戏”提示词花费了超过 40 分钟的推理时间……其中大部分都是推理过程。 你可以在我们的 Github 仓库中查看结果。 这是 Qwopus 系列中已知的一个矛盾点:Jackrong 的 v2 微调版本旨在解决 Qwen 3.5 倾向于重复内部循环和“更经济地思考”的问题。将两个推理蒸馏模型的 64 层堆叠起来,似乎在某些提示词上放大了这种行为。 这是一个可以解决的问题,开源社区很可能会解决它。这里重要的是更广泛的模式:一位化名开发者发布了带有完整训练指南的专业微调模型,另一位爱好者用自定义脚本将它们堆叠起来,运行了 1,000 次修复步骤,最终得到的模型性能超过了全球最大的 AI 实验室之一发布的 350 亿参数模型。整个东西装在一个小文件里。 这就是开源值得关注的原因——不仅仅是大型实验室发布的权重,还有逐层堆叠的解决方案,以及
数据状态✓ 已抓取全文阅读原文(Decrypt)
🔍历史类似事件· 关键词 + 标的比对4 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:5fc24f8608
来源:Decrypt
发布:2026-04-21 16:55:23
分类:一般 · 导出分类 neutral
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言
这款 Frankenstein AI 融合了 Claude Opus、GLM 和 Qwen,性能超越了顶级模型 | Feel.Trading