这款 Frankenstein AI 融合了 Claude Opus、GLM 和 Qwen，性能超越了顶级模型

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4382 字

简述 - AI 工程师 Kyle Hessling 将 Jackrong 的两个 Claude Opus 4.6 和 GLM-5.1 蒸馏微调模型合并为一个“frankenmerge”。 - 合并后需要进行一次“修复微调”（heal fine-tune），以解决因两个独立训练模型之间的层边界导致的乱码输出问题。 - 该模型在某些任务上存在过度推理的情况，但这是一个可解决的问题。你觉得 Qwopus 很酷是因为它合并了 Qwen 和 Opus？那么，拥有丰富知识和闲暇时间的 AI 工程师 Kyle Hessling 刚刚采用了同样的配方，并将 GLM——目前最强的推理模型之一——也加入其中。其结果是一个 180 亿参数的 frankenmerge，它可以在廉价 GPU 上运行，且性能优于阿里巴巴最新的 35B 模型。对于那些不知道的人，参数是神经网络在训练过程中固化的数值，就像神经网络可以调节的旋钮——参数越多，模型能处理的知识和复杂性就越高，运行所需的内存也就越多。 AI 基础设施工程师 Hessling 将 Jackrong 的两个 Qwen3.5 微调模型堆叠在一起：Qwopus 3.5-9B-v3.5 的第 0 到 31 层（该模型将 Claude 4.6 Opus 的推理风格蒸馏到 Qwen 基础模型中），以及 Qwen 3.5-9B-GLM5.1-Distill-v1 的第 32 到 63 层（该模型在同一个 Qwen 基础模型之上，使用来自 z.AI 的 GLM-5.1 教师模型的推理数据进行训练）。假设是：让模型在推理的前半部分具备 Opus 风格的结构化规划，在后半部分具备 GLM 的问题分解框架——总共 64 层，集成在一个模型中。这种技术被称为 passthrough frankenmerge——没有混合，没有权重平均，只是原始的层堆叠。Hessling 必须从零开始编写自己的合并脚本，因为现有的工具不支持 Qwen 3.5 的混合线性/全注意力架构。最终的模型通过了 44 项能力测试中的 40 项，击败了阿里巴巴的 Qwen 3.6-35B-A3B MoE（需要 22 GB VRAM），而它在 Q4_K_M 量化下仅需 9.2 GB 显存。 NVIDIA RTX 3060 可以轻松处理它……理论上是这样。 Hessling 解释说，制作这个模型并不容易。原始合并版本曾输出乱码。但即便如此，他发布的测试模型在爱好者中还是引起了轰动。 Hessling 的最终修复方案是“修复微调”（heal fine-tune）——本质上是一种 QLoRA（一段像阑尾一样嵌入模型并对最终输出进行深度调节的代码），针对所有注意力和投影层。我们尝试了它，尽管在我们的“土豆”电脑上本地运行 Qwen、Claude Opus 和 GLM 5.1 的想法非常诱人，但实际上我们发现该模型在推理方面表现得太好，以至于最终陷入了过度思考。我们在运行 MLX 量化版本（针对 Mac 优化的模型）的 M1 MacBook 上进行了测试。当提示生成我们常用的测试游戏时，推理链运行时间过长，以至于达到了 token 限制，并给了我们一段很长的推理内容，但在零样本交互中没有产生可运行的结果。对于任何想在消费级硬件上本地运行此模型进行严肃应用的人来说，这是一个日常使用的障碍。我们尝试降低难度，但情况依然具有挑战性。一个简单的“写一个贪吃蛇游戏”提示词花费了超过 40 分钟的推理时间……其中大部分都是推理过程。你可以在我们的 Github 仓库中查看结果。这是 Qwopus 系列中已知的一个矛盾点：Jackrong 的 v2 微调版本旨在解决 Qwen 3.5 倾向于重复内部循环和“更经济地思考”的问题。将两个推理蒸馏模型的 64 层堆叠起来，似乎在某些提示词上放大了这种行为。这是一个可以解决的问题，开源社区很可能会解决它。这里重要的是更广泛的模式：一位化名开发者发布了带有完整训练指南的专业微调模型，另一位爱好者用自定义脚本将它们堆叠起来，运行了 1,000 次修复步骤，最终得到的模型性能超过了全球最大的 AI 实验室之一发布的 350 亿参数模型。整个东西装在一个小文件里。这就是开源值得关注的原因——不仅仅是大型实验室发布的权重，还有逐层堆叠的解决方案，以及

数据状态✓ 已抓取全文阅读原文（Decrypt）

🔍历史类似事件· 关键词 + 标的比对4 则

2026-04-23

Qwen3.6-27B 開源發布「Openclaw、Hermes 首選」：AI 表現持平 Claude Opus 4.5，成本縮減 14 倍

相似度 130%關鍵字 qwen/opus

2026-04-18

Claude Opus 4.7 深度介紹》coding 能力升級、1M 不加價，實測缺點在哪？

相似度 130%關鍵字 claude/opus

2026-04-17

Anthropic 推出 Claude Opus 4.7，Agentic Workflows 成為焦點

相似度 130%關鍵字 claude/opus

2026-04-16

Claude Opus 4.7 正式發布：Anthropic 的最新模型表現出色，但它簡直是個 Token 吃貨

相似度 130%關鍵字 claude/opus

💡 目前用关键词 + 标的比对（MVP）· 之后会升级为 embedding 语义搜寻

原始信息

ID：5fc24f8608

来源：Decrypt

发布：2026-04-21 16:55:23

分类：一般 · 导出分类 neutral

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言