這款 Frankenstein AI 融合了 Claude Opus、GLM 與 Qwen，且表現超越頂尖模型

📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯4382 字

簡介 - AI 工程師 Kyle Hessling 將 Jackrong 的兩個 Claude Opus 4.6 與 GLM-5.1 蒸餾微調模型合併為一個「frankenmerge」。 - 合併後需要進行一次「修復微調」（heal fine-tune），以解決兩個獨立訓練模型在層邊界處產生的亂碼輸出問題。 - 該模型在某些任務上會過度推理，但這是一個可解決的問題。你覺得 Qwopus 很酷是因為它合併了 Qwen 和 Opus？那麼，擁有豐富知識與閒暇時間的 AI 工程師 Kyle Hessling 剛剛採用了同樣的配方，並將 GLM（目前最強大的推理模型之一）也加入其中。最終產出了一個 180 億參數的 frankenmerge，它不僅能在廉價 GPU 上運行，效能還超越了 Alibaba 最新的 35B 模型。對於不了解的人來說，參數是神經網路在訓練過程中固化的數值，就像神經網路可以調整的旋鈕——參數越多，模型能處理的知識與複雜度就越高，運行時所需的記憶體也越多。身為 AI 基礎設施工程師的 Hessling 將 Jackrong 的兩個 Qwen3.5 微調模型堆疊在一起：Qwopus 3.5-9B-v3.5 的第 0 到 31 層（該模型將 Claude 4.6 Opus 的推理風格蒸餾至 Qwen 基礎模型中），以及 Qwen 3.5-9B-GLM5.1-Distill-v1 的第 32 到 63 層（該模型在相同的 Qwen 基礎上，使用來自 z.AI 的 GLM-5.1 教師模型的推理數據進行訓練）。其假設是：讓模型在推理的前半段具備 Opus 風格的結構化規劃，後半段具備 GLM 的問題拆解框架——總共 64 層，整合在同一個模型中。這項技術被稱為「直通式 frankenmerge」（passthrough frankenmerge）——沒有混合，也沒有權重平均，純粹是原始層的堆疊。Hessling 必須從零開始編寫自己的合併腳本，因為現有的工具不支援 Qwen 3.5 的混合線性/全注意力架構。最終的模型通過了 44 項能力測試中的 40 項，擊敗了 Alibaba 的 Qwen 3.6-35B-A3B MoE（該模型需要 22 GB VRAM），而它在 Q4_K_M 量化下僅需 9.2 GB 記憶體。理論上，NVIDIA RTX 3060 可以輕鬆應付。 Hessling 解釋說，製作這個模型並不容易。原始合併版本曾出現亂碼輸出。但即便如此，他發布的測試模型在愛好者圈子中還是引起了病毒式傳播。 Hessling 的最終修復方案是「修復微調」——基本上是一種 QLoRA（一段像闌尾一樣嵌入模型並對最終輸出進行強力調節的程式碼），針對所有注意力機制與投影層進行優化。我們嘗試過後發現，儘管在我們的「馬鈴薯」（效能低下的電腦）上本地運行 Qwen、Claude Opus 和 GLM 5.1 的想法非常誘人，但現實中我們發現該模型在推理時過於強大，導致它最終會「想太多」。我們在運行 MLX 量化版本（針對 Mac 優化的模型）的 M1 MacBook 上進行了測試。當提示它生成我們慣用的測試遊戲時，推理鏈條過長，導致觸發了 token 限制，最終給出了一大段推理過程，但在零樣本（zero shot）互動中卻沒有產生可運行的結果。對於任何想在消費級硬體上本地運行此模型進行嚴肅應用的人來說，這是一個日常使用的阻礙。我們嘗試降低要求，但情況依然充滿挑戰。一個簡單的「寫一個貪食蛇遊戲」提示詞，光是推理就花了超過 40 分鐘……其中包含了大量的推理過程。你可以在我們的 Github 儲存庫中查看結果。這是 Qwopus 系列中已知的一個矛盾點：Jackrong 的 v2 微調版本旨在解決 Qwen 3.5 傾向於重複內部循環以及「更經濟地思考」的問題。將兩個推理蒸餾模型的 64 層堆疊起來，似乎在某些提示詞上放大了這種行為。這是一個可解決的問題，開源社群很可能會解決它。這裡重要的是更廣泛的模式：一位匿名開發者發

資料狀態✓ 已擷取全文閱讀原文（Decrypt）

🔍歷史類似事件· 關鍵字 + 標的比對6 則

2026-04-25

研究顯示：Elon Musk 的 Grok 極有可能是最容易強化妄想的頂尖 AI 模型之一

相似度 130%關鍵字 top/models

2026-04-23

OpenAI 發布 GPT-5.5 以挑戰 Anthropic 的 Claude Opus 4.7

相似度 130%關鍵字 claude/opus

2026-04-23

Qwen3.6-27B 開源發表「Openclaw、Hermes首選」：AI 表現打平Claude Opus 4.5 成本縮 14 倍

相似度 130%關鍵字 opus/qwen

2026-04-18

Claude Opus 3.5 深度介紹》coding 能力升級、1M 不加價，實測缺點在哪？

相似度 130%關鍵字 claude/opus

2026-04-17

Anthropic 推出 Claude Opus 4.7，Agentic Workflows 成為焦點

相似度 130%關鍵字 claude/opus

2026-04-16

Claude Opus 4.7 正式登場：Anthropic 的最新模型表現亮眼，但卻是個 Token 吃貨

相似度 130%關鍵字 claude/opus

💡 目前用關鍵字 + 標的比對（MVP）· 之後會升級為 embedding 語意搜尋

原始資訊

ID：5fc24f8608

來源：Decrypt

發佈：2026-04-21 16:55:23

分類：一般 · 導出分類 neutral

標的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言