要聞列表這款 Frankenstein AI 融合了 Claude Opus、GLM 與 Qwen,且表現超越頂尖模型
Decrypt2026-04-21 16:55:23

這款 Frankenstein AI 融合了 Claude Opus、GLM 與 Qwen,且表現超越頂尖模型

ORIGINALThis Frankenstein AI Merges Claude Opus, GLM and Qwen—And Outperforms Top Models
AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯4382 字
簡介 - AI 工程師 Kyle Hessling 將 Jackrong 的兩個 Claude Opus 4.6 與 GLM-5.1 蒸餾微調模型合併為一個「frankenmerge」。 - 合併後需要進行一次「修復微調」(heal fine-tune),以解決兩個獨立訓練模型在層邊界處產生的亂碼輸出問題。 - 該模型在某些任務上會過度推理,但這是一個可解決的問題。 你覺得 Qwopus 很酷是因為它合併了 Qwen 和 Opus?那麼,擁有豐富知識與閒暇時間的 AI 工程師 Kyle Hessling 剛剛採用了同樣的配方,並將 GLM(目前最強大的推理模型之一)也加入其中。最終產出了一個 180 億參數的 frankenmerge,它不僅能在廉價 GPU 上運行,效能還超越了 Alibaba 最新的 35B 模型。 對於不了解的人來說,參數是神經網路在訓練過程中固化的數值,就像神經網路可以調整的旋鈕——參數越多,模型能處理的知識與複雜度就越高,運行時所需的記憶體也越多。 身為 AI 基礎設施工程師的 Hessling 將 Jackrong 的兩個 Qwen3.5 微調模型堆疊在一起:Qwopus 3.5-9B-v3.5 的第 0 到 31 層(該模型將 Claude 4.6 Opus 的推理風格蒸餾至 Qwen 基礎模型中),以及 Qwen 3.5-9B-GLM5.1-Distill-v1 的第 32 到 63 層(該模型在相同的 Qwen 基礎上,使用來自 z.AI 的 GLM-5.1 教師模型的推理數據進行訓練)。 其假設是:讓模型在推理的前半段具備 Opus 風格的結構化規劃,後半段具備 GLM 的問題拆解框架——總共 64 層,整合在同一個模型中。 這項技術被稱為「直通式 frankenmerge」(passthrough frankenmerge)——沒有混合,也沒有權重平均,純粹是原始層的堆疊。Hessling 必須從零開始編寫自己的合併腳本,因為現有的工具不支援 Qwen 3.5 的混合線性/全注意力架構。最終的模型通過了 44 項能力測試中的 40 項,擊敗了 Alibaba 的 Qwen 3.6-35B-A3B MoE(該模型需要 22 GB VRAM),而它在 Q4_K_M 量化下僅需 9.2 GB 記憶體。 理論上,NVIDIA RTX 3060 可以輕鬆應付。 Hessling 解釋說,製作這個模型並不容易。原始合併版本曾出現亂碼輸出。但即便如此,他發布的測試模型在愛好者圈子中還是引起了病毒式傳播。 Hessling 的最終修復方案是「修復微調」——基本上是一種 QLoRA(一段像闌尾一樣嵌入模型並對最終輸出進行強力調節的程式碼),針對所有注意力機制與投影層進行優化。 我們嘗試過後發現,儘管在我們的「馬鈴薯」(效能低下的電腦)上本地運行 Qwen、Claude Opus 和 GLM 5.1 的想法非常誘人,但現實中我們發現該模型在推理時過於強大,導致它最終會「想太多」。 我們在運行 MLX 量化版本(針對 Mac 優化的模型)的 M1 MacBook 上進行了測試。當提示它生成我們慣用的測試遊戲時,推理鏈條過長,導致觸發了 token 限制,最終給出了一大段推理過程,但在零樣本(zero shot)互動中卻沒有產生可運行的結果。對於任何想在消費級硬體上本地運行此模型進行嚴肅應用的人來說,這是一個日常使用的阻礙。 我們嘗試降低要求,但情況依然充滿挑戰。一個簡單的「寫一個貪食蛇遊戲」提示詞,光是推理就花了超過 40 分鐘……其中包含了大量的推理過程。 你可以在我們的 Github 儲存庫中查看結果。 這是 Qwopus 系列中已知的一個矛盾點:Jackrong 的 v2 微調版本旨在解決 Qwen 3.5 傾向於重複內部循環以及「更經濟地思考」的問題。將兩個推理蒸餾模型的 64 層堆疊起來,似乎在某些提示詞上放大了這種行為。 這是一個可解決的問題,開源社群很可能會解決它。這裡重要的是更廣泛的模式:一位匿名開發者發
資料狀態✓ 已擷取全文閱讀原文(Decrypt)
🔍歷史類似事件· 關鍵字 + 標的比對5 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:5fc24f8608
來源:Decrypt
發佈:2026-04-21 16:55:23
分類:一般 · 導出分類 neutral
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言