AI Frankenstein này kết hợp Claude Opus, GLM và Qwen—và vượt trội hơn các mô hình hàng đầu

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯4382 từ

Tóm tắt - Kỹ sư AI Kyle Hessling đã hợp nhất hai bản finetune chưng cất Claude Opus 4.6 và GLM-5.1 của Jackrong thành một "frankenmerge" duy nhất. - Một bước "heal fine-tune" sau khi hợp nhất là cần thiết để sửa lỗi mã bị xáo trộn do ranh giới lớp giữa hai mô hình được huấn luyện độc lập. - Mô hình suy luận quá mức trong một số tác vụ, nhưng đây là vấn đề có thể giải quyết được. Bạn nghĩ Qwopus rất tuyệt vì nó hợp nhất Qwen và Opus? Chà, Kyle Hessling, một kỹ sư AI với nhiều kiến thức và thời gian rảnh rỗi, vừa lấy công thức đó và đưa GLM—một trong những mô hình suy luận tốt nhất hiện nay—vào hỗn hợp. Kết quả là một frankenmerge 18 tỷ tham số có thể chạy trên GPU giá rẻ và vượt trội hơn cả mô hình 35B mới nhất của Alibaba. Đối với những ai chưa biết, tham số là các giá trị số được nạp vào mạng thần kinh trong quá trình huấn luyện, giống như các nút xoay mà mạng thần kinh có thể điều chỉnh — càng nhiều tham số, mô hình càng có thể xử lý nhiều kiến thức và độ phức tạp, đồng thời cần nhiều bộ nhớ hơn để chạy. Hessling, một kỹ sư cơ sở hạ tầng AI, đã xếp chồng hai bản finetune Qwen3.5 của Jackrong lên nhau: các lớp từ 0 đến 31 từ Qwopus 3.5-9B-v3.5, vốn chưng cất phong cách suy luận của Claude 4.6 Opus vào Qwen làm mô hình cơ sở, và các lớp từ 32 đến 63 từ Qwen 3.5-9B-GLM5.1-Distill-v1, được huấn luyện trên dữ liệu suy luận từ mô hình giáo viên GLM-5.1 của z.AI trên cùng một cơ sở Qwen. Giả thuyết: Cung cấp cho mô hình khả năng lập kế hoạch có cấu trúc kiểu Opus trong nửa đầu quá trình suy luận và khung phân rã vấn đề của GLM trong nửa sau—tổng cộng 64 lớp, trong một mô hình duy nhất. Kỹ thuật này được gọi là passthrough frankenmerge—không pha trộn, không lấy trung bình trọng số, chỉ xếp chồng lớp thô. Hessling đã phải tự viết tập lệnh hợp nhất từ đầu vì các công cụ hiện có không hỗ trợ kiến trúc chú ý lai tuyến tính/đầy đủ của Qwen 3.5. Mô hình thu được đã vượt qua 40 trong số 44 bài kiểm tra năng lực, đánh bại Qwen 3.6-35B-A3B MoE của Alibaba—vốn yêu cầu 22 GB VRAM—trong khi chỉ chạy trên 9,2 GB ở định dạng lượng tử hóa Q4_K_M. Một chiếc NVIDIA RTX 3060 xử lý nó ổn… về mặt lý thuyết. Hessling giải thích rằng việc tạo ra mô hình này không hề dễ dàng. Bản hợp nhất thô thường tạo ra mã bị xáo trộn. Nhưng dù vậy, các mô hình thử nghiệm mà anh ấy công bố đã trở nên khá phổ biến trong cộng đồng những người đam mê. Bản sửa lỗi cuối cùng của Hessling là một "heal fine-tune"—về cơ bản là một QLoRA (một đoạn mã được nhúng vào mô hình giống như ruột thừa và điều chỉnh mạnh mẽ đầu ra cuối cùng) nhắm vào tất cả các cơ chế chú ý và phép chiếu. Chúng tôi đã thử nghiệm nó, và mặc dù ý tưởng chạy Qwen, Claude Opus và GLM 5.1 cục bộ trên chiếc máy tính "khoai tây" của chúng tôi rất hấp dẫn, nhưng thực tế chúng tôi nhận thấy mô hình này suy luận tốt đến mức nó trở nên suy nghĩ quá mức. Khi thử nghiệm trên MacBook M1 chạy phiên bản lượng tử hóa MLX (một mô hình được tối ưu hóa để chạy trên máy Mac). Khi được yêu cầu tạo trò chơi thử nghiệm thông thường của chúng tôi, chuỗi suy luận chạy quá dài đến mức chạm giới hạn token và cung cấp cho chúng tôi một đoạn suy luận dài mà không có kết quả hoạt động trong tương tác zero shot. Đó là một rào cản sử dụng hàng ngày cho bất kỳ ai muốn chạy mô hình này cục bộ trên phần cứng tiêu dùng cho bất kỳ ứng dụng nghiêm túc nào. Chúng tôi đã thử yêu cầu nhẹ nhàng hơn nhưng mọi thứ vẫn đầy thách thức. Một lời nhắc đơn giản "viết trò chơi Snake" đã mất hơn 40 phút để suy luận... rất nhiều

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản4 tin

2026-04-23

Qwen3.6-27B ra mắt mã nguồn mở "Lựa chọn hàng đầu cho Openclaw, Hermes": Hiệu suất AI ngang bằng Claude Opus 4.5 với chi phí giảm 14 lần

Độ tương đồng 130%關鍵字 qwen/opus

2026-04-18

Giới thiệu chuyên sâu về Claude Opus 4.7: Nâng cấp khả năng coding, 1M không tăng giá, nhược điểm thực tế nằm ở đâu?

Độ tương đồng 130%關鍵字 claude/opus

2026-04-17

Anthropic ra mắt Claude Opus 4.7 khi các Agentic Workflows trở thành tâm điểm

Độ tương đồng 130%關鍵字 claude/opus

2026-04-16