뉴스 목록이 Frankenstein AI는 Claude Opus, GLM 및 Qwen을 결합하여 상위 모델들을 능가합니다
Decrypt2026-04-21 16:55:23

이 Frankenstein AI는 Claude Opus, GLM 및 Qwen을 결합하여 상위 모델들을 능가합니다

ORIGINALThis Frankenstein AI Merges Claude Opus, GLM and Qwen—And Outperforms Top Models
AI 영향 분석Grok 분석 중...
📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯4382 자
요약 - AI 엔지니어 Kyle Hessling은 Jackrong의 Claude Opus 4.6 및 GLM-5.1 증류 파인튜닝 모델 두 개를 하나의 "frankenmerge"로 병합했습니다. - 독립적으로 학습된 두 모델 간의 레이어 경계에서 발생하는 코드 출력 오류를 수정하기 위해 병합 후 "heal fine-tune" 과정이 필요했습니다. - 모델이 일부 작업에서 과도하게 추론하는 경향이 있지만, 이는 해결 가능한 문제입니다. Qwopus가 Qwen과 Opus를 병합해서 멋지다고 생각하셨나요? AI 엔지니어이자 많은 지식과 여유 시간을 가진 Kyle Hessling은 그 레시피를 가져와 최고의 추론 모델 중 하나인 GLM을 혼합했습니다. 그 결과는 저렴한 GPU에서도 구동 가능하며 Alibaba의 최신 35B 모델을 능가하는 180억 파라미터의 frankenmerge입니다. 모르는 분들을 위해 설명하자면, 파라미터는 학습 과정에서 신경망에 내장된 수치 값으로, 신경망이 조정할 수 있는 다이얼과 같습니다. 파라미터가 많을수록 모델이 처리할 수 있는 지식과 복잡성이 커지며, 실행에 필요한 메모리도 늘어납니다. AI 인프라 엔지니어인 Hessling은 Jackrong의 Qwen3.5 파인튜닝 모델 두 개를 쌓아 올렸습니다. Claude 4.6 Opus의 추론 스타일을 Qwen 베이스 모델에 증류한 Qwopus 3.5-9B-v3.5의 0~31 레이어와, 동일한 Qwen 베이스 위에 z.AI의 GLM-5.1 교사 모델의 추론 데이터로 학습된 Qwen 3.5-9B-GLM5.1-Distill-v1의 32~63 레이어를 결합했습니다. 가설은 이렇습니다. 추론 전반부에는 Opus 스타일의 구조화된 계획을, 후반부에는 GLM의 문제 분해 스캐폴드를 제공하여 총 64개 레이어를 하나의 모델로 만드는 것입니다. 이 기술은 passthrough frankenmerge라고 불리며, 가중치를 혼합하거나 평균화하지 않고 원시 레이어를 그대로 쌓는 방식입니다. Hessling은 기존 도구들이 Qwen 3.5의 하이브리드 선형/전체 어텐션 아키텍처를 지원하지 않아 직접 병합 스크립트를 작성해야 했습니다. 결과 모델은 44개의 성능 테스트 중 40개를 통과했으며, 22GB의 VRAM이 필요한 Alibaba의 Qwen 3.6-35B-A3B MoE를 능가하면서도 Q4_K_M 양자화 상태에서 9.2GB의 메모리만 사용했습니다. NVIDIA RTX 3060에서도 이론적으로는 문제없이 구동됩니다. Hessling은 이 모델을 만드는 과정이 쉽지 않았다고 설명합니다. 초기 병합 버전은 깨진 코드를 출력하곤 했습니다. 하지만 그럼에도 불구하고 그가 공개한 테스트 모델들은 애호가들 사이에서 일종의 바이럴이 되었습니다. Hessling의 최종 해결책은 "heal fine-tune"이었습니다. 이는 기본적으로 QLoRA(모델에 맹장처럼 삽입되어 최종 출력을 강력하게 제어하는 코드 조각)를 사용하여 모든 어텐션 및 프로젝션 레이어를 타겟팅하는 방식입니다. 저희가 직접 테스트해 본 결과, Qwen, Claude Opus, GLM 5.1을 로컬 환경에서 구동한다는 아이디어는 매우 매력적이었지만, 실제로는 모델이 추론을 너무 잘한 나머지 과도하게 생각하는 경향이 있었습니다. MLX 양자화 버전(Mac용 최적화 모델)을 실행하는 M1 MacBook에서 테스트했을 때, 평소 테스트하던 게임을 생성하라는 프롬프트를 입력하자 추론 체인이 너무 길어져 토큰 제한에 걸렸고, 제로 샷 상호작용에서 작동하는 결과물 없이 긴 추론 내용만 출력되었습니다. 이는 일반 소비자용 하드웨어에서 로컬로 이 모델을 실행하여 진지한 애플리케이션을 만들려는 사용자에게는 일상적인 사용을 가로막는 요소입니다. 조금 더 가볍게 시도해 보았지만 여전히 어려움은 있었습니다. 간단한 "Snake 게임 작성" 프롬프트조차 추론에만 40분 이상이 소요되었습니다. 결과는 저희 Github 저장소에서 확인할 수 있습니다. 이는 Qwopus 계보에서 알려진 긴장
데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)
🔍과거 유사 사건· 키워드 + 종목 매칭5 건
💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정
원본 정보
ID:5fc24f8608
출처:Decrypt
발행:2026-04-21 16:55:23
분류:일반 · 도출된 분류 neutral
종목:지정되지 않음
커뮤니티 투표:+0 /0 · ⭐ 0 중요 · 💬 0 댓글