Google은 새로운 하드웨어 없이 로컬 AI 속도를 최대 3배까지 높이는 방법을 찾아냈습니다

📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯5749 자

요약 - Google은 Gemma 4를 위한 Multi-Token Prediction (MTP) drafter를 출시하여 출력 품질 저하 없이 추론 속도를 최대 3배까지 향상했습니다. - speculative decoding이라 불리는 이 기술은 가벼운 "drafter" 모델을 사용하여 여러 토큰을 한 번에 예측하고, 메인 모델이 이를 병렬로 검증함으로써 한 번에 하나의 토큰만 처리하던 병목 현상을 해결합니다. - MTP drafter는 Gemma 4와 동일한 Apache 2.0 라이선스로 Hugging Face, Kaggle, Ollama에서 제공되며, vLLM, MLX, SGLang과 같은 도구와 호환됩니다. 자신의 컴퓨터에서 AI 모델을 실행하는 것은 훌륭한 일이지만, 항상 그렇지는 않습니다. 개인정보 보호, 구독료 없음, 데이터가 기기 밖으로 나가지 않는다는 장점이 있지만, 대부분의 사람들에게 현실은 문장 사이에 커서가 5초 동안 깜빡이는 것을 지켜보는 것입니다. 그 병목 현상의 이름은 바로 추론 속도입니다. 이는 모델의 지능과는 아무런 관련이 없으며, 하드웨어 문제입니다. 표준 AI 모델은 한 번에 하나의 토큰이라 불리는 단어 조각을 생성합니다. 하드웨어는 각 토큰을 생성하기 위해 메모리에서 수십억 개의 파라미터를 연산 장치로 계속 옮겨야 합니다. 이는 설계상 느릴 수밖에 없으며, 소비자용 하드웨어에서는 매우 답답한 일입니다. 대부분의 사람들이 선택하는 해결책은 더 작고 성능이 낮은 모델을 실행하거나, 속도를 위해 품질을 일부 희생하는 quantized 모델을 사용하는 것입니다. 하지만 두 방법 모두 만족스럽지 않습니다. 실행은 되지만, 정작 원했던 모델은 아니기 때문입니다. 이제 Google은 다른 아이디어를 제시합니다. Google은 Gemma 4 오픈 모델 제품군을 위한 Multi-Token Prediction (MTP) drafter를 출시했습니다. 이 기술은 모델의 품질이나 추론 능력을 전혀 건드리지 않고도 최대 3배의 속도 향상을 제공할 수 있습니다. 이 접근 방식은 speculative decoding이라 불리며, 개념적으로는 수년 전부터 존재했습니다. Google 연구원들은 2022년에 기초 논문을 발표했습니다. 이 아이디어가 지금까지 주류가 되지 못한 이유는 대규모로 작동하게 만들 적절한 아키텍처가 필요했기 때문입니다. 작동 원리를 간단히 설명하자면 다음과 같습니다. 크고 강력한 모델이 모든 작업을 혼자 수행하게 하는 대신, 아주 작은 "drafter" 모델과 짝을 짓는 것입니다. drafter는 빠르고 가벼워서 메인 모델이 토큰 하나를 생성하는 시간보다 짧은 시간에 여러 토큰을 한 번에 예측합니다. 그런 다음 큰 모델이 그 모든 추측을 한 번에 검증합니다. 추측이 맞다면, 한 번의 순방향 패스(forward pass) 비용으로 전체 시퀀스를 얻게 됩니다. Google에 따르면, "타겟 모델이 초안에 동의하면 전체 시퀀스를 단일 순방향 패스로 수락하며, 그 과정에서 자체적으로 추가 토큰을 생성하기도 합니다." 희생되는 것은 없습니다. 예를 들어 Gemma 4의 31B dense 버전과 같은 대형 모델은 여전히 모든 토큰을 검증하며, 출력 품질은 동일합니다. 단지 느린 부분에서 사용되지 않고 있던 유휴 연산 능력을 활용하는 것뿐입니다. Google은 drafter 모델이 타겟 모델의 KV cache(이미 처리된 컨텍스트를 저장하는 메모리 구조)를 공유하므로, 더 큰 모델이 이미 알고 있는 내용을 다시 계산하느라 시간을 낭비하지 않는다고 설명합니다. 휴대폰이나 Raspberry Pi 기기를 위해 설계된 소형 edge 모델의 경우, 팀은 생성 시간을 더욱 단축하기 위해 효율적인 클러스터링 기술까지 구축했습니다. 이것이 AI 업계에서 텍스트 생성을 병렬화하려는 유일한 시도는 아닙니다. Inception Labs의 Mercury와 같은 Diffusion 기반 언어 모델은 완전히 다른 접근 방식을 취했습니다. 한 번에 하나의 토큰을 예측하는 대신, 노이즈에서 시작하여 전체 출력을 반복적으로 정제하는 방식입니다. 이론상으로는 빠르지만, Diffusion LLM은 기존 transformer 모델의 품질을 따라가는 데 어려움을 겪어 실용적인 도구보다는 연구적 호기심에 머물러 있습니다. speculative decoding은 기본 모델을 전혀 변경하지 않는다는 점에서 다릅니다. 이는 아키텍처 교체가 아닌 서비스 최적화입니다. 이미 실행 중인 동일한 Gemma 4가 더 빨라지는 것입니다. 실

데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)

🔍과거 유사 사건· 키워드 + 종목 매칭5 건

2026-05-02

새로운 Bitcoin 양자 제안은 Satoshi Nakamoto가 BTC를 이동하지 않고도 통제권을 증명할 수 있는 방법을 제시합니다

유사도 130%關鍵字 way/new

2026-04-29

Hyperliquid는 real-world events를 거래하는 새로운 방식으로 Polymarket에 도전할 준비를 하고 있습니다.

유사도 100%關鍵字 way/new

2026-04-28

새로운 지갑, 포크 없이 Bitcoin의 양자 위험을 해결할 방법 제시

유사도 100%關鍵字 way/new

2026-04-23