Danh sách tinGoogle đã tìm ra cách giúp AI cục bộ nhanh hơn gấp 3 lần—không cần phần cứng mới
Decrypt2026-05-07 13:13:49

Google đã tìm ra cách giúp AI cục bộ nhanh hơn gấp 3 lần—không cần phần cứng mới

ORIGINALGoogle Found a Way to Make Local AI Up to 3x Faster—No New Hardware Required
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯5749 từ
Tóm tắt - Google đã phát hành các drafter Multi-Token Prediction (MTP) cho Gemma 4, mang lại tốc độ suy luận nhanh gấp 3 lần mà không làm giảm chất lượng đầu ra. - Kỹ thuật này—được gọi là speculative decoding—sử dụng một mô hình "drafter" nhẹ để dự đoán nhiều token cùng lúc, sau đó mô hình chính sẽ xác minh song song, giúp vượt qua nút thắt cổ chai khi phải xử lý từng token một. - Các drafter MTP hiện đã có sẵn trên Hugging Face, Kaggle và Ollama theo cùng giấy phép Apache 2.0 như Gemma 4, đồng thời tương thích với các công cụ như vLLM, MLX và SGLang. Chạy một mô hình AI trên máy tính cá nhân của riêng bạn là một điều tuyệt vời—cho đến khi nó không còn như vậy nữa. Lời hứa ở đây là sự riêng tư, không phí đăng ký và không có dữ liệu nào rời khỏi máy của bạn. Thực tế đối với hầu hết mọi người là phải nhìn con trỏ nhấp nháy trong năm giây giữa các câu. Nút thắt đó có một cái tên: tốc độ suy luận. Và nó không liên quan gì đến việc mô hình thông minh đến mức nào. Đó là vấn đề về phần cứng. Các mô hình AI tiêu chuẩn tạo văn bản theo từng mảnh từ—gọi là token—tại một thời điểm. Phần cứng phải chuyển hàng tỷ tham số từ bộ nhớ sang các đơn vị tính toán chỉ để tạo ra mỗi token đơn lẻ. Nó chậm theo thiết kế. Trên phần cứng tiêu dùng, điều đó thật đau đớn. Giải pháp thay thế mà hầu hết mọi người tìm đến là chạy các mô hình nhỏ hơn, yếu hơn—hoặc các phiên bản được nén mạnh, gọi là quantized models, vốn phải hy sinh một phần chất lượng để đổi lấy tốc độ. Không giải pháp nào là tuyệt vời cả. Bạn có được thứ gì đó chạy được, nhưng đó không phải là mô hình bạn thực sự muốn. Giờ đây, Google có một ý tưởng khác. Công ty vừa phát hành các drafter Multi-Token Prediction (MTP) cho dòng mô hình mở Gemma 4 của mình—một kỹ thuật có thể mang lại tốc độ nhanh gấp 3 lần mà không hề ảnh hưởng đến chất lượng hay khả năng suy luận của mô hình. Phương pháp này được gọi là speculative decoding, và nó đã tồn tại như một khái niệm trong nhiều năm. Các nhà nghiên cứu của Google đã xuất bản bài báo nền tảng từ năm 2022. Ý tưởng này chưa trở nên phổ biến cho đến tận bây giờ vì nó đòi hỏi kiến trúc phù hợp để hoạt động ở quy mô lớn. Đây là phiên bản ngắn gọn về cách nó hoạt động. Thay vì bắt mô hình lớn, mạnh mẽ làm tất cả công việc một mình, bạn ghép nó với một mô hình "drafter" nhỏ bé. Drafter nhanh và nhẹ—nó dự đoán nhiều token cùng lúc trong thời gian ít hơn so với thời gian mô hình chính cần để tạo ra chỉ một token. Sau đó, mô hình lớn kiểm tra tất cả các dự đoán đó trong một lần truyền duy nhất. Nếu các dự đoán đúng, bạn sẽ nhận được toàn bộ chuỗi với chi phí của một lần truyền xuôi (forward pass). Theo Google, "nếu mô hình mục tiêu đồng ý với bản nháp, nó sẽ chấp nhận toàn bộ chuỗi trong một lần truyền xuôi duy nhất—và thậm chí tạo thêm một token của riêng nó trong quá trình này." Không có gì bị hy sinh: Mô hình lớn—ví dụ như phiên bản 31B dense của Gemma 4—vẫn xác minh mọi token và chất lượng đầu ra là giống hệt nhau. Bạn chỉ đang khai thác sức mạnh tính toán nhàn rỗi vốn không được sử dụng trong các phần chậm chạp. Google cho biết các mô hình drafter chia sẻ KV cache của mô hình mục tiêu—một cấu trúc bộ nhớ lưu trữ ngữ cảnh đã được xử lý—vì vậy chúng không lãng phí thời gian tính toán lại những thứ mà mô hình lớn hơn đã biết. Đối với các mô hình edge nhỏ hơn được thiết kế cho điện thoại và thiết bị Raspberry Pi, nhóm thậm chí đã xây dựng một kỹ thuật phân cụm hiệu quả để cắt giảm thêm thời gian tạo. Đây không phải là nỗ lực duy nhất mà thế giới AI đã thực hiện để song song hóa việc tạo văn bản. Các mô hình ngôn ngữ dựa trên khuếch tán (diffusion-based)—như Mercury từ Inception Labs—đã thử một cách tiếp cận hoàn toàn khác: Thay vì dự đoán từng token một, chúng bắt đầu với nhiễu và tinh chỉnh lặp đi lặp lại toàn bộ đầu ra. Điều đó nhanh trên lý thuyết, nhưng
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản5 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:cece3c9452
Nguồn:Decrypt
Đăng:2026-05-07 13:13:49
Danh mục:Chung · Danh mục xuất neutral
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận