Mô hình AI Hy3 mới của Tencent là LLM Trung Quốc hiệu quả nhất mà không ai nhắc đến

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯4978 từ

Tóm tắt - Hy3 preview là một mô hình Mixture-of-Experts với 295 tỷ tham số tổng cộng nhưng chỉ có 21 tỷ tham số hoạt động, giúp việc vận hành tiết kiệm chi phí hơn so với hầu hết các đối thủ có năng lực tương đương. - Trên SWE-bench Verified—một bộ tiêu chuẩn đánh giá khả năng lập trình thông qua việc sửa lỗi thực tế trên GitHub—mô hình đã tăng từ 53% (Hy2) lên 74,4%, cải thiện 40% so với thế hệ trước. - Mô hình hiện đã được triển khai trên hệ sinh thái ứng dụng của Tencent bao gồm Yuanbao, QQ và Tencent Docs, với quyền truy cập API trên Tencent Cloud bắt đầu từ khoảng 0,18 USD cho mỗi triệu token đầu vào. Tencent đã âm thầm ra mắt mô hình AI mạnh mẽ nhất của mình vào thứ Năm, và các con số đánh giá thật khó để bỏ qua. Hy3 preview, mô hình đầu tiên của công ty sau khi tái cấu trúc toàn bộ cơ sở hạ tầng, đã được mở mã nguồn hôm nay trên GitHub, Hugging Face và ModelScope. Nó cũng có sẵn trên trang web chính thức của Tencent Cloud theo gói trả phí. Hy3 sở hữu 295 tỷ tham số tổng cộng (thước đo phạm vi kiến thức tiềm năng của mô hình) nhưng chỉ có 21 tỷ tham số hoạt động tại bất kỳ thời điểm nào. Đó là ưu điểm của kiến trúc Mixture-of-Experts—mô hình điều hướng mỗi truy vấn đến một tập hợp con chuyên biệt của các mạng con "chuyên gia" thay vì chạy mọi thứ cùng lúc. Ít tính toán hơn, chi phí thấp hơn, chất lượng đầu ra tương đương. Nó cũng hỗ trợ ngữ cảnh lên đến 256.000 token, đủ để xử lý một cuốn tiểu thuyết dài trong một câu lệnh duy nhất. Mô hình được xây dựng để cân bằng ba yếu tố mà Tencent cho biết họ đã ngừng hy sinh lẫn nhau: phạm vi năng lực, đánh giá trung thực và hiệu quả chi phí. Sản phẩm chủ lực trước đó của họ, Hy2, có hơn 400 tỷ tham số. Tencent đã chủ động thay đổi điều đó, lập luận rằng 295 tỷ là điểm tối ưu nơi khả năng suy luận phát triển hoàn thiện nhưng chi phí để thêm tham số không còn mang lại hiệu quả tương xứng. Điều này không có nghĩa là mô hình kém hơn. Các mô hình được đào tạo tốt hơn với ít tham số hơn thường xuyên vượt trội hơn các mô hình tổng quát lớn hơn. Về lập trình, sự cải thiện là rất ấn tượng. SWE-bench Verified là bộ tiêu chuẩn kiểm tra xem một mô hình có thực sự sửa được lỗi thực tế từ các kho lưu trữ GitHub hay không—không phải các bài toán giả định, mà là mã nguồn thực tế. Hy2 đạt 53,0%. Hy3 preview đạt 74,4%. Đó là mức tăng 40% trong một thế hệ, đưa nó vào phạm vi của Claude Opus 4.6 (80,8%) và vượt trên GLM-5 (77,8%) và Kimi-K2.5 (76,8%). Terminal-Bench 2.0, đo lường khả năng thực thi tác vụ tự động trong môi trường dòng lệnh thực tế, đã tăng từ 23,2% lên 54,4%—cũng là một bước nhảy vọt lớn. Tuy nhiên, mô hình này có thể là một lựa chọn rất thú vị cho những người xây dựng bằng các tác nhân (agents). Các tác nhân có tập hợp hướng dẫn rất phức tạp liên quan đến bộ nhớ, kỹ năng và gọi công cụ. Chúng thường bỏ sót điều gì đó, điều này có thể làm hỏng quy trình làm việc hoặc tạo ra kết quả kém. Đó là lý do tại sao năng lực tác nhân đang trở nên ngày càng quan trọng đối với các nhà phát triển AI khi lĩnh vực này trở thành chủ đề được thổi phồng nhất trong ngành. Đây cũng là lý do tại sao mô hình này ngay lập tức được cung cấp trên Openclaw. Các tác nhân tìm kiếm và duyệt web—nơi các mô hình phải truy xuất, lọc và tổng hợp thông tin từ web mở mà không cần sự hướng dẫn của con người—cũng được cải thiện mạnh mẽ. Trên BrowseComp, một bộ tiêu chuẩn theo dõi các tác vụ nghiên cứu web phức tạp, Hy3 preview đạt 67,1% (tăng từ 28,7% của Hy2). Trên WideSearch, nó đạt 70,2%, vượt qua GLM-5 và Kimi-K2.5 nhưng vẫn xếp sau 77,2% của Claude Opus 4.6. Về

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin

2026-04-22

MiMo 2.5 Pro AI mới của Xiaomi có thể nhìn, nghe và hành động—tất cả trong một mô hình duy nhất

Độ tương đồng 180%關鍵字 new/one/model

2026-04-20

Alibaba ra mắt Qwen 3.6 Max Preview—mô hình mạnh mẽ nhất từ trước đến nay của hãng

Độ tương đồng 130%關鍵字 most/model

2026-04-18

Mô hình AI mới Rosalind của OpenAI có thể rút ngắn nhiều năm trong quá trình khám phá thuốc. Bạn có lẽ không thể sử dụng nó

Độ tương đồng 130%關鍵字 new/model

2026-04-17