Danh sách tinMô hình AI Ernie 5.1 chính thức ra mắt: Số lượng tham số giảm xuống còn 1/3 so với 5.0, chi phí tiền huấn luyện chỉ tốn 6%
動區 BlockTempo2026-05-09 08:23:48

Mô hình AI Ernie 5.1 chính thức ra mắt: Số lượng tham số giảm xuống còn 1/3 so với 5.0, chi phí tiền huấn luyện chỉ tốn 6%

ORIGINALAI模型文心5.1正式上線:引數砍至5.0三分之一,預訓練成本只花6%
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯1250 từ
Baidu Wenxin mô hình lớn 5.1 chính thức ra mắt, người dùng có thể trải nghiệm trên trang web chính thức của Wenxin Yiyan, doanh nghiệp và nhà phát triển có thể gọi API thông qua nền tảng Qianfan. Wenxin 5.1 được huấn luyện dựa trên Wenxin 5.0 ra mắt vào tháng 1 năm nay, tổng số tham số được nén xuống còn khoảng 1/3 so với 5.0, tham số kích hoạt khoảng một nửa, chi phí tính toán tiền huấn luyện chỉ bằng 6% so với các mô hình cùng quy mô. Công nghệ cốt lõi là khung huấn luyện linh hoạt Once-for-All do Baidu đề xuất. (Tiền đề: DeepSeek huy động 7,35 tỷ USD trong vòng đầu tiên vượt mặt Alibaba: Liang Wenfeng tự bỏ ra 40%, chỉ cần số tiền có "điều kiện ít nhất") (Bổ sung bối cảnh: Anthropic chi 200 tỷ USD trong 5 năm cho Google Cloud, hai startup AI chiếm một nửa đơn hàng của bốn gã khổng lồ đám mây) - Baidu Wenxin 5.1 chính thức ra mắt, tổng tham số nén xuống còn 1/3 so với 5.0, tham số kích hoạt khoảng một nửa - Chi phí tính toán tiền huấn luyện chỉ bằng 6% so với các mô hình cùng quy mô, công nghệ cốt lõi là khung huấn luyện linh hoạt Once-for-All - Wenxin 5.0 thực hiện tiền huấn luyện một lần để tạo ra ma trận mô hình con, 5.1 trích xuất cấu trúc tối ưu từ đó để kế thừa trực tiếp kiến thức Mô hình lớn Baidu Wenxin 5.1 chính thức ra mắt. Người dùng có thể trải nghiệm trực tiếp trên trang web chính thức của Wenxin Yiyan, doanh nghiệp và nhà phát triển có thể gọi API thông qua nền tảng Qianfan. Wenxin 5.1 được huấn luyện dựa trên Wenxin 5.0 ra mắt vào tháng 1 năm nay, điểm bán hàng cốt lõi là nén đáng kể kích thước mô hình và chi phí huấn luyện. Phiên bản 5.1 đã leo lên vị trí thứ tư trên bảng xếp hạng tìm kiếm Arena. Cốt lõi của việc nén chi phí đến từ khung huấn luyện linh hoạt Once-for-All do Baidu đề xuất. Cách tiếp cận truyền thống đòi hỏi phải chạy tiền huấn luyện riêng cho các mô hình có quy mô khác nhau, mỗi kích thước mô hình là một khoản đầu tư tính toán độc lập, càng nhiều phiên bản quy mô thì sự lãng phí do huấn luyện lặp lại càng lớn. Cách làm của Wenxin 5.0 khác biệt: nó chỉ thực hiện tiền huấn luyện một lần, thông qua kỹ thuật lấy mẫu động để tối ưu hóa đồng thời một lượng lớn các mô hình con có kích thước khác nhau, hình thành một "ma trận mô hình con". Wenxin 5.1 chính là cấu trúc tối ưu được trích xuất từ ma trận này. Nó kế thừa trực tiếp toàn bộ kiến thức mà 5.0 đã tích lũy trong giai đoạn tiền huấn luyện, tiết kiệm được chi phí tính toán cần thiết cho việc huấn luyện từ đầu. Con số "chi phí tiền huấn luyện 6%" cần được giải thích rằng, Baidu không tìm ra phương pháp huấn luyện rẻ hơn trên cùng một quy mô, mà là Wenxin 5.1 đã bỏ qua hoàn toàn quy trình tiền huấn luyện từ con số không. Chi phí huấn luyện của nó chủ yếu dành cho việc sàng lọc cấu trúc tối ưu từ ma trận mô hình con của 5.0, cũng như các giai đoạn tinh chỉnh và căn chỉnh tiếp theo. So với cách làm huấn luyện độc lập cho từng quy mô mô hình của các đối thủ, kiến trúc "huấn luyện một lần, tạo ra nhiều sản phẩm" này có lợi thế về cấu trúc trong chi phí biên. Logic này khác với lộ trình huấn luyện chi phí thấp mà DeepSeek công bố đầu năm nay. DeepSeek V3 nhấn mạnh vào việc giảm chi phí bằng cách sử dụng ít GPU hơn và triển khai kỹ thuật hiệu quả hơn trong một lần huấn luyện duy nhất; trong khi Once-for-All của Baidu là mở rộng đầu ra của một lần huấn luyện từ "một mô hình" thành "cả một gia đình mô hình". Wenxin 5.1 và Wenxin 5.0 có gì khác biệt? Wenxin 5.1 được huấn luyện dựa trên 5.0, tổng tham số nén xuống còn 1/3 so với 5.0, tham số kích hoạt khoảng một nửa. Nó trích xuất cấu trúc tối ưu từ ma trận mô hình con Once-for-All của
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (動區 BlockTempo)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản0 tin
Không tìm thấy sự kiện tương tự (cần thêm mẫu dữ liệu hoặc tìm kiếm embedding, hiện tại là đối chiếu từ khóa MVP)
Thông tin gốc
ID:58436348cf
Nguồn:動區 BlockTempo
Đăng:2026-05-09 08:23:48
Danh mục:zh_news · Danh mục xuất zh
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận