AI miễn phí của Microsoft vừa đánh bại OpenAI và Google trong việc duyệt web

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯4896 từ

Tóm tắt - Fara1.5-27B đạt 72% trên Online-Mind2Web, vượt qua OpenAI Operator (58.3%) và Gemini 2.5 Computer Use (57.3%). - Các mô hình này có trọng số mở, với các kích thước 4 tỷ, 9 tỷ và 27 tỷ tham số, được xây dựng dựa trên Qwen 3.5 đã tinh chỉnh. - Fara1.5-9B hiện đã có mặt trên Azure AI Foundry; các phiên bản 4B và 27B sẽ sớm ra mắt. Hãy tưởng tượng bạn yêu cầu máy tính tìm kiếm các địa điểm cho thuê nghỉ dưỡng, so sánh năm trang web, điền vào biểu mẫu đặt phòng và xác nhận địa điểm gần bãi biển nhất. Bạn đi pha cà phê. Khi quay lại, mọi việc đã hoàn tất. Đó chính là lời hứa của "computer use agents"—AI đọc màn hình trình duyệt của bạn và thực hiện các thao tác nhấp chuột, cuộn trang và nhập liệu chính xác như con người mà không cần bất kỳ plugin đặc biệt nào. OpenAI đã thử nghiệm điều này đầu tiên với Operator, ra mắt vào tháng 1 năm 2025 với giá 200 USD mỗi tháng trước khi được tích hợp vào ChatGPT Agent và ngừng hoạt động vào tháng 8. Google có Gemini 2.5 Computer Use. Cả hai đều là các mô hình độc quyền, dựa trên đám mây và tốn kém khi vận hành. Tuần này, Microsoft Research đã phát hành một mô hình nhỏ gọn mang tên Fara1.5—và trên các tiêu chuẩn đánh giá quan trọng, nó đã vượt qua cả hai đối thủ trên. Dòng mô hình này có ba kích thước: 4 tỷ, 9 tỷ và 27 tỷ tham số, tất cả đều được xây dựng trên Qwen3.5, một mô hình nền tảng của Alibaba mà Microsoft đã tinh chỉnh cho các tác vụ trình duyệt, với tất cả trọng số được công khai. (Tham số là yếu tố quyết định phạm vi kiến thức của một mô hình AI, với số lượng lớn hơn thường đồng nghĩa với năng lực cao hơn.) Để đạt được điều này đòi hỏi phải suy nghĩ lại toàn bộ quy trình phát triển từ đầu. "Chúng tôi bắt đầu với một câu hỏi đơn giản: Cần những gì để làm cho một mô hình nhỏ thực sự giỏi trong các tác vụ đại lý (agentic tasks)?" nhóm AI Frontiers viết. "Câu trả lời bao trùm toàn bộ vòng đời—tạo dữ liệu, mục tiêu đào tạo, thiết kế mô hình và điều phối phải được thiết kế lại cùng nhau thay vì tách biệt." Các tiêu chuẩn đánh giá Online-Mind2Web là tiêu chuẩn quan trọng trong tác vụ mà Microsoft muốn vượt trội. Nó kiểm tra tần suất một AI agent hoàn thành chính xác 300 tác vụ đa dạng, thực tế trên 136 trang web phổ biến—như so sánh sản phẩm, điền biểu mẫu và đặt dịch vụ—được tính điểm theo tỷ lệ phần trăm các tác vụ hoàn thành chính xác trên internet thực tế và luôn thay đổi. Fara1.5-27B đạt 72%. OpenAI Operator đạt 58.3%. Gemini 2.5 Computer Use của Google đạt 57.3%. Navigator n1 của Yutori, giải pháp thay thế độc quyền hàng đầu, đạt 64.7%. Ngay cả Fara1.5-9B, mô hình tầm trung, cũng đạt 63.4%—vượt qua cả OpenAI và Google. Các đối thủ mã nguồn mở cũng không đạt kết quả tương tự. GUI-Owl-1.5 của Alibaba với 8 tỷ tham số đạt 48.6%. MolmoWeb của AI2 đạt 35.3%. Mô hình trước đó của Microsoft, Fara-7B, đạt 34.1%—khiến bản phát hành này đạt hiệu suất gần gấp đôi so với phiên bản tiền nhiệm ở cùng kích thước. Trên WebVoyager, một tiêu chuẩn thứ hai đo lường sự thành công của tác vụ trên web thực tế với cách tính điểm tương tự, Fara1.5-27B đạt 88.6%, vượt qua 87.0% của OpenAI Operator và đánh bại Holo2 với 30 tỷ tham số của H Company ở mức 83.0%. Cách nó học hỏi Bí quyết nằm ở quy trình đào tạo. Microsoft đã sử dụng một hệ thống có tên FaraGen1.5 để tạo dữ liệu đào tạo. Phần thông minh ở đây là: họ đã sử dụng GPT-5.4—mô hình của OpenAI—như một "giáo viên" để trình diễn

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin

2026-04-29

Google và Microsoft vừa chứng minh AI Trade vẫn còn sống—trong khi OpenAI đang phải lo sốt vó

Độ tương đồng 200%關鍵字 google/just/microsoft

2026-05-01

Lầu Năm Góc ký thỏa thuận AI với Google, OpenAI, Nvidia, Microsoft, Amazon và SpaceX

Độ tương đồng 180%關鍵字 google/microsoft/openai

2026-05-20

Solana mất một nửa lực mua ngay khi cánh cửa sập $83 đe dọa lao dốc tự do

Độ tương đồng 130%關鍵字 just/free

2026-05-16