AI Gratis Microsoft Baru Saja Mengalahkan OpenAI dan Google dalam Menjelajahi Web

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯4896 kata

Singkatnya - Fara1.5-27B mencetak skor 72% pada Online-Mind2Web, mengungguli OpenAI Operator (58,3%) dan Gemini 2.5 Computer Use (57,3%). - Model-model ini bersifat open-weight, hadir dalam ukuran parameter 4 miliar, 9 miliar, dan 27 miliar, serta dibangun di atas Qwen 3.5 yang telah disesuaikan (fine-tuned). - Fara1.5-9B sudah tersedia sekarang di Azure AI Foundry; versi 4B dan 27B akan segera hadir. Bayangkan Anda meminta komputer Anda untuk mencari penyewaan liburan, membandingkan lima situs, mengisi formulir pemesanan, dan mengonfirmasi yang paling dekat dengan pantai. Anda pergi membuat kopi. Saat Anda kembali, semuanya sudah selesai. Itulah janji dari "computer use agents"—AI yang membaca layar browser Anda dan mengeklik, menggulir, serta mengetik persis seperti yang dilakukan manusia, tanpa memerlukan plugin khusus. OpenAI mencoba ini pertama kali dengan Operator, yang diluncurkan pada Januari 2025 seharga $200 per bulan sebelum digabungkan ke dalam ChatGPT Agent dan ditutup pada Agustus. Google memiliki Gemini 2.5 Computer Use. Keduanya bersifat eksklusif (proprietary), berbasis cloud, dan mahal untuk dijalankan. Minggu ini, Microsoft Research merilis model kecil bernama Fara1.5—dan pada tolok ukur (benchmark) yang diperhitungkan, model ini mengungguli keduanya. Keluarga model ini hadir dalam tiga ukuran: 4 miliar, 9 miliar, dan 27 miliar parameter, semuanya dibangun di atas Qwen3.5, model dasar dari Alibaba yang disesuaikan oleh Microsoft untuk pekerjaan browser, dengan semua bobot (weights) dirilis secara publik. (Parameter adalah hal yang menentukan luasnya pengetahuan model AI, di mana jumlah yang lebih besar umumnya berarti kapasitas yang lebih tinggi.) Mencapainya memerlukan pemikiran ulang seluruh proses pengembangan dari awal. "Kami memulai dengan pertanyaan sederhana: Apa yang diperlukan untuk membuat model kecil benar-benar mahir dalam tugas-tugas agen?" tulis tim AI Frontiers. "Jawabannya mencakup seluruh siklus hidup—pembuatan data, tujuan pelatihan, desain model, dan orkestrasi harus dirancang ulang bersama, bukan secara terpisah." Tolok ukur (Benchmark) Online-Mind2Web adalah tolok ukur yang penting dalam tugas yang ingin dikuasai oleh Microsoft. Ini menguji seberapa sering agen AI berhasil menyelesaikan 300 tugas dunia nyata yang beragam di 136 situs web populer yang aktif—seperti membandingkan produk, mengisi formulir, dan memesan layanan—yang dinilai sebagai persentase tugas yang diselesaikan dengan benar di internet yang nyata dan terus berubah. Fara1.5-27B mencetak skor 72%. OpenAI Operator mencetak skor 58,3%. Gemini 2.5 Computer Use milik Google mencetak skor 57,3%. Navigator n1 milik Yutori, alternatif eksklusif teratas, mencapai 64,7%. Bahkan Fara1.5-9B, model berukuran menengah, mencapai 63,4%—mengungguli OpenAI dan Google. Pesaing open-source juga tertinggal. GUI-Owl-1.5 milik Alibaba dengan 8 miliar parameter mencetak skor 48,6%. MolmoWeb milik AI2 mencetak skor 35,3%. Model Microsoft sebelumnya, Fara-7B, mencetak skor 34,1%—membuat rilis ini hampir dua kali lipat lebih baik dari pendahulunya pada ukuran yang sebanding. Pada WebVoyager, tolok ukur kedua yang mengukur keberhasilan tugas di web langsung dengan cara yang sama, Fara1.5-27B mencapai 88,6%, sedikit mengungguli 87,0% milik OpenAI Operator dan mengalahkan Holo2 dengan 30 miliar parameter milik H Company yang mencapai 83,0%. Cara model ini belajar Rahasianya adalah jalur pelatihan (training pipeline). Microsoft menggunakan sistem bernama FaraGen1.5 untuk menghasilkan data pelatihan. Bagian cerdasnya adalah: mereka menggunakan GPT-5.4—model milik OpenAI—sebagai "agen pengajar" untuk mendemonstrasikan cara menyelesaikan tugas browser. Demonstrasi tersebut menjadi data pelatihan untuk Fara1.5. Anda pada dasarnya menggunakan model OpenAI yang paling mumpuni untuk melatih model open-source pesaing. Mereka juga membuat enam replika situs web nyata yang berfungsi penuh—klien email, kalender, marketplace—sehingga model dapat melatih tugas yang memerlukan login atau tindakan yang tidak dapat dibatalkan (seperti mengirim email atau memes

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-04-29

Google dan Microsoft Baru Saja Membuktikan Bahwa Perdagangan AI Masih Hidup—Sementara OpenAI Sedang Berkeringat

Tingkat kemiripan 200%關鍵字 google/just/microsoft

2026-05-01

Pentagon Menandatangani Kesepakatan AI dengan Google, OpenAI, Nvidia, Microsoft, Amazon, dan SpaceX

Tingkat kemiripan 180%關鍵字 google/microsoft/openai

2026-05-20

Solana Kehilangan Setengah Penawarannya Tepat Saat Pintu Jebakan $83 Mengancam Jatuh Bebas

Tingkat kemiripan 130%關鍵字 just/free

2026-05-16