要聞列表Microsoft 的免費 AI 在網頁瀏覽方面擊敗了 OpenAI 和 Google
Decrypt2026-05-22 19:31:03

Microsoft 的免費 AI 在網頁瀏覽方面擊敗了 OpenAI 和 Google

ORIGINALMicrosoft's Free AI Just Beat OpenAI and Google at Browsing the Web
AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯4896 字
簡介 - Fara1.5-27B 在 Online-Mind2Web 基準測試中獲得 72% 的分數,擊敗了 OpenAI Operator (58.3%) 與 Gemini 2.5 Computer Use (57.3%)。 - 這些模型採用開放權重,提供 40 億、90 億與 270 億參數版本,並基於微調後的 Qwen 3.5 構建。 - Fara1.5-9B 現已在 Azure AI Foundry 上線;4B 與 27B 版本即將推出。 試想一下,你告訴電腦去搜尋度假租屋、比較五個網站、填寫預訂表格,並確認離海灘最近的那一個。接著你去泡杯咖啡,回來時任務就完成了。這就是「電腦使用代理」(computer use agents)的願景——AI 能讀取你的瀏覽器畫面,並像人類一樣點擊、捲動與輸入,且無需任何特殊插件。 OpenAI 最初透過 Operator 嘗試了這一點,該產品於 2025 年 1 月以每月 200 美元的價格推出,隨後併入 ChatGPT Agent 並於 8 月關閉。Google 則擁有 Gemini 2.5 Computer Use。兩者皆為專有、基於雲端且運行成本高昂。 本週,Microsoft Research 發布了一款名為 Fara1.5 的小型模型,在關鍵的基準測試中,它擊敗了上述兩者。 該系列模型共有三種尺寸:40 億、90 億與 270 億參數,全數基於 Alibaba 的基礎模型 Qwen3.5 構建,並由 Microsoft 針對瀏覽器任務進行微調,所有權重皆已公開發布。(參數決定了 AI 模型的知識廣度,通常參數越多代表能力越強。) 達成此目標需要從零開始重新思考整個開發流程。「我們從一個簡單的問題開始:要讓一個小型模型真正擅長代理任務需要什麼?」AI Frontiers 團隊寫道。「答案涵蓋了整個生命週期——數據生成、訓練目標、模型設計與編排必須共同重新設計,而非各自獨立。」 基準測試 Online-Mind2Web 是 Microsoft 希望在該任務中脫穎而出的關鍵基準測試。它測試 AI 代理在 136 個熱門即時網站上完成 300 項多樣化真實任務的頻率——例如比較產品、填寫表格與預訂服務——並以在實際且不斷變化的網際網路上正確完成任務的百分比來評分。 Fara1.5-27B 獲得 72%。OpenAI Operator 獲得 58.3%。Google 的 Gemini 2.5 Computer Use 獲得 57.3%。頂級專有替代方案 Yutori 的 Navigator n1 達到 64.7%。即使是中型模型 Fara1.5-9B 也達到了 63.4%,領先 OpenAI 與 Google。 開源競爭對手也表現不佳。Alibaba 的 GUI-Owl-1.5(80 億參數)得分 48.6%。AI2 的 MolmoWeb 得分 35.3%。Microsoft 之前的模型 Fara-7B 得分 34.1%——這使得本次發布的模型在相當規模下,效能幾乎是前代產品的兩倍。 在另一個衡量即時網頁任務成功率的基準測試 WebVoyager 上,Fara1.5-27B 達到 88.6%,小幅領先 OpenAI Operator 的 87.0%,並擊敗了 H Company 擁有 300 億參數的 Holo2(83.0%)。 學習方式 成功的秘訣在於訓練流程。Microsoft 使用了一套名為 FaraGen1.5 的系統來生成訓練數據。巧妙之處在於:他們使用 OpenAI 的模型 GPT-5.4 作為「教師代理」來示範如何完成瀏覽器任務。這些示範成為了 Fara1.5 的訓練數據。本質上,你是利用 OpenAI 最強大的模型來訓練一個開源競爭對手。 他們還創建了六個功能齊全的真實網站複製品——包括電子郵件客戶端、日曆與市集——讓模型可以在不觸及真實帳戶的情況下,練習需要登入或不可逆操作(如實際發送郵件或預訂航班)的任務。這被稱為合成領域訓練(synthetic domain training),這也是 Fara1.5 處理「受限
資料狀態✓ 已擷取全文閱讀原文(Decrypt)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:d16c5120ef
來源:Decrypt
發佈:2026-05-22 19:31:03
分類:一般 · 導出分類 neutral
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言