要闻列表Microsoft 的免费 AI 在网页浏览方面击败了 OpenAI 和 Google
Decrypt2026-05-22 19:31:03

Microsoft 的免费 AI 在网页浏览方面击败了 OpenAI 和 Google

ORIGINALMicrosoft's Free AI Just Beat OpenAI and Google at Browsing the Web
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4896 字
简而言之 - Fara1.5-27B 在 Online-Mind2Web 上获得了 72% 的分数,击败了 OpenAI Operator (58.3%) 和 Gemini 2.5 Computer Use (57.3%)。 - 这些模型采用开放权重,提供 40 亿、90 亿和 270 亿参数版本,并基于微调后的 Qwen 3.5 构建。 - Fara1.5-9B 现已在 Azure AI Foundry 上线;4B 和 27B 版本即将推出。 想象一下,你告诉电脑去查找度假租赁信息、对比五个网站、填写预订表格,并确认离海滩最近的那一个。然后你去煮杯咖啡。等你回来时,事情已经办妥了。这就是“计算机使用代理”(computer use agents)的承诺——AI 可以像人类一样阅读浏览器屏幕并进行点击、滚动和输入,无需任何特殊插件。 OpenAI 最早尝试了这一点,其 Operator 于 2025 年 1 月推出,每月收费 200 美元,随后被整合进 ChatGPT Agent 并于 8 月关闭。Google 拥有 Gemini 2.5 Computer Use。两者均为专有、基于云端且运行成本高昂。 本周,Microsoft Research 发布了一个名为 Fara1.5 的小型模型,在关键基准测试中,它击败了上述两者。 该系列有三种尺寸:40 亿、90 亿和 270 亿参数,全部基于 Qwen3.5 构建。Qwen3.5 是 Alibaba 的基础模型,Microsoft 对其进行了浏览器任务微调,并公开了所有权重。(参数决定了 AI 模型的知识广度,参数越多通常意味着能力越强。) 实现这一目标需要从零开始重新思考整个开发过程。“我们从一个简单的问题开始:要让一个小模型真正擅长代理任务需要什么?”AI Frontiers 团队写道,“答案涵盖了整个生命周期——数据生成、训练目标、模型设计和编排必须被重新设计,而不是孤立地进行。” 基准测试 Online-Mind2Web 是 Microsoft 希望在其中脱颖而出的关键基准测试。它测试 AI 代理在 136 个热门实时网站上完成 300 个多样化现实任务的频率——例如比较产品、填写表格和预订服务——并以在实际、不断变化的互联网上正确完成任务的百分比来评分。 Fara1.5-27B 得分为 72%。OpenAI Operator 得分为 58.3%。Google 的 Gemini 2.5 Computer Use 得分为 57.3%。Yutori 的 Navigator n1 作为顶尖的专有替代方案,达到了 64.7%。即使是中等尺寸的 Fara1.5-9B 也达到了 63.4%,领先于 OpenAI 和 Google。 开源竞争对手也表现不佳。Alibaba 的 GUI-Owl-1.5(80 亿参数)得分为 48.6%。AI2 的 MolmoWeb 得分为 35.3%。Microsoft 之前的模型 Fara-7B 得分为 34.1%——这意味着此次发布的产品在同等规模下性能几乎翻了一番。 在 WebVoyager(另一个以相同方式衡量实时网页任务成功率的基准测试)上,Fara1.5-27B 达到了 88.6%,略高于 OpenAI Operator 的 87.0%,并击败了 H Company 拥有 300 亿参数的 Holo2(83.0%)。 它是如何学习的 秘诀在于训练流水线。Microsoft 使用了一个名为 FaraGen1.5 的系统来生成训练数据。巧妙之处在于:他们使用 OpenAI 的模型 GPT-5.4 作为“教师代理”来演示如何完成浏览器任务。这些演示成为了 Fara1.5 的训练数据。你本质上是在使用 OpenAI 最强大的模型来训练一个竞争性的开源模型。 他们还创建了六个功能齐全的真实网站模拟副本——电子邮件客户端、日历、市场——以便模型可以在不触及真实账户的情况下练习需要登录或不可逆操作(如实际发送电子邮件或预订航班)的任务。这被称为合成领域训练,是 Fara1.5 处理“门控”任务优于其前身的重要原因。 每个模型在执行无法撤销的操作前都会被设计为暂停并询问。“在强大的安全保障(如关键点)与无缝用户体验之间取得平衡是关键,”Microsoft Research 的高级项目经理 Yash Lara 告诉 VentureBeat,“拥有一个 UI(如 Microsoft Research 的 Magentic-UI)对于
数据状态✓ 已抓取全文阅读原文(Decrypt)
🔍历史类似事件· 关键词 + 标的比对6 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:d16c5120ef
来源:Decrypt
发布:2026-05-22 19:31:03
分类:一般 · 导出分类 neutral
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言