要闻列表爬虫神器 browse.sh:提供 AI 代理超 500+ 常用网站完整操作技能包 Skill
動區 BlockTempo2026-05-20 07:46:17

爬虫神器 browse.sh:提供 AI 代理超 500+ 常用网站完整操作技能包 Skill

ORIGINAL爬蟲神器 browse.sh:提供 AI 代理超 500+ 常用網站完整操作技能包 Skill
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯5318 字
AI 浏览器基础设施公司 Browserbase 正式推出 browse.sh,一个专门给 AI 代理(agent)使用的浏览器命令行工具(CLI),并附带超过 500 个预写好的"网络操作技能"。 (前情提要:Claude Code 终极速查表:快捷键、Slash 指令、技能、Agents 代理、MCP 完整操作密技) (背景补充:Y Combinator 创业指南解读:AI Agent 在未来有哪些发展趋势?) 月份,一个名叫 browse.sh 的工具正式上线,它要解决的是如何让 AI 代理(agent)如何更快速、正确的"上网做事"? 以往的答案是:自己把整个网页的 HTML 源代码交给语言模型判断要点击哪里、填什么字段。这个方式不只慢,还非常烧钱:一个稍微复杂的电商页面,光 HTML 就可能有好几万个字符,全部喂给语言模型,token 费用支出不小。 Browserbase 给的答案是:预先把每个网站的操作逻辑写成一个"技能包 skill",agent 只要调用技能,不用每次都读整页 HTML。browse.sh 就是这个想法的命令行入口,也是一个开放的技能目录(open web skill catalog)。 browse.sh 的官方定义是「Browser CLI and open web skill catalog for agents」,翻成白话:一个给 AI 代理用的浏览器命令行工具,外加一个开放的网络操作技能商店。 这里有两个核心概念要先拆开说清楚: 什么是 CLI(命令行接口)?就是你在终端机窗口里打字执行的工具。npm、git、python 都是 CLI 工具。browse 也是,安装后就能在终端机打 browse click "input#search" 让浏览器点一个特定元素。 什么是 headless browser(无头浏览器)?一个不会实际在屏幕上打开窗口的浏览器程序,但行为跟真实的 Chrome 完全一样:可以执行 JavaScript、处理 Cookie、绕过基本的反机器人侦测。AI agent 通过它"看"网页、填表单、点按钮,用户什么都不用开。 什么是 skill(技能)?一个预先写好的操作指令脚本,告诉 agent"这个网站的搜索栏在哪、下单按钮是什么 id、API 返回的 JSON 格式长什么样"。比起让 agent 每次都自己摸索,skill 让整个流程又快又省 token。 browse.sh 的底层是 Browserbase 自家开源的 Stagehand:Browserbase 自己写的"让 AI 操作浏览器"的开源工具包,可以把它想成 Playwright 加上 AI 语义理解层。browse.sh 是把 Stagehand 的功能包装成更好用的命令行工具,并在上面加了 500 多个现成技能。 整个生态的入口有三个: - https://browse.sh/:官方网站与技能目录浏览入口 - https://browse.sh/llms.txt:给 AI agent 读的精简技能索引(体积小,适合直接喂给语言模型) - https://browse.sh/llms-full.txt:完整的 SKILL.md 说明,包含每个技能的 DOM 选择器与使用方式 这个设计本身就很有意思:browse.sh 知道它的用户不是人,而是 AI,所以索引格式从一开始就是为语言模型设计的。 安装只需一行: $ npm install -g browse 装好之后,基础操作指令涵盖了一个浏览器 session 的完整生命周期: $ browse click "input#search" $ browse type "Apartments in SF" $ browse press "Enter" $ browse screenshot $ browse network --tail $ browse console --tail 这里的 DOM 选择器(DOM selector)是什么?DOM 是网页的结构树,每个按钮、输入框、链接都是树上的一个节点。DOM 选择器就是告诉浏览器"要操作哪个节点"的精确地址,例如 input#search 意思是"id 叫 search 的输入框",button.submit-btn 意思是"class 叫 submit-btn 的按钮"。 browse screenshot 让 agent 在操作过程中随时截图确认画面状态;browse network --tail 则会实时打印出浏览器发出的所有 HTTP 请求:这对调试非常有用,也让开发者能直接看到网站调用的后端 API 端点,方便之后写成 api 类型的 skill。 安装技能只需要一行,之后 agent 就能直接用该网站的预写好操作逻辑: $ browse skills add airbnb.com 官方给的完整场景范例示范了这个工具的能力上限,让 Claude 规划一趟犹他州公路旅行,包含充电站、露营地,最后还自动到 Ramp 申请报账: $ browse skills add alltrails.com $ browse skills add recreation.gov $ browse skills add weather.gov $ browse skills add plugshare.com $ browse skills add ramp.com $ claude "Plan a road trip to Utah with EV charging stops and campsites for each night. Book and reimburse on Ramp." 本地模式 vs 云端模式是一个很实用的设计:默认情况下 browse 跑的是电脑上的本地 Chromium,适合开发和测试。当要上正式环境,只要在指令前加 cloud 就能切到 Browserbase 的云端浏览器基础设施:自动帮你处理 CAPTCHA(图形验证码)、身份验证、IP 轮换: $ browse cloud sessions create $ browse cloud fetch "https://www.nytimes.com/section/us" $ browse cloud search "Latest White House press release" 这个"本地开发、云端生产"的分离设计让开发者在本机测试不用付费,只有真正大量执行时才产生费用,对独立开发者相当友善。 超过 500 个技能全部开源在 GitHub 的 browserbase/skills 仓库,任何人可以用 Pull Request 贡献新技能。主要分类如下: 技能分三种类型,差异在"agent 用什么方法获取数据": - browser 类型:agent 用 headless Chromium 直接操作网页画面,适合没有公开 API 的网站 - api 类型:agent 直接打网站的后端 API 端点,绕过浏览器渲染,速度更快、更稳定 - hybrid 类型:混合使用,例如登录用浏览器,抓数据用 API token 成本逻辑是这个分类设计最重要的理由。以往 agent 操作一个电商网页,要把完整 HTML 塞给语言模型分析,一个亚马逊商品页可能有 3 万个字符,换算成 token 大约是 7,000 至 10,000 个。如果 agent 每步都要读一次页面,一个 10 步的操作就要消耗 10 万个 token,费用很快就失控。 browse.sh 的 skill 预先标好了"搜索栏在哪、结果列表的 DOM 是什么、API 返回的关键字段是哪几个",agent 收到的是精简指令而非整页 HTML。 Browserbase 官方宣称这能把 token 成本降低 50 倍,虽然实际数字因使用场景而异,但这个方向是正确的,这也是让"会上网的 agent"从烧钱的噱头变成可商业化产品的关键一步。 browse.sh 本身是免费开源工具,但其底层的云端执行环境 Browserbase 是付费服务。定价架构如下: 几个值得注意的细节: - Free 方案不需信用卡,每月 1 小时内含量适合快速验证想法 - Developer 以上含 Stealth 模式(让浏览器看起来更像真人在操作,降低被封锁的几率)与自动 CAPTCHA 破解 - 计费是 usage-based(按实际用量计费,通过 Stripe 结算),不是固定席位费 - 住宅代理(residential proxy):用真实住宅 IP 地址发出请求,避免被网站识别为机房 IP 而封锁。Developer 方案含 1 GB、Startup 含 5 GB browse.sh 与市面上主要竞品的差异比较: browse.sh 的主要优势在于:技能目录的规模(500 个 skill 远超竞品)、与 Claude Code 的深度整合(可从对话直接调用)、以及开发体验的友善度(本地免费开发、一个 cloud 字首切换生产环境)。 Browserbase 成立于 2024 年,核心产品是"云端 headless Chromium 浏览器即服务(BaaS)"——简单说,就是把高度拟人化的浏览器环境包装成 API,让开发者不用自己维护浏览器集群。 融资历程: - 种子轮(Seed):$6.5M - A 轮(2024 Q3):$21M,CRV 与 Kleiner Perkins 共同领投 - B 轮(2025 Q2):$40M,Notable Capital 领投、CRV 与 Kleiner Perkins 跟投,估值约 $3 亿美元 - 累计募资:$67.5M 两轮合计吸引到 Kleiner Perkins(早期投过 Google、Amazon)这个等级的 VC 持续加码,显示这个赛道的吸引力不是短期热潮。 Browserbase 的技术差异化在基础设施层: - Identity(身份系统):帮 agent 管理登录状态与 Cookie,让每个 session 都像真实用户 - Verified browsers(已验证浏览器):通过主要网站的机器人侦测筛查 - 自动 CAPTCHA 破解:无需人工干预,agent 可以无缝通过图形验证 - 住宅 IP 代理:用真实家用网络 IP 出口,避免机房 IP 被封锁 合作伙伴名单本身就是一张背书清单:Anthropic(Claude 的母公司)、Perplexity(AI 搜索引擎)、LangChain(最广泛使用的 AI agent 框架)、Vercel(前端部署平台)都是客户或整合伙伴。 从生态系时间轴来看,browse.sh 的推出不是孤立事件:2026 年 1 月 Vercel 推出 skills.sh(agent skill 公开目录),2026 年 5 月 Anthropic 扩大 Claude Skills 生态(推出金融分析 41 个 skill、Claude Design 等),同月 Browserbase 推出 browse.sh 并深度整合 Claude Code。 这些动作共同描绘了一个趋势:从"会聊天的语言模型"走向"会做事的 agent",而 skill = 动作模块,是让 agent 真正落地的关键零件。 browse.sh 目前仍有几个值得注意的限制: - 读多于写:目前 500 个 skill 中,查询、搜索、抓数据类的技能占多数;涉及"下单付款""提交表单"这类有真实副作用的操作较少,风险控管逻辑尚未标准化 - 网站更新维护成本:网站改版后,DOM 选择器就可能失效。500 个 skill 需要社群持续维护,这是开放生态的共有难题 - 登录态管理复杂度:需要 OAuth、双因素验证(2FA)的网站,agent 的登录流程仍然较复杂,目前主要靠 Browserbase 的 Identity 系统辅助 - 法规灰色地带:自动化操作某些网站可能触及服务条款,各地法律明确性不一 即便如此,browse.sh 的推出时机点抓得很精准:Claude Code 已有大量开发者在用,skills 生态正在快速扩张,agent 基础设施的标准化正在凝聚。Browserbase 在卖的不只是云端浏览器服务,而是让 agent"真的会做事"的能力层,这和只会回答问题的聊天机器人是本质上不同的产品形态。 从 token 成本降 50 倍、到深度整合 Claude Code、到 500 个现成技能,browse.sh 试图让"会上网的 agent"从技术论文里走到任何开发者的终端机。对加密产业而言,这既是效率工具,也是需要提前思考防御的新变量。
数据状态✓ 已抓取全文阅读原文(動區 BlockTempo)
🔍历史类似事件· 关键词 + 标的比对0 则
找不到相似事件(需要更多数据样本或 embedding 搜寻,目前为 MVP 关键词比对)
原始信息
ID:a710da4229
来源:動區 BlockTempo
发布:2026-05-20 07:46:17
分类:zh_news · 导出分类 zh
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言