要聞列表爬蟲神器 browse.sh:提供 AI 代理超 500+ 常用網站完整操作技能包 Skill
動區 BlockTempo2026-05-20 07:46:17

爬蟲神器 browse.sh:提供 AI 代理超 500+ 常用網站完整操作技能包 Skill

AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取5318 字
AI 瀏覽器基礎設施公司 Browserbase 正式推出 browse.sh,一個專門給 AI 代理(agent)使用的瀏覽器命令列工具(CLI),並附帶超過 500 個預寫好的「網路操作技能」。 (前情提要:Claude Code 終極速查表:快捷鍵、Slash 指令、技能、Agents 代理、MCP 完整操作密技) (背景補充:Y Combinator 創業指南解讀:AI Agent 在未來有哪些發展趨勢?) 月份,一個名叫 browse.sh 的工具正式上線,它要解決的是如何讓 AI 代理(agent)如何更快速、正確的「上網做事」? 以往的答案是:自己把整個網頁的 HTML 原始碼交給語言模型判斷要點擊哪裡、填什麼欄位。這個方式不只慢,還非常燒錢:一個稍微複雜的電商頁面,光 HTML 就可能有好幾萬個字元,全部餵給語言模型,token費用支出不小。 Browserbase 給的答案是:預先把每個網站的操作邏輯寫成一個「技能包 skill」,agent 只要呼叫技能,不用每次都讀整頁 HTML。browse.sh 就是這個想法的命令列入口,也是一個開放的技能目錄(open web skill catalog)。 browse.sh 的官方定義是「Browser CLI and open web skill catalog for agents」,翻成白話:一個給 AI 代理用的瀏覽器命令列工具,外加一個開放的網路操作技能商店。 這裡有兩個核心概念要先拆開說清楚: 什麼是 CLI(命令列介面)?就是你在終端機視窗裡打字執行的工具。npm、git、python 都是 CLI 工具。browse 也是,安裝後就能在終端機打 browse click "input#search" 讓瀏覽器點一個特定元素。 什麼是 headless browser(無頭瀏覽器)?一個不會實際在螢幕上開啟視窗的瀏覽器程式,但行為跟真實的 Chrome 完全一樣:可以執行 JavaScript、處理 Cookie、繞過基本的反機器人偵測。AI agent 透過它「看」網頁、填表單、點按鈕,用戶什麼都不用開。 什麼是 skill(技能)?一個預先寫好的操作指令碼,告訴 agent「這個網站的搜尋欄在哪、下單按鈕是什麼 id、API 回傳的 JSON 格式長什麼樣」。比起讓 agent 每次都自己摸索,skill 讓整個流程又快又省 token。 browse.sh 的底層是 Browserbase 自家開源的 Stagehand:Browserbase 自己寫的「讓 AI 操作瀏覽器」的開源工具包,可以把它想成 Playwright 加上 AI 語意理解層。browse.sh 是把 Stagehand 的功能包裝成更好用的命令列工具,並在上面加了 500 多個現成技能。 整個生態的入口有三個: - https://browse.sh/:官方網站與技能目錄瀏覽入口 - https://browse.sh/llms.txt:給 AI agent 讀的精簡技能索引(體積小,適合直接餵給語言模型) - https://browse.sh/llms-full.txt:完整的 SKILL.md 說明,包含每個技能的 DOM 選擇器與使用方式 這個設計本身就很有意思:browse.sh 知道它的用戶不是人,而是 AI,所以索引格式從一開始就是為語言模型設計的。 安裝只需一行: $ npm install -g browse 裝好之後,基礎操作指令涵蓋了一個瀏覽器 session 的完整生命週期: $ browse click "input#search" $ browse type "Apartments in SF" $ browse press "Enter" $ browse screenshot $ browse network --tail $ browse console --tail 這裡的 DOM 選擇器(DOM selector)是什麼?DOM 是網頁的結構樹,每個按鈕、輸入框、連結都是樹上的一個節點。DOM 選擇器就是告訴瀏覽器「要操作哪個節點」的精確地址,例如 input#search 意思是「id 叫 search 的輸入框」,button.submit-btn 意思是「class 叫 submit-btn 的按鈕」。 browse screenshot 讓 agent 在操作過程中隨時截圖確認畫面狀態;browse network --tail 則會即時列印出瀏覽器發出的所有 HTTP 請求:這對除錯非常有用,也讓開發者能直接看到網站呼叫的後端 API 端點,方便之後寫成 api 型別的 skill。 安裝技能只需要一行,之後 agent 就能直接用該網站的預寫好操作邏輯: $ browse skills add airbnb.com 官方給的完整場景範例示範了這個工具的能力上限,讓 Claude 規劃一趟猶他州公路旅行,包含充電站、露營地,最後還自動到 Ramp 申請報帳: $ browse skills add alltrails.com $ browse skills add recreation.gov $ browse skills add weather.gov $ browse skills add plugshare.com $ browse skills add ramp.com $ claude "Plan a road trip to Utah with EV charging stops and campsites for each night. Book and reimburse on Ramp." 本地模式 vs 雲端模式是一個很實用的設計:預設情況下 browse 跑的是電腦上的本地 Chromium,適合開發和測試。當要上正式環境,只要在指令前加 cloud 就能切到 Browserbase 的雲端瀏覽器基礎設施:自動幫你處理 CAPTCHA(圖形驗證碼)、身份驗證、IP 輪換: $ browse cloud sessions create $ browse cloud fetch "https://www.nytimes.com/section/us" $ browse cloud search "Latest White House press release" 這個「本地開發、雲端生產」的分離設計讓開發者在本機測試不用付費,只有真正大量執行時才產生費用,對獨立開發者相當友善。 超過 500 個技能全部開源在 GitHub 的 browserbase/skills 倉庫,任何人可以用 Pull Request 貢獻新技能。主要分類如下: 技能分三種型別,差異在「agent 用什麼方法取得資料」: - browser 型別:agent 用 headless Chromium 直接操作網頁畫面,適合沒有公開 API 的網站 - api 型別:agent 直接打網站的後端 API 端點,繞過瀏覽器渲染,速度更快、更穩定 - hybrid 型別:混合使用,例如登入用瀏覽器,抓資料用 API token 成本邏輯是這個分類設計最重要的理由。以往 agent 操作一個電商網頁,要把完整 HTML 塞給語言模型分析,一個亞馬遜商品頁可能有 3 萬個字元,換算成 token 大約是 7,000 至 10,000 個。如果 agent 每步都要讀一次頁面,一個 10 步的操作就要消耗 10 萬個 token,費用很快就失控。 browse.sh 的 skill 預先標好了「搜尋欄在哪、結果清單的 DOM 是什麼、API 回傳的關鍵欄位是哪幾個」,agent 收到的是精簡指令而非整頁 HTML。 Browserbase 官方宣稱這能把 token 成本降低 50 倍,雖然實際數字因使用場景而異,但這個方向是正確的,這也是讓「會上網的 agent」從燒錢的噱頭變成可商業化產品的關鍵一步。 browse.sh 本身是免費開源工具,但其底層的雲端執行環境 Browserbase 是付費服務。定價架構如下: 幾個值得注意的細節: - Free 方案不需信用卡,每月 1 小時內含量適合快速驗證想法 - Developer 以上含 Stealth 模式(讓瀏覽器看起來更像真人在操作,降低被封鎖的機率)與自動 CAPTCHA 破解 - 計費是 usage-based(按實際用量計費,透過 Stripe 結算),不是固定席位費 - 住宅代理(residential proxy):用真實住宅 IP 位址發出請求,避免被網站識別為機房 IP 而封鎖。Developer 方案含 1 GB、Startup 含 5 GB browse.sh 與市面上主要競品的差異比較: browse.sh 的主要優勢在於:技能目錄的規模(500 個 skill 遠超競品)、與 Claude Code 的深度整合(可從對話直接呼叫)、以及開發體驗的友善度(本地免費開發、一個 cloud 字首切換生產環境)。 Browserbase 成立於 2024 年,核心產品是「雲端 headless Chromium 瀏覽器即服務(BaaS)」——簡單說,就是把高度擬人化的瀏覽器環境包裝成 API,讓開發者不用自己維護瀏覽器叢集。 融資歷程: - 種子輪(Seed):$6.5M - A 輪(2024 Q3):$21M,CRV 與 Kleiner Perkins 共同領投 - B 輪(2025 Q2):$40M,Notable Capital 領投、CRV 與 Kleiner Perkins 跟投,估值約 $3 億美元 - 累計募資:$67.5M 兩輪合計吸引到 Kleiner Perkins(早期投過 Google、Amazon)這個等級的 VC 持續加碼,顯示這個賽道的吸引力不是短期熱潮。 Browserbase 的技術差異化在基礎設施層: - Identity(身份系統):幫 agent 管理登入狀態與 Cookie,讓每個 session 都像真實用戶 - Verified browsers(已驗證瀏覽器):透過主要網站的機器人偵測篩查 - 自動 CAPTCHA 破解:無需人工幹預,agent 可以無縫透過圖形驗證 - 住宅 IP 代理:用真實家用網路 IP 出口,避免機房 IP 被封鎖 合作夥伴名單本身就是一張背書清單:Anthropic(Claude 的母公司)、Perplexity(AI 搜尋引擎)、LangChain(最廣泛使用的 AI agent 框架)、Vercel(前端部署平台)都是客戶或整合夥伴。 從生態系時間軸來看,browse.sh 的推出不是孤立事件:2026 年 1 月 Vercel 推出 skills.sh(agent skill 公開目錄),2026 年 5 月 Anthropic 擴大 Claude Skills 生態(推出金融分析 41 個 skill、Claude Design 等),同月 Browserbase 推出 browse.sh 並深度整合 Claude Code。 這些動作共同描繪了一個趨勢:從「會聊天的語言模型」走向「會做事的 agent」,而 skill = 動作模組,是讓 agent 真正落地的關鍵零件。 browse.sh 目前仍有幾個值得注意的限制: - 讀多於寫:目前 500 個 skill 中,查詢、搜尋、抓資料類的技能佔多數;涉及「下單付款」「提交表單」這類有真實副作用的操作較少,風險控管邏輯尚未標準化 - 網站更新維護成本:網站改版後,DOM 選擇器就可能失效。500 個 skill 需要社群持續維護,這是開放生態的共有難題 - 登入態管理複雜度:需要 OAuth、雙因素驗證(2FA)的網站,agent 的登入流程仍然較複雜,目前主要靠 Browserbase 的 Identity 系統輔助 - 法規灰色地帶:自動化操作某些網站可能觸及服務條款,各地法律明確性不一 即便如此,browse.sh 的推出時機點抓得很精準:Claude Code 已有大量開發者在用,skills 生態正在快速擴張,agent 基礎設施的標準化正在凝聚。Browserbase 在賣的不只是雲端瀏覽器服務,而是讓 agent「真的會做事」的能力層,這和只會回答問題的聊天機器人是本質上不同的產品形態。 從 token 成本降 50 倍、到深度整合 Claude Code、到 500 個現成技能,browse.sh 試圖讓「會上網的 agent」從技術論文裡走到任何開發者的終端機。對加密產業而言,這既是效率工具,也是需要提前思考防禦的新變數。
資料狀態✓ 已擷取全文閱讀原文(動區 BlockTempo)
🔍歷史類似事件· 關鍵字 + 標的比對0 則
找不到相似事件(需要更多資料樣本或 embedding 搜尋,目前為 MVP 關鍵字比對)
原始資訊
ID:a710da4229
來源:動區 BlockTempo
發佈:2026-05-20 07:46:17
分類:zh_news · 導出分類 zh
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言