Danh sách tinCông cụ crawler thần kỳ browse.sh: Cung cấp cho AI agent bộ kỹ năng thao tác hoàn chỉnh trên hơn 500+ website thông dụng Skill
動區 BlockTempo2026-05-20 07:46:17

Công cụ crawler thần kỳ browse.sh: Cung cấp cho AI agent bộ kỹ năng thao tác hoàn chỉnh trên hơn 500+ website thông dụng Skill

ORIGINAL爬蟲神器 browse.sh:提供 AI 代理超 500+ 常用網站完整操作技能包 Skill
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯5318 từ
Công ty cơ sở hạ tầng trình duyệt AI Browserbase đã chính thức ra mắt browse.sh, một công cụ dòng lệnh (CLI) dành riêng cho các AI agent, đi kèm với hơn 500 "kỹ năng thao tác web" được viết sẵn. (Thông tin trước: Bảng tra cứu nhanh tối thượng về Claude Code: Phím tắt, lệnh Slash, kỹ năng, Agents, bí kíp vận hành MCP đầy đủ) (Thông tin nền: Giải mã hướng dẫn khởi nghiệp của Y Combinator: Các xu hướng phát triển của AI Agent trong tương lai?) Tháng này, một công cụ mang tên browse.sh đã chính thức lên sóng, giải quyết vấn đề: Làm thế nào để các AI agent có thể "lên mạng làm việc" một cách nhanh chóng và chính xác hơn? Câu trả lời trước đây là: Tự mình đưa toàn bộ mã nguồn HTML của trang web cho mô hình ngôn ngữ để nó phán đoán nên nhấp vào đâu, điền vào trường nào. Cách này không chỉ chậm mà còn rất tốn kém: một trang thương mại điện tử hơi phức tạp có thể có hàng chục nghìn ký tự chỉ riêng phần HTML, việc nạp tất cả vào mô hình ngôn ngữ sẽ tiêu tốn chi phí token không hề nhỏ. Câu trả lời của Browserbase là: Viết trước logic thao tác của mỗi trang web thành một "gói kỹ năng (skill)", agent chỉ cần gọi kỹ năng đó mà không cần đọc toàn bộ HTML mỗi lần. browse.sh chính là cổng vào dòng lệnh cho ý tưởng này, đồng thời là một danh mục kỹ năng web mở (open web skill catalog). Định nghĩa chính thức của browse.sh là "Browser CLI and open web skill catalog for agents", dịch nôm na là: một công cụ dòng lệnh trình duyệt dành cho AI agent, cộng thêm một cửa hàng kỹ năng thao tác web mở. Có hai khái niệm cốt lõi cần làm rõ ở đây: CLI (Giao diện dòng lệnh) là gì? Đó là công cụ bạn gõ lệnh trong cửa sổ terminal để thực thi. npm, git, python đều là các công cụ CLI. browse cũng vậy, sau khi cài đặt, bạn có thể gõ trong terminal: browse click "input#search" để trình duyệt nhấp vào một phần tử cụ thể. Headless browser (trình duyệt không giao diện) là gì? Một chương trình trình duyệt không thực sự mở cửa sổ trên màn hình, nhưng hành vi hoàn toàn giống với Chrome thật: có thể thực thi JavaScript, xử lý Cookie, vượt qua các cơ chế phát hiện bot cơ bản. AI agent thông qua nó để "nhìn" trang web, điền biểu mẫu, nhấp nút, người dùng không cần mở bất cứ thứ gì. Skill (kỹ năng) là gì? Một tập lệnh thao tác được viết sẵn, cho agent biết "thanh tìm kiếm của trang web này nằm ở đâu, id của nút đặt hàng là gì, định dạng JSON mà API trả về trông như thế nào". So với việc để agent tự mày mò mỗi lần, skill giúp toàn bộ quy trình nhanh hơn và tiết kiệm token hơn. Nền tảng của browse.sh là Stagehand mã nguồn mở của chính Browserbase: bộ công cụ mã nguồn mở do Browserbase tự viết để "cho phép AI điều khiển trình duyệt", có thể coi nó là Playwright cộng với lớp hiểu ngữ nghĩa AI. browse.sh đóng gói các chức năng của Stagehand thành một công cụ dòng lệnh dễ sử dụng hơn và bổ sung hơn 500 kỹ năng có sẵn. Hệ sinh thái này có ba cổng vào: - https://browse.sh/: Trang web chính thức và cổng duyệt danh mục kỹ năng - https://browse.sh/llms.txt: Chỉ mục kỹ năng tinh gọn dành cho AI agent đọc (dung lượng nhỏ, phù hợp để nạp trực tiếp cho mô hình ngôn ngữ) - https://browse.sh/llms-full.txt: Hướng dẫn SKILL.md đầy đủ, bao gồm bộ chọn DOM và cách sử dụng của từng kỹ năng Bản thân thiết kế này rất thú vị: browse.sh biết người dùng của nó không phải là con người mà là AI, vì vậy định dạng chỉ mục ngay từ đầu đã được thiết kế cho mô hình ngôn ngữ. Việc cài đặt chỉ cần một dòng: $ npm install -g browse Sau khi cài đặt, các lệnh thao tác cơ bản bao gồm toàn bộ vòng đời của một phiên trình duyệt: $ browse click "input#search" $ browse type "Apartments in SF" $ browse press "Enter" $ browse screenshot $ browse network --tail $ browse console --tail DOM selector (bộ chọn DOM) ở đây là gì? DOM là cây cấu trúc của trang web, mỗi nút, ô
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (動區 BlockTempo)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản0 tin
Không tìm thấy sự kiện tương tự (cần thêm mẫu dữ liệu hoặc tìm kiếm embedding, hiện tại là đối chiếu từ khóa MVP)
Thông tin gốc
ID:a710da4229
Nguồn:動區 BlockTempo
Đăng:2026-05-20 07:46:17
Danh mục:zh_news · Danh mục xuất zh
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận