Daftar beritaBrowse.sh, alat web scraping canggih: menyediakan paket skill lengkap untuk AI agent mengoperasikan 500+ website populer
動區 BlockTempo2026-05-20 07:46:17

Browse.sh, alat web scraping canggih: menyediakan paket skill lengkap untuk AI agent mengoperasikan 500+ website populer

ORIGINAL爬蟲神器 browse.sh:提供 AI 代理超 500+ 常用網站完整操作技能包 Skill
Analisis Dampak AIGrok sedang menganalisis...
📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯5318 kata
Perusahaan infrastruktur browser AI, Browserbase, secara resmi meluncurkan browse.sh, sebuah alat command line (CLI) browser khusus untuk agent AI, dilengkapi dengan lebih dari 500 "skill operasi web" yang telah ditulis sebelumnya. (Konteks sebelumnya: Cheat Sheet Ultimate Claude Code: Shortcut, Slash Command, Skill, Agent, MCP — Panduan Operasi Lengkap) (Latar belakang tambahan: Interpretasi Panduan Startup Y Combinator: Apa Tren Perkembangan AI Agent di Masa Depan?) Bulan ini, sebuah alat bernama browse.sh resmi diluncurkan, yang berusaha menjawab pertanyaan: bagaimana membuat agent AI "melakukan sesuatu di internet" dengan lebih cepat dan akurat? Jawaban di masa lalu adalah: menyerahkan seluruh kode sumber HTML halaman web kepada language model untuk menentukan tempat yang harus diklik dan kolom yang harus diisi. Cara ini tidak hanya lambat, tetapi juga sangat boros: satu halaman e-commerce yang sedikit kompleks saja, HTML-nya bisa mencapai puluhan ribu karakter, dan jika semuanya disuapkan ke language model, biaya token-nya tidak sedikit. Jawaban Browserbase adalah: menulis logika operasi setiap situs web sebelumnya menjadi sebuah "skill package", agent cukup memanggil skill tersebut tanpa harus membaca seluruh halaman HTML setiap kali. browse.sh adalah pintu masuk command line untuk ide ini, sekaligus sebuah open web skill catalog. Definisi resmi browse.sh adalah "Browser CLI and open web skill catalog for agents", diterjemahkan secara sederhana: sebuah alat command line browser untuk agent AI, ditambah toko skill operasi web yang terbuka. Ada dua konsep inti yang harus dipisahkan dan dijelaskan terlebih dahulu di sini: Apa itu CLI (Command Line Interface)? Itu adalah alat yang Anda jalankan dengan mengetik di jendela terminal. npm, git, python semuanya adalah alat CLI. browse juga, setelah diinstal Anda dapat mengetik di terminal browse click "input#search" untuk membuat browser mengklik elemen tertentu. Apa itu headless browser? Sebuah program browser yang tidak benar-benar membuka jendela di layar, tetapi perilakunya persis sama dengan Chrome asli: dapat menjalankan JavaScript, menangani Cookie, melewati deteksi anti-bot dasar. AI agent menggunakannya untuk "melihat" halaman web, mengisi formulir, mengklik tombol, tanpa pengguna perlu membuka apa pun. Apa itu skill? Sebuah skrip instruksi operasi yang ditulis sebelumnya, yang memberi tahu agent "di mana kolom pencarian situs web ini, apa id tombol pemesanan, seperti apa format JSON yang dikembalikan API". Dibandingkan dengan membiarkan agent meraba-raba sendiri setiap kali, skill membuat seluruh proses lebih cepat dan hemat token. Lapisan dasar browse.sh adalah Stagehand, open source milik Browserbase sendiri: toolkit open source buatan Browserbase untuk "membuat AI mengoperasikan browser", dapat dianggap sebagai Playwright ditambah lapisan pemahaman semantik AI. browse.sh mengemas fungsi Stagehand menjadi alat command line yang lebih mudah digunakan, dan menambahkan lebih dari 500 skill siap pakai di atasnya. Ada tiga pintu masuk ke seluruh ekosistem: - https://browse.sh/: situs web resmi dan pintu masuk penelusuran katalog skill - https://browse.sh/llms.txt: indeks skill yang ringkas untuk dibaca AI agent (berukuran kecil, cocok untuk langsung disuapkan ke language model) - https://browse.sh/llms-full.txt: penjelasan SKILL.md lengkap, berisi DOM selector dan cara penggunaan setiap skill Desain ini sendiri sangat menarik: browse.sh tahu bahwa penggunanya bukan manusia, melainkan AI, sehingga format indeksnya sejak awal dirancang untuk language model. Instalasi hanya butuh satu baris: $ npm install -g browse Setelah terinstal, instruksi operasi dasar mencakup siklus hidup lengkap dari sebuah session browser: $ browse click "input#search" $ browse type "Apartments in SF" $ browse press "Enter" $ browse screenshot $ browse network --tail $ browse console --tail Apa itu DOM selector di sini? DOM adalah pohon struktur halaman web, setiap tombol, kolom input, dan tautan adalah satu node di pohon tersebut. DOM selector adalah alamat tepat yang memberi tahu browser "node mana yang harus dioperasikan", misalnya input#search berarti "kolom input dengan id bernama search", button.submit-btn berarti "tombol dengan class bernama submit-btn". browse screenshot memungkinkan agent untuk mengambil screenshot kapan saja selama proses operasi untuk mengonfirmasi status layar; browse network --tail akan secara real-time mencetak semua permintaan HTTP yang dikirim oleh browser: ini sangat berguna untuk debugging, dan juga memungkinkan developer untuk langsung melihat endpoint API backend yang dipanggil situs web, memudahkan penulisan skill bertipe api di kemudian hari. Menginstal skill hanya butuh satu baris, setelah itu agent dapat langsung menggunakan logika operasi yang telah ditulis sebelumnya untuk situs web tersebut: $ browse skills add airbnb.com Contoh skenario lengkap yang diberikan secara resmi mendemonstrasikan batas atas kemampuan alat ini, membiarkan Claude merencanakan perjalanan road trip ke Utah, termasuk stasiun pengisian daya, tempat berkemah, dan terakhir secara otomatis mengajukan reimbursement di Ramp: $ browse skills add alltrails.com $ browse skills add recreation.gov $ browse skills add weather.gov $ browse skills add plugshare.com $ browse skills add ramp.com $ claude "Plan a road trip to Utah with EV charging stops and campsites for each night. Book and reimburse on Ramp." Mode lokal vs mode cloud adalah desain yang sangat praktis: secara default browse menjalankan Chromium lokal di komputer, cocok untuk pengembangan dan pengujian. Ketika ingin masuk ke lingkungan produksi, cukup tambahkan cloud sebelum instruksi untuk beralih ke infrastruktur browser cloud Browserbase: secara otomatis menangani CAPTCHA, verifikasi identitas, rotasi IP: $ browse cloud sessions create $ browse cloud fetch "https://www.nytimes.com/section/us" $ browse cloud search "Latest White House press release" Desain pemisahan "pengembangan lokal, produksi cloud" ini memungkinkan developer untuk menguji di mesin lokal tanpa biaya, dan biaya hanya muncul saat benar-benar dijalankan dalam jumlah besar, sangat ramah untuk developer independen. Lebih dari 500 skill semuanya open source di repositori browserbase/skills di GitHub, siapa pun dapat berkontribusi skill baru melalui Pull Request. Kategori utama adalah sebagai berikut: Skill dibagi menjadi tiga tipe, perbedaannya terletak pada "metode apa yang digunakan agent untuk mendapatkan data": - tipe browser: agent menggunakan headless Chromium untuk langsung mengoperasikan tampilan halaman web, cocok untuk situs web tanpa API publik - tipe api: agent langsung memanggil endpoint API backend situs web, melewati rendering browser, lebih cepat dan lebih stabil - tipe hybrid: penggunaan campuran, misalnya login menggunakan browser, mengambil data menggunakan API Logika biaya token adalah alasan paling penting di balik desain klasifikasi ini. Di masa lalu, agent mengoperasikan halaman e-commerce harus menyerahkan HTML lengkap ke language model untuk dianalisis, satu halaman produk Amazon mungkin memiliki 30.000 karakter, dikonversi menjadi sekitar 7.000 hingga 10.000 token. Jika agent harus membaca halaman sekali setiap langkah, satu operasi 10 langkah akan menghabiskan 100.000 token, dan biayanya cepat lepas kendali. Skill di browse.sh telah menandai sebelumnya "di mana kolom pencarian, apa DOM dari daftar hasil, kolom kunci apa yang dikembalikan API", agent menerima instruksi yang ringkas, bukan HTML halaman penuh. Browserbase secara resmi mengklaim ini dapat mengurangi biaya token hingga 50 kali lipat, meskipun angka aktual bervariasi tergantung skenario penggunaan, tetapi arahnya benar, dan ini juga merupakan langkah kunci yang membuat "agent yang bisa berselancar di internet" berubah dari gimmick yang membakar uang menjadi produk yang dapat dikomersialkan. browse.sh sendiri adalah alat open source gratis, tetapi lingkungan eksekusi cloud yang mendasarinya, Browserbase, adalah layanan berbayar. Struktur harga adalah sebagai berikut: Beberapa detail yang patut diperhatikan: - Paket Free tidak memerlukan kartu kredit, kuota 1 jam per bulan cocok untuk validasi ide dengan cepat - Paket Developer ke atas termasuk mode Stealth (membuat browser terlihat lebih seperti manusia asli yang mengoperasikan, mengurangi kemungkinan diblokir) dan pemecahan CAPTCHA otomatis - Penagihan bersifat usage-based (ditagih berdasarkan penggunaan aktual, diselesaikan melalui Stripe), bukan biaya seat tetap - Residential proxy: menggunakan alamat IP residensial asli untuk mengirim permintaan, menghindari diidentifikasi oleh situs web sebagai IP datacenter dan diblokir. Paket Developer termasuk 1 GB, Startup termasuk 5 GB Perbandingan perbedaan antara browse.sh dengan kompetitor utama di pasaran: Keunggulan utama browse.sh terletak pada: skala katalog skill (500 skill jauh melampaui kompetitor), integrasi mendalam dengan Claude Code (dapat dipanggil langsung dari percakapan), serta keramahan pengalaman pengembangan (pengembangan lokal gratis, satu awalan cloud untuk beralih ke lingkungan produksi). Browserbase didirikan pada tahun 2024, produk intinya adalah "cloud headless Chromium browser as a service (BaaS)" — secara sederhana, mengemas lingkungan browser yang sangat menyerupai manusia menjadi API, sehingga developer tidak perlu memelihara cluster browser sendiri. Riwayat pendanaan: - Seed Round: $6.5M - Series A (2024 Q3): $21M, dipimpin bersama oleh CRV dan Kleiner Perkins - Series B (2025 Q2): $40M, dipimpin oleh Notable Capital, CRV dan Kleiner Perkins ikut serta, valuasi sekitar $300 juta USD - Pendanaan kumulatif: $67.5M Dua putaran gabungan berhasil menarik VC kelas Kleiner Perkins (yang berinvestasi awal di Google, Amazon) untuk terus menambah investasi, menunjukkan bahwa daya tarik dari bidang ini bukanlah tren jangka pendek. Diferensiasi teknis Browserbase berada di lapisan infrastruktur: - Identity: membantu agent mengelola status login dan Cookie, membuat setiap session terasa seperti pengguna asli - Verified browsers: lulus penyaringan deteksi bot dari situs web utama - Pemecahan CAPTCHA otomatis: tanpa intervensi manusia, agent dapat dengan mulus melewati verifikasi grafis - Residential IP proxy: keluar menggunakan IP jaringan rumah asli, menghindari IP datacenter yang diblokir Daftar mitra itu sendiri adalah daftar dukungan: Anthropic (perusahaan induk Claude), Perplexity (mesin pencari AI), LangChain (framework AI agent yang paling banyak digunakan), Vercel (platform deployment frontend) semuanya adalah pelanggan atau mitra integrasi. Dari sudut pandang garis waktu ekosistem, peluncuran browse.sh bukanlah peristiwa yang berdiri sendiri: pada Januari 2026 Vercel meluncurkan skills.sh (katalog publik agent skill), pada Mei 2026 Anthropic memperluas ekosistem Claude Skills (meluncurkan 41 skill analisis keuangan, Claude Design, dll.), di bulan yang sama Browserbase meluncurkan browse.sh dan mengintegrasikan secara mendalam dengan Claude Code. Tindakan-tindakan ini secara kolektif menggambarkan sebuah tren: dari "language model yang bisa mengobrol" menuju "agent yang bisa melakukan sesuatu", dan skill = modul tindakan, adalah komponen kunci yang membuat agent benar-benar dapat diterapkan. browse.sh saat ini masih memiliki beberapa keterbatasan yang patut diperhatikan: - Lebih banyak membaca daripada menulis: di antara 500 skill saat ini, skill jenis kueri, pencarian, pengambilan data mendominasi; operasi yang melibatkan "pemesanan pembayaran", "pengiriman formulir" dan operasi lain dengan efek samping nyata lebih sedikit, logika kontrol risiko belum distandarisasi - Biaya pemeliharaan pembaruan situs web: setelah situs web diperbarui, DOM selector mungkin gagal. 500 skill membutuhkan pemeliharaan berkelanjutan dari komunitas, ini adalah masalah umum ekosistem terbuka - Kompleksitas pengelolaan status login: situs web yang memerlukan OAuth, autentikasi dua faktor (2FA), proses login agent masih relatif kompleks, saat ini terutama dibantu oleh sistem Identity Browserbase - Area abu-abu regulasi: operasi otomatis pada situs web tertentu mungkin menyentuh ketentuan layanan, kejelasan hukum di berbagai daerah bervariasi Meskipun demikian, waktu peluncuran browse.sh sangat tepat: Claude Code telah memiliki banyak developer yang menggunakannya, ekosistem skills sedang berkembang pesat, dan standardisasi infrastruktur agent sedang terbentuk. Yang dijual Browserbase bukan hanya layanan browser cloud, melainkan lapisan kemampuan yang membuat agent "benar-benar bisa melakukan sesuatu", dan ini secara fundamental berbeda dari bot chat yang hanya bisa menjawab pertanyaan dalam bentuk produknya. Dari pengurangan biaya token 50 kali lipat, hingga integrasi mendalam dengan Claude Code, hingga 500 skill siap pakai, browse.sh berusaha membuat "agent yang bisa berselancar di internet" keluar dari makalah teknis dan masuk ke terminal setiap developer. Bagi industri kripto, ini adalah alat efisiensi sekaligus variabel baru yang perlu dipikirkan pertahanannya lebih awal.
Status data✓ Teks lengkap telah diambilBaca artikel asli (動區 BlockTempo)
🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset0 berita
Tidak ada peristiwa serupa yang ditemukan (memerlukan lebih banyak sampel data atau pencarian embedding, saat ini menggunakan pencocokan kata kunci MVP)
Informasi mentah
ID:a710da4229
Sumber:動區 BlockTempo
Diterbitkan:2026-05-20 07:46:17
Kategori:zh_news · Kategori ekspor zh
Aset:Tidak ditentukan
Voting komunitas:+0 /0 · ⭐ 0 Penting · 💬 0 Komentar