Browserbase 团队开源的 Stagehand 框架,把浏览器自动化从“写 200 行 Selenium 脚本”简化成“说一句人话+一行代码”,同时支持预览、缓存和调用 OpenAI/Anthropic 最新“Computer Use”模型,已在 GitHub 突破 2k⭐。

1. 痛点直击:为什么又造一个自动化轮子?
- Selenium/Playwright:稳,但门槛高
写 10 行代码才能点一个按钮,维护成本随着页面改版指数级上升。 - 传统 AI Agent:爽,但不可控
完全交给大模型操作浏览器,生产环境随时“抽风”点错按钮,运维半夜被叫醒。
Stagehand 给出的解法:“可插拔的 AI + 代码”混合模式,让开发者自己决定什么时候用自然语言、什么时候用精准代码。
2. 三大杀器:代码、AI、缓存一次到位
|
功能 |
一句话描述 |
对比优势 |
|
act() |
自然语言单步操作 |
Selenium 要写 5 行定位 + 1 行 click,Stagehand 只需 await page.act(“点登录按钮”) |
|
agent() |
一键接入 OpenAI/Anthropic 的 Computer Use 模型 |
官方示例:一行代码 provider: “openai” 即可调用 computer-use-preview |
|
extract() |
结构化抽取页面数据 |
内置 zod 校验,直接返回 JSON,告别正则地狱 |
|
预览 & 缓存 |
AI 动作先预览再执行,重复步骤自动缓存 |
节省 Token 和调试时间,官方称 2048 小游戏脚本重复运行成本降低 80% |
3. 上手实测:5 分钟跑通 GitHub 自动化
官方仓库提供了“零配置”体验:
git clone https://github.com/browserbase/stagehand.git
cd stagehand
pnpm install && pnpm playwright install
cp .env.example .env
# 把 OPENAI_API_KEY 和 BROWSERBASE_API_KEY 写进 .env
pnpm run example 2048 # 直接看 AI 玩 2048
核心脚本仅 20 行,已覆盖:
- 打开 GitHub
- 点击指定仓库
- 提取最新 PR 的作者和标题
- 全程 AI 决策 + Playwright 兜底
4. 谁在背后?Browserbase 与全明星团队
- Browserbase:专注“云端无头浏览器”服务,已获 A16z 等顶级机构投资。
- 核心贡献者:
Paul Klein(前 Coinbase)、Miguel Gonzalez(前 Vercel)、Anirudh Kamath(前 Stripe)等 8 位硅谷老兵。 - 技术底座:重度魔改 Playwright + 社区开源库 tarsier/gemini-zod。
5. 路线图:可靠性 > 速度 > 成本
官方 Issues 已列出下一步重点:
- 支持多模态截图输入,提升复杂页面识别率
- 本地缓存 AI 决策,100% 离线回放
- 企业级审计日志,满足金融、医疗合规场景
6. 立即体验
- GitHub 仓库:https://github.com/browserbase/stagehand
- 在线文档:https://docs.stagehand.dev
【结语】
从 RPA 到 AI Agent,浏览器自动化终于迎来“说人话”的时代。Stagehand 把选择权还给开发者:要稳就写代码,要快就上 AI。首批内测用户反馈“脚本行数平均减少 70%”,你的下一套自动化方案,还打算手写 Selenium 吗?
© 版权声明
文章版权归作者所有,未经允许请勿转载。如内容涉嫌侵权,请在本页底部进入<联系我们>进行举报投诉!
THE END















- 最新
- 最热
只看作者