一行代码让 AI 接管浏览器!Stagehand 框架发布,告别 Selenium

Browserbase 团队开源的 Stagehand 框架,把浏览器自动化从“写 200 行 Selenium 脚本”简化成“说一句人话+一行代码”,同时支持预览、缓存和调用 OpenAI/Anthropic 最新“Computer Use”模型,已在 GitHub 突破 2k⭐。

一行代码让 AI 接管浏览器!Stagehand 框架发布,告别 Selenium

1. 痛点直击:为什么又造一个自动化轮子?

  • Selenium/Playwright:稳,但门槛高
    写 10 行代码才能点一个按钮,维护成本随着页面改版指数级上升。
  • 传统 AI Agent:爽,但不可控
    完全交给大模型操作浏览器,生产环境随时“抽风”点错按钮,运维半夜被叫醒。

Stagehand 给出的解法:“可插拔的 AI + 代码”混合模式,让开发者自己决定什么时候用自然语言、什么时候用精准代码。


2. 三大杀器:代码、AI、缓存一次到位

功能

一句话描述

对比优势

act()

自然语言单步操作

Selenium 要写 5 行定位 + 1 行 click,Stagehand 只需 await page.act(“点登录按钮”)

agent()

一键接入 OpenAI/Anthropic 的 Computer Use 模型

官方示例:一行代码 provider: “openai” 即可调用 computer-use-preview

extract()

结构化抽取页面数据

内置 zod 校验,直接返回 JSON,告别正则地狱

预览 & 缓存

AI 动作先预览再执行,重复步骤自动缓存

节省 Token 和调试时间,官方称 2048 小游戏脚本重复运行成本降低 80%


3. 上手实测:5 分钟跑通 GitHub 自动化

官方仓库提供了“零配置”体验:

git clone https://github.com/browserbase/stagehand.git
cd stagehand
pnpm install && pnpm playwright install
cp .env.example .env
# 把 OPENAI_API_KEY 和 BROWSERBASE_API_KEY 写进 .env
pnpm run example 2048   # 直接看 AI 玩 2048

核心脚本仅 20 行,已覆盖:

  • 打开 GitHub
  • 点击指定仓库
  • 提取最新 PR 的作者和标题
  • 全程 AI 决策 + Playwright 兜底

4. 谁在背后?Browserbase 与全明星团队

  • Browserbase:专注“云端无头浏览器”服务,已获 A16z 等顶级机构投资。
  • 核心贡献者
    Paul Klein(前 Coinbase)、Miguel Gonzalez(前 Vercel)、Anirudh Kamath(前 Stripe)等 8 位硅谷老兵。
  • 技术底座:重度魔改 Playwright + 社区开源库 tarsier/gemini-zod。

5. 路线图:可靠性 > 速度 > 成本

官方 Issues 已列出下一步重点:

  1. 支持多模态截图输入,提升复杂页面识别率
  2. 本地缓存 AI 决策,100% 离线回放
  3. 企业级审计日志,满足金融、医疗合规场景

6. 立即体验

  • GitHub 仓库:https://github.com/browserbase/stagehand
  • 在线文档:https://docs.stagehand.dev

【结语】
从 RPA 到 AI Agent,浏览器自动化终于迎来“说人话”的时代。Stagehand 把选择权还给开发者:要稳就写代码,要快就上 AI。首批内测用户反馈“脚本行数平均减少 70%”,你的下一套自动化方案,还打算手写 Selenium 吗?

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
智行的头像 - 鹿快
评论 共2条

请登录后发表评论