Deepseek+Browser-Use 让大模型能操作浏览器!可以用来抢茅台?

什么是Browser-Use

Browser-Use是一个开源的网页自动化库,它通过提供一个简单的接口,让LLM能够与网站进行互动。 这个库支持多标签管理、 XPath 提取和视觉 模型 处理,使得自动化网页操作变得更加简单和高效。

通用LLM支持:Browser-Use可以与任何语言模型配合使用,本地模型,MaaS均可支持。 交互元素检测:自动检测网页上的交互元素,无需手动检查。

开源地址在
https://github.com/browser-use/browser-use

DeepSeek 结合 Browser-use实战

以下是基于 DeepSeek 结合 Browser-use 实现浏览器自动化的实战操作指南,综合多个相关文档整理而成:


一、环境准备与安装

  1. 安装 Python 环境
  2. 确保系统已安装 Python 3.11 或更高版本。
  3. 推荐使用虚拟环境(如 venv 或 conda)管理依赖。
  4. 安装 Browser-use 及依赖
  5. bash
  6. # 安装 Browser-use 核心库 pip install browser-use # 安装 Playwright 浏览器驱动 playwright install
  7. 若需使用 WebUI 界面,可额外克隆仓库并安装依赖:
  8. bash
  9. git clone https://github.com/browser-use/web-ui.git cd web-ui pip install -r requirements.txt “`[3,8](@ref)
  10. 配置 API 密钥
  11. 在项目根目录创建 .env 文件,添加 DeepSeek 的 API 密钥:DEEPSEEK_API_KEY=your_api_key_here “`[1,4](@ref)

二、编写自动化脚本

基础示例:获取网页信息

python
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio

# 初始化 DeepSeek 模型
llm = ChatOpenAI(
    base_url='https://api.deepseek.com/v1',
    model='deepseek-chat',  # 可选模型:deepseek-reasoner/deepseek-chat
    api_key="your_api_key"
)

async def main():
    # 定义任务(自然语言描述)
    agent = Agent(
        task="打开新浪新闻官网 https://news.sina.com.cn,获取前10条热点新闻标题",
        llm=llm,
        use_vision=False  # 关闭视觉模式(仅文本分析)
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

关键参数说明

  • task:自然语言描述任务目标,支持多步骤指令(如登录、导航、数据提取)
  • use_vision:设为 True 可启用图像识别(适合复杂网页元素操作)

进阶示例:自动化渗透测试(SQL 注入)

python
async def run_sql_injection_test():
    agent = Agent(
        task=(
            "1. 访问 http://192.168.3.93/dvwa/index.php
"
            "2. 使用默认账号密码登录 DVWA 靶机
"
            "3. 进入 SQL Injection 页面,构造注入语句并验证漏洞"
        ),
        llm=llm,
        use_vision=False
    )
    await agent.run()

该脚本可自动完成靶场登录、页面导航、漏洞测试全流程


三、执行与调试

  1. 运行脚本
  2. bash
  3. python your_script.py
  4. 浏览器会自动启动并执行操作,控制台输出结构化结果(如 JSON 格式数据)。
  5. 使用 WebUI(可选)
  6. 启动本地 Web 界面:
  7. bash
  8. python webui.py –ip 127.0.0.1 –port 7788
  9. 通过可视化界面输入任务指令,实时观察浏览器操作过程。

四、实战场景扩展

  1. 电商自动化
  2. 自动比价:输入任务如“在京东和天猫搜索 iPhone 15,对比最低价格”
  3. 自动下单:结合购物车操作和支付流程脚本。
  4. 数据采集
  5. 动态网页抓取:如微博热搜、股票实时数据(支持登录态保持)。
  6. 办公流程优化
  7. 自动填写 CRM 系统(如 Salesforce)、生成 Google Docs 报告等。

五、注意事项

  1. 网络稳定性
  2. 部分操作需科学上网或稳定网络环境(如访问海外靶场)。
  3. 模型选择
  4. 复杂推理任务提议使用 deepseek-reasoner 模型,简单操作可用 deepseek-chat 以降低成本。
  5. 元素识别优化
  6. 若 AI 无法定位网页元素,可在任务描述中补充 CSS 选择器或 XPath。

Deepseek+Browser-Use 让大模型能操作浏览器!可以用来抢茅台?

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 共4条

请登录后发表评论

    暂无评论内容