什么是Browser-Use

Browser-Use是一个开源的网页自动化库，它通过提供一个简单的接口，让LLM能够与网站进行互动。这个库支持多标签管理、 XPath 提取和视觉模型处理，使得自动化网页操作变得更加简单和高效。

通用LLM支持：Browser-Use可以与任何语言模型配合使用，本地模型，MaaS均可支持。交互元素检测：自动检测网页上的交互元素，无需手动检查。

开源地址在
https://github.com/browser-use/browser-use

DeepSeek 结合 Browser-use实战

以下是基于 DeepSeek 结合 Browser-use 实现浏览器自动化的实战操作指南，综合多个相关文档整理而成：

一、环境准备与安装

安装 Python 环境
确保系统已安装 Python 3.11 或更高版本。
推荐使用虚拟环境（如 venv 或 conda）管理依赖。
安装 Browser-use 及依赖
bash
# 安装 Browser-use 核心库 pip install browser-use # 安装 Playwright 浏览器驱动 playwright install
若需使用 WebUI 界面，可额外克隆仓库并安装依赖：
bash
git clone https://github.com/browser-use/web-ui.git cd web-ui pip install -r requirements.txt “`[3,8](@ref)
配置 API 密钥
在项目根目录创建 .env 文件，添加 DeepSeek 的 API 密钥：DEEPSEEK_API_KEY=your_api_key_here “`[1,4](@ref)

二、编写自动化脚本

基础示例：获取网页信息

python

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio

# 初始化 DeepSeek 模型
llm = ChatOpenAI(
    base_url='https://api.deepseek.com/v1',
    model='deepseek-chat',  # 可选模型：deepseek-reasoner/deepseek-chat
    api_key="your_api_key"
)

async def main():
    # 定义任务（自然语言描述）
    agent = Agent(
        task="打开新浪新闻官网 https://news.sina.com.cn，获取前10条热点新闻标题",
        llm=llm,
        use_vision=False  # 关闭视觉模式（仅文本分析）
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

关键参数说明：

task：自然语言描述任务目标，支持多步骤指令（如登录、导航、数据提取）
use_vision：设为 True 可启用图像识别（适合复杂网页元素操作）

进阶示例：自动化渗透测试（SQL 注入）

python

async def run_sql_injection_test():
    agent = Agent(
        task=(
            "1. 访问 http://192.168.3.93/dvwa/index.php
"
            "2. 使用默认账号密码登录 DVWA 靶机
"
            "3. 进入 SQL Injection 页面，构造注入语句并验证漏洞"
        ),
        llm=llm,
        use_vision=False
    )
    await agent.run()

该脚本可自动完成靶场登录、页面导航、漏洞测试全流程。