WebBrain 是一款免费的开源浏览器扩展,为 Chrome 和 Firefox 带来 AI 代理能力。阅读页面、提取数据、自动化网页任务 —— 使用你选择的 LLM。专有浏览器 AI 插件的可自托管替代品。
看看 WebBrain 如何阅读页面、提取数据并自动化浏览器任务。
一个功能齐全的 AI 代理,驻扎在浏览器侧边栏,能理解任何网页。
读懂任何网页 —— 文章、文档、仪表板、表单。对当前页面内容提问并立即获得答案。
代你点击、输入、滚动、导航,并与页面交互。用自然语言指令自动化重复性任务。
从任何页面提取结构化数据 —— 表格、列表、链接、表单。导出产品目录、搜索结果或任何页面内容。
兼容本地 llama.cpp、OpenAI、Claude 和 OpenRouter。使用你偏好的模型 —— 或用本地 AI 完全离线运行。
你的数据依然属于你。配合本地 LLM 零数据泄露。无遥测、无追踪、无需账号。完全开源。
自动上下文管理防止 token 溢出。智能裁剪对话历史并限制工具输出,让会话顺畅不中断。
用一个快速的纯文本模型做规划,再配一个专门的视觉模型读取截图。比用一个庞大的多模态模型做所有事情更便宜也更快。
代理打开的任何标签都加入专用的「WebBrain」组,这样你的研究链条在视觉上保持在一起,而不会散落在窗口中。对 target="_blank" 链接的点击会回折到当前标签,防止标签爆炸。
可选的纯文本自述 —— 姓名、工作邮箱、公司、一个一次性密码 —— 让代理无需每次询问即可轻松完成低风险注册表单。默认关闭,全部在本地存储。
在推理页面之前关闭常见框架的同意横幅(OneTrust、Cookiebot、Didomi、Quantcast)。检测到付费墙会如实告知,而不是编造文章内容或尝试绕过。
插件提供 English、Español、Français、Türkçe 和 中文 五种语言。首次使用时自动检测浏览器语言;随时可通过侧边栏中的地球图标切换。本站也相应本地化。
截图在离开你的机器之前会先按比例缩放并迭代 JPEG 压缩,让图像 token 保持很小。智能上下文裁剪和工具输出上限让云端费用可预测 —— 长会话不会出现意外支出。
连接任何 OpenAI 兼容 API,或运行一个本地模型。随时在扩展设置中切换提供商。
两种模式应对不同需求。默认只读,需要时则具备完整代理能力。
只读。就当前页面提问、提取信息、总结内容。安全且不具侵入性 —— 不会修改任何内容。
完整代理。点击按钮、填写表单、在页面间导航、运行脚本。用一条指令自动化复杂的多步骤浏览器工作流。
支持 Chrome 和 Firefox。免费、开源、无需账号。
Manifest V3 · Chrome 116+ · 同时适用于 Brave、Edge、Opera、Vivaldi 等 Chromium 兼容浏览器。
WebBrain 位于浏览器原生 AI 插件与完整代理框架之间。以下是它的定位。
| 特性 | WebBrain | Chrome 中的 Claude |
|---|---|---|
| 开源 | MIT 许可 | 闭源 |
| 价格 | 永久免费 | 需要 Claude Pro(20 美元/月) |
| 本地 LLM 支持 | llama.cpp、Ollama | 否 —— 仅限 Claude |
| 多提供商 | 4 家提供商(本地 + 云端) | 仅限 Claude |
| Chrome | 是(MV3) | 是 |
| Firefox | 是(MV2) | 否 |
| 侧边栏 UI | 是 | 是 |
| 询问 / 执行 模式 | 是 | 类似 |
| 完全离线 | 是(使用本地 LLM) | 否 —— 需要云端 |
| 页面交互 | Content script | Chrome DevTools Protocol |
| 可自托管 | 是 | 否 |
| 维度 | WebBrain | OpenClaw / Browser-Use / 等 |
|---|---|---|
| 是什么? | 浏览器扩展(面向终端用户的工具) | 代理框架 / SDK(面向开发者的工具) |
| 目标用户 | 任何人 —— 无需编码 | 构建自动化的开发者 |
| 安装 | 一键浏览器安装 | 需要 Python/Docker 环境 |
| 界面 | 内置侧边栏聊天 | 无 UI —— 仅代码或 API |
| 浏览器控制 | Content script(轻量) | CDP / Playwright(完全控制) |
| 多标签工作流 | 按标签独立会话 | 可编程多标签编排 |
| 无头模式 | 否 —— 在你的浏览器中运行 | 是 —— 无头自动化 |
| 可扩展性 | 添加自定义 LLM 提供商 | 完整 Python SDK、自定义工具 |
| 最适合 | 日常浏览的 AI 助手 | 自动化抓取 / 测试流水线 |
WebBrain 是面向终端用户的浏览器扩展,适合希望在浏览时有 AI 助手陪伴的人。像 OpenClaw 这样的代理框架则是开发者用来构建自动化浏览器流水线的工具。不同工具适合不同工作 —— 两者可以并用。
是的。WebBrain 提供类似的 AI 浏览器代理能力 —— 阅读页面、提取数据、点击按钮、填写表单并自动化多步骤工作流。与需要 Claude Pro 订阅且仅支持 Anthropic 模型的专有 Claude 插件不同,WebBrain 完全免费、开源(MIT 许可),并支持多个 LLM 提供商,包括完全在你的机器上运行的本地模型。
它们属于不同类别的工具。WebBrain 是浏览器扩展 —— 你在 Chrome 或 Firefox 中安装它,并在侧边栏中与它对话,无需编码。OpenClaw 和 Browser-Use 等框架是面向开发者的 SDK,用 Python 构建自动化浏览器流水线,通常使用无头浏览器和 CDP。换句话说:WebBrain 用于日常浏览时的 AI 助手;代理框架用于构建抓取机器人和测试自动化。你可以同时使用 —— 二者互补。
可以。WebBrain 的默认提供商是 llama.cpp,它在你的电脑上运行本地 AI 模型。无需 API 密钥,AI 无需互联网,数据不会离开你的机器。下载一个 GGUF 模型,启动 llama-server,你就拥有了一个完全私有的 AI 浏览器代理。你也可以通过 OpenAI 兼容端点使用 Ollama。
WebBrain 支持四类提供商:llama.cpp(任意本地 GGUF 模型)、OpenAI(GPT-4o、GPT-4 等)、Claude(通过原生 API 使用 Claude Opus、Sonnet、Haiku)以及 OpenRouter(访问多家提供商的 100 多种模型)。任何 OpenAI 兼容的 API 端点都能工作,因此你也可以使用 Together AI、Groq、Mistral 等服务,或任何提供 OpenAI 兼容接口的本地服务器。
截至 2026 年 4 月 21 日,最推荐的是 Qwen 3.6 35B。原因:在我们的视觉基准测试中(vision-model-shootout),它在截图理解方面超过了 Gemma 4,同时对本地推理仍然可行。
在消费级 GPU 上,RTX 5090 是理想选择;RTX 4090 通常可借助 Intel/Qwen3.6-35B-A3B-int4-AutoRound 的 INT4 AutoRound 量化运行。
追求最高速度时,推荐使用 vLLM 提供服务。示例命令:
python -u -m vllm.entrypoints.openai.api_server --model Intel/Qwen3.6-35B-A3B-int4-AutoRound --served-model-name qwen3.6-35b --quantization auto --dtype bfloat16 --max-model-len 65536 --max-num-batched-tokens 32768 --max-num-seqs 4 --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.92 --enable-prefix-caching --enable-chunked-prefill --limit-mm-per-prompt '{"image": 4, "video": 1}' --mm-processor-cache-type shm --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --trust-remote-code --allowed-origins '["*"]' --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' --attention-backend flash_attn
DFlash 推测解码是可选项。
如果你的 LLM 服务器在本地网络中的另一台机器上(例如 http://192.168.1.x:8000),除非服务器发送 CORS 头,否则 Chrome 会拦截该请求。解决方案因服务器而异:
vLLM:启动时添加 --allowed-origins '["*"]'(值必须是 JSON 列表)。
Ollama:启动前设置环境变量 OLLAMA_ORIGINS=*。
llama.cpp:默认启用 CORS,无需更改。
如果你的服务器运行在 localhost(与浏览器同一台机器),通常不需要 CORS。该问题仅影响本地网络上跨机器的连接。请确保 WebBrain 设置中的基础 URL 以 /v1 结尾(例如 http://192.168.1.47:8000/v1)。
能。WebBrain 同时提供 Chrome 版(使用 sidePanel API 的 Manifest V3)和 Firefox 版(使用 sidebar_action 的 Manifest V2)。两个版本功能一致。Firefox 版本可以作为临时附加组件用于开发,也可以发布到 addons.mozilla.org 进行永久安装。
WebBrain 有两种模式:询问模式(默认)只读,无法修改页面上的任何内容。执行模式启用完整的浏览器代理能力(点击、输入、导航),但在启用前需要用户显式确认,并会显示明显的警告横幅。你可以随时通过「停止」按钮停止代理。扩展的源代码在 GitHub 上完全开放供审计。
打开任意网页,打开 WebBrain 侧边栏,用自然语言提问:「提取本页面所有产品名称和价格」、「获取本页面所有邮箱地址」或「用要点总结这篇文章」。AI 代理会读取页面内容、理解结构并返回提取的数据。对于更复杂的抓取,切换到执行模式,代理可以在页面间导航、点击分页按钮,并在多个页面上聚合数据。
默认情况下,WebBrain 对任何会创建、修改、删除、发送、提交、发布或购买的操作,始终通过可见界面进行。它会导航到页面、填写表单、点击按钮 —— 完全像你一样操作。它拒绝在后台通过 fetch() 直接调用 REST/GraphQL 端点进行变更。这是刻意设计:API 操作是不可见的(你看不到发送了什么),通常需要你可能未配置的单独认证令牌,而且相比于一次可见的误点击,影响范围大得多。UI-first 意味着一切都在屏幕上、在你平时的浏览器会话中、并且可中断。
对于读取数据 —— 获取 README、查找议题、跨站比价、检查状态页 —— WebBrain 会自由地通过 fetch_url 和 research_url 工具发送后台 HTTP 请求。读取不等于操作;它不会改变远程服务上的任何东西,因此不存在同样的安全顾虑。
如果你希望在某个具体任务上允许 API 变更,请在消息开头输入 /allow-api(可以后跟一段简短的任务描述)。这个按会话生效的覆盖会让 WebBrain 在界面确实失败或不可用时回退到 API 端点,但只要界面可用仍优先使用界面。覆盖启用期间,输入区上方会显示一枚置顶徽章,重置会话后该标志会清除。
在 Chrome 上可以 —— 代理运行在后台 service worker 中,并绑定在启动它的标签上,因此即使你把焦点切到别处,它也会继续在那个特定标签上点击、输入和读取。针对标签的工具(CDP 的点击、输入、导航、截图)在 Chrome 中对后台标签同样有效。任务进行期间,侧边栏会锁定输入,防止你在新标签上意外启动第二个任务 —— 你需要等当前任务完成或手动停止它。需要注意的是,浏览器会限制后台标签上的计时器和动画,因此动画繁多的站点响应可能略慢。
在 Firefox 上,代理也会继续在其原始标签上运行,但自动截图会受限:Firefox 的截图 API 只能捕获当前活动标签,无法抓取后台的某个具体标签。WebBrain 会识别这一点,并在该轮跳过截图,而不是把一张无关页面的图像喂给模型。代理会继续基于文本上下文进行规划,直到你切回它的标签。
请避免在代理正在工作的同一标签上主动点击或输入 —— 这会造成你和代理争抢同一页面的竞态条件。切换标签没问题;共同驾驶同一标签则不行。
个人资料自动填写是 设置 → 个人资料 中的可选功能。你输入一段简短的自述 —— 姓名、工作邮箱、公司以及用于低风险注册的一次性密码 —— 然后将其打开。启用后,WebBrain 会将这段文本附加到代理的系统提示中,这样它就能无需每次询问即可填写注册表单。
该文本以明文保存在浏览器的本地存储中。它不会被传送到 WebBrain 项目,但会在每一轮作为系统提示的一部分发送给你配置的 LLM 提供商。默认关闭。
不要在此放置重要账户的密码(Google、Apple、iCloud、银行、公司 SSO、主邮箱)。这些账户应启用 2FA,而且本就不该交给代理。预期用途是你在订阅通讯和免费试用注册时反复使用的一次性密码。
Cookie 横幅:WebBrain 能识别常见框架(OneTrust、Cookiebot、Didomi、Quantcast、Google Funding Choices、TrustArc)的同意横幅,并在对页面进行推理之前将其关闭。当「全部拒绝」/「拒绝非必要」/「仅必要」清晰可见时优先选择这些选项;否则会退而点击「全部接受」,而不是陷入「管理偏好」的迷宫。
付费墙:WebBrain 会如实报告付费墙,并告诉你它实际看到了什么(标题、副标题、开头几段)。它不会尝试绕过付费墙 —— 不使用 archive.today、12ft.io、不清除 Cookie、不禁用 JS、不使用阅读模式小技巧。如果你想要完整文章,请使用订阅登录,或请 WebBrain 搜索同一报道的免费报道。
插件带有完整翻译的界面,覆盖 English、Español、Français、Türkçe 和 中文。首次使用时会自动检测浏览器语言;之后你可以随时从侧边栏顶部的地球图标或 设置 → 显示 中的「语言」行切换。该设置通过 browser.storage.local 在侧边栏、选项页和轨迹页之间同步。本营销站点也相应本地化:/es/、/fr/、/tr/、/zh/ 都与英文页面保持一致。
三个独立的层:
节省 token 的截图。在任何图像离开你的机器之前,WebBrain 会先缩放它(短边封顶,保持宽高比),然后迭代 JPEG 压缩直到适配每轮的图像 token 预算。一张 2000×1200 的截图,在 GPT-4o 上原本大约要花 1500 个输入 token,可被压缩到约 300–500 个 token,对页面阅读任务来说没有实际损失。实现位于 _fitImageDimensions,并有覆盖预算计算的单元测试。
智能上下文裁剪。对话历史、工具输出和内联 DOM 转储都会按每轮加以限制,当活跃模型的上下文窗口接近占满时,会从最早的内容开始裁剪。你不会看到一次运行因为一次 read_page 返回了一篇长篇大论,就从 1 万 token 悄悄膨胀到 10 万。
专用视觉模型。将便宜的文本模型(如 GPT-4o-mini)用于规划和工具调用,再配一个专门的视觉模型(如 GPT-4o)只用于截图,这样你不必在每一轮都支付多模态模型的价格。可在 设置 → 视觉 中配置。
结果:与云端提供商的长会话保持可预测。如需完全控制,请使用本地 llama.cpp —— 每 token 成本为零。
当然可以!WebBrain 采用 MIT 许可,欢迎贡献。请查看 GitHub 仓库 了解议题、功能请求和贡献指南。