开源 AI 浏览器代理

WebBrain 是一款免费的开源浏览器扩展,为 Chrome 和 Firefox 带来 AI 代理能力。阅读页面、提取数据、自动化网页任务 —— 使用你选择的 LLM。专有浏览器 AI 插件的可自托管替代品。

安装扩展 在 GitHub 查看
https://example.com/products

产品目录

🧠 WebBrain.one
提取本页面所有产品名称和价格
正在阅读页面
正在提取数据
发现 24 个产品。结果如下:
1. Widget Pro — $29.99
2. Super Gadget — $49.99
3. MegaTool X — $19.99
...还有 21 个
针对此页面随便问点什么...
演示

观看 WebBrain 实战

看看 WebBrain 如何阅读页面、提取数据并自动化浏览器任务。

功能

浏览器 AI 所需的一切

一个功能齐全的 AI 代理,驻扎在浏览器侧边栏,能理解任何网页。

📖

页面理解

读懂任何网页 —— 文章、文档、仪表板、表单。对当前页面内容提问并立即获得答案。

🤖

完整浏览器代理

代你点击、输入、滚动、导航,并与页面交互。用自然语言指令自动化重复性任务。

📊

数据提取

从任何页面提取结构化数据 —— 表格、列表、链接、表单。导出产品目录、搜索结果或任何页面内容。

🔌

多提供商 LLM

兼容本地 llama.cpp、OpenAI、Claude 和 OpenRouter。使用你偏好的模型 —— 或用本地 AI 完全离线运行。

🛡️

隐私优先

你的数据依然属于你。配合本地 LLM 零数据泄露。无遥测、无追踪、无需账号。完全开源。

智能上下文

自动上下文管理防止 token 溢出。智能裁剪对话历史并限制工具输出,让会话顺畅不中断。

👁️

专用视觉模型

用一个快速的纯文本模型做规划,再配一个专门的视觉模型读取截图。比用一个庞大的多模态模型做所有事情更便宜也更快。

🗂️

标签组

代理打开的任何标签都加入专用的「WebBrain」组,这样你的研究链条在视觉上保持在一起,而不会散落在窗口中。对 target="_blank" 链接的点击会回折到当前标签,防止标签爆炸。

👤

个人资料自动填写

可选的纯文本自述 —— 姓名、工作邮箱、公司、一个一次性密码 —— 让代理无需每次询问即可轻松完成低风险注册表单。默认关闭,全部在本地存储。

🍪

识别 Cookie 与付费墙

在推理页面之前关闭常见框架的同意横幅(OneTrust、Cookiebot、Didomi、Quantcast)。检测到付费墙会如实告知,而不是编造文章内容或尝试绕过。

🌐

多语言界面

插件提供 English、Español、Français、Türkçe 和 中文 五种语言。首次使用时自动检测浏览器语言;随时可通过侧边栏中的地球图标切换。本站也相应本地化。

💰

节省 token

截图在离开你的机器之前会先按比例缩放并迭代 JPEG 压缩,让图像 token 保持很小。智能上下文裁剪和工具输出上限让云端费用可预测 —— 长会话不会出现意外支出。

LLM 提供商

自带 AI

连接任何 OpenAI 兼容 API,或运行一个本地模型。随时在扩展设置中切换提供商。

🦙
llama.cpp
Ollama
OpenAI
Claude
OpenRouter
StudioLM
VLLM
交互模式

询问或执行

两种模式应对不同需求。默认只读,需要时则具备完整代理能力。

💬

询问模式

只读。就当前页面提问、提取信息、总结内容。安全且不具侵入性 —— 不会修改任何内容。

执行模式

完整代理。点击按钮、填写表单、在页面间导航、运行脚本。用一条指令自动化复杂的多步骤浏览器工作流。

开始使用

安装 WebBrain

支持 Chrome 和 Firefox。免费、开源、无需账号。

🌐

Chrome 与 Chromium

Manifest V3 · Chrome 116+ · 同时适用于 Brave、Edge、Opera、Vivaldi 等 Chromium 兼容浏览器。

🦊

Firefox

Manifest V2 · Firefox 109+

为什么选择 WebBrain?

WebBrain 与其他工具相比如何?

WebBrain 位于浏览器原生 AI 插件与完整代理框架之间。以下是它的定位。

对比浏览器 AI 插件

特性 WebBrain Chrome 中的 Claude
开源MIT 许可闭源
价格永久免费需要 Claude Pro(20 美元/月)
本地 LLM 支持llama.cpp、Ollama否 —— 仅限 Claude
多提供商4 家提供商(本地 + 云端)仅限 Claude
Chrome是(MV3)
Firefox是(MV2)
侧边栏 UI
询问 / 执行 模式类似
完全离线是(使用本地 LLM)否 —— 需要云端
页面交互Content scriptChrome DevTools Protocol
可自托管

对比 AI 代理框架 (不同品类)

维度 WebBrain OpenClaw / Browser-Use / 等
是什么?浏览器扩展(面向终端用户的工具)代理框架 / SDK(面向开发者的工具)
目标用户任何人 —— 无需编码构建自动化的开发者
安装一键浏览器安装需要 Python/Docker 环境
界面内置侧边栏聊天无 UI —— 仅代码或 API
浏览器控制Content script(轻量)CDP / Playwright(完全控制)
多标签工作流按标签独立会话可编程多标签编排
无头模式否 —— 在你的浏览器中运行是 —— 无头自动化
可扩展性添加自定义 LLM 提供商完整 Python SDK、自定义工具
最适合日常浏览的 AI 助手自动化抓取 / 测试流水线

WebBrain 是面向终端用户的浏览器扩展,适合希望在浏览时有 AI 助手陪伴的人。像 OpenClaw 这样的代理框架则是开发者用来构建自动化浏览器流水线的工具。不同工具适合不同工作 —— 两者可以并用。

常见问题

常见问题解答

WebBrain 是 Claude 浏览器插件的免费替代品吗?

是的。WebBrain 提供类似的 AI 浏览器代理能力 —— 阅读页面、提取数据、点击按钮、填写表单并自动化多步骤工作流。与需要 Claude Pro 订阅且仅支持 Anthropic 模型的专有 Claude 插件不同,WebBrain 完全免费、开源(MIT 许可),并支持多个 LLM 提供商,包括完全在你的机器上运行的本地模型。

WebBrain 与 OpenClaw、Browser-Use 以及其他 AI 代理框架有何不同?

它们属于不同类别的工具。WebBrain 是浏览器扩展 —— 你在 Chrome 或 Firefox 中安装它,并在侧边栏中与它对话,无需编码。OpenClaw 和 Browser-Use 等框架是面向开发者的 SDK,用 Python 构建自动化浏览器流水线,通常使用无头浏览器和 CDP。换句话说:WebBrain 用于日常浏览时的 AI 助手;代理框架用于构建抓取机器人和测试自动化。你可以同时使用 —— 二者互补。

我能完全离线使用 WebBrain 吗?

可以。WebBrain 的默认提供商是 llama.cpp,它在你的电脑上运行本地 AI 模型。无需 API 密钥,AI 无需互联网,数据不会离开你的机器。下载一个 GGUF 模型,启动 llama-server,你就拥有了一个完全私有的 AI 浏览器代理。你也可以通过 OpenAI 兼容端点使用 Ollama。

WebBrain 支持哪些 AI 模型?

WebBrain 支持四类提供商:llama.cpp(任意本地 GGUF 模型)、OpenAI(GPT-4o、GPT-4 等)、Claude(通过原生 API 使用 Claude Opus、Sonnet、Haiku)以及 OpenRouter(访问多家提供商的 100 多种模型)。任何 OpenAI 兼容的 API 端点都能工作,因此你也可以使用 Together AI、Groq、Mistral 等服务,或任何提供 OpenAI 兼容接口的本地服务器。

最推荐的模型是什么?

截至 2026 年 4 月 21 日,最推荐的是 Qwen 3.6 35B。原因:在我们的视觉基准测试中(vision-model-shootout),它在截图理解方面超过了 Gemma 4,同时对本地推理仍然可行。

在消费级 GPU 上,RTX 5090 是理想选择;RTX 4090 通常可借助 Intel/Qwen3.6-35B-A3B-int4-AutoRound 的 INT4 AutoRound 量化运行。

追求最高速度时,推荐使用 vLLM 提供服务。示例命令:

python -u -m vllm.entrypoints.openai.api_server --model Intel/Qwen3.6-35B-A3B-int4-AutoRound --served-model-name qwen3.6-35b --quantization auto --dtype bfloat16 --max-model-len 65536 --max-num-batched-tokens 32768 --max-num-seqs 4 --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.92 --enable-prefix-caching --enable-chunked-prefill --limit-mm-per-prompt '{"image": 4, "video": 1}' --mm-processor-cache-type shm --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --trust-remote-code --allowed-origins '["*"]' --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' --attention-backend flash_attn

DFlash 推测解码是可选项。

连接到我网络上的本地 LLM 服务器(vLLM、Ollama、llama.cpp)时出现「Failed to fetch」

如果你的 LLM 服务器在本地网络中的另一台机器上(例如 http://192.168.1.x:8000),除非服务器发送 CORS 头,否则 Chrome 会拦截该请求。解决方案因服务器而异:

vLLM:启动时添加 --allowed-origins '["*"]'(值必须是 JSON 列表)。
Ollama:启动前设置环境变量 OLLAMA_ORIGINS=*
llama.cpp:默认启用 CORS,无需更改。

如果你的服务器运行在 localhost(与浏览器同一台机器),通常不需要 CORS。该问题仅影响本地网络上跨机器的连接。请确保 WebBrain 设置中的基础 URL 以 /v1 结尾(例如 http://192.168.1.47:8000/v1)。

WebBrain 在 Firefox 上能用吗?

能。WebBrain 同时提供 Chrome 版(使用 sidePanel API 的 Manifest V3)和 Firefox 版(使用 sidebar_action 的 Manifest V2)。两个版本功能一致。Firefox 版本可以作为临时附加组件用于开发,也可以发布到 addons.mozilla.org 进行永久安装。

使用 WebBrain 安全吗?它能修改网页吗?

WebBrain 有两种模式:询问模式(默认)只读,无法修改页面上的任何内容。执行模式启用完整的浏览器代理能力(点击、输入、导航),但在启用前需要用户显式确认,并会显示明显的警告横幅。你可以随时通过「停止」按钮停止代理。扩展的源代码在 GitHub 上完全开放供审计。

如何用 WebBrain 进行网页抓取和数据提取?

打开任意网页,打开 WebBrain 侧边栏,用自然语言提问:「提取本页面所有产品名称和价格」、「获取本页面所有邮箱地址」或「用要点总结这篇文章」。AI 代理会读取页面内容、理解结构并返回提取的数据。对于更复杂的抓取,切换到执行模式,代理可以在页面间导航、点击分页按钮,并在多个页面上聚合数据。

WebBrain 是直接调用 API,还是始终通过界面点击?

默认情况下,WebBrain 对任何会创建、修改、删除、发送、提交、发布或购买的操作,始终通过可见界面进行。它会导航到页面、填写表单、点击按钮 —— 完全像你一样操作。它拒绝在后台通过 fetch() 直接调用 REST/GraphQL 端点进行变更。这是刻意设计:API 操作是不可见的(你看不到发送了什么),通常需要你可能未配置的单独认证令牌,而且相比于一次可见的误点击,影响范围大得多。UI-first 意味着一切都在屏幕上、在你平时的浏览器会话中、并且可中断。

对于读取数据 —— 获取 README、查找议题、跨站比价、检查状态页 —— WebBrain 会自由地通过 fetch_urlresearch_url 工具发送后台 HTTP 请求。读取不等于操作;它不会改变远程服务上的任何东西,因此不存在同样的安全顾虑。

如果你希望在某个具体任务上允许 API 变更,请在消息开头输入 /allow-api(可以后跟一段简短的任务描述)。这个按会话生效的覆盖会让 WebBrain 在界面确实失败或不可用时回退到 API 端点,但只要界面可用仍优先使用界面。覆盖启用期间,输入区上方会显示一枚置顶徽章,重置会话后该标志会清除。

WebBrain 在某个页面上工作时,我能切换到别的标签吗?

在 Chrome 上可以 —— 代理运行在后台 service worker 中,并绑定在启动它的标签上,因此即使你把焦点切到别处,它也会继续在那个特定标签上点击、输入和读取。针对标签的工具(CDP 的点击、输入、导航、截图)在 Chrome 中对后台标签同样有效。任务进行期间,侧边栏会锁定输入,防止你在新标签上意外启动第二个任务 —— 你需要等当前任务完成或手动停止它。需要注意的是,浏览器会限制后台标签上的计时器和动画,因此动画繁多的站点响应可能略慢。

在 Firefox 上,代理也会继续在其原始标签上运行,但自动截图会受限:Firefox 的截图 API 只能捕获当前活动标签,无法抓取后台的某个具体标签。WebBrain 会识别这一点,并在该轮跳过截图,而不是把一张无关页面的图像喂给模型。代理会继续基于文本上下文进行规划,直到你切回它的标签。

请避免在代理正在工作的同一标签上主动点击或输入 —— 这会造成你和代理争抢同一页面的竞态条件。切换标签没问题;共同驾驶同一标签则不行。

个人资料自动填写如何工作?它安全吗?

个人资料自动填写是 设置 → 个人资料 中的可选功能。你输入一段简短的自述 —— 姓名、工作邮箱、公司以及用于低风险注册的一次性密码 —— 然后将其打开。启用后,WebBrain 会将这段文本附加到代理的系统提示中,这样它就能无需每次询问即可填写注册表单。

该文本以明文保存在浏览器的本地存储中。它不会被传送到 WebBrain 项目,但在每一轮作为系统提示的一部分发送给你配置的 LLM 提供商。默认关闭。

不要在此放置重要账户的密码(Google、Apple、iCloud、银行、公司 SSO、主邮箱)。这些账户应启用 2FA,而且本就不该交给代理。预期用途是你在订阅通讯和免费试用注册时反复使用的一次性密码。

WebBrain 如何处理 Cookie 横幅和付费墙?

Cookie 横幅:WebBrain 能识别常见框架(OneTrust、Cookiebot、Didomi、Quantcast、Google Funding Choices、TrustArc)的同意横幅,并在对页面进行推理之前将其关闭。当「全部拒绝」/「拒绝非必要」/「仅必要」清晰可见时优先选择这些选项;否则会退而点击「全部接受」,而不是陷入「管理偏好」的迷宫。

付费墙:WebBrain 会如实报告付费墙,并告诉你它实际看到了什么(标题、副标题、开头几段)。它不会尝试绕过付费墙 —— 不使用 archive.today、12ft.io、不清除 Cookie、不禁用 JS、不使用阅读模式小技巧。如果你想要完整文章,请使用订阅登录,或请 WebBrain 搜索同一报道的免费报道。

WebBrain 界面支持哪些语言?

插件带有完整翻译的界面,覆盖 English、Español、Français、Türkçe 和 中文。首次使用时会自动检测浏览器语言;之后你可以随时从侧边栏顶部的地球图标或 设置 → 显示 中的「语言」行切换。该设置通过 browser.storage.local 在侧边栏、选项页和轨迹页之间同步。本营销站点也相应本地化:/es//fr//tr//zh/ 都与英文页面保持一致。

WebBrain 如何控制云端 LLM 的账单?

三个独立的层:

节省 token 的截图。在任何图像离开你的机器之前,WebBrain 会先缩放它(短边封顶,保持宽高比),然后迭代 JPEG 压缩直到适配每轮的图像 token 预算。一张 2000×1200 的截图,在 GPT-4o 上原本大约要花 1500 个输入 token,可被压缩到约 300–500 个 token,对页面阅读任务来说没有实际损失。实现位于 _fitImageDimensions,并有覆盖预算计算的单元测试。

智能上下文裁剪。对话历史、工具输出和内联 DOM 转储都会按每轮加以限制,当活跃模型的上下文窗口接近占满时,会从最早的内容开始裁剪。你不会看到一次运行因为一次 read_page 返回了一篇长篇大论,就从 1 万 token 悄悄膨胀到 10 万。

专用视觉模型。将便宜的文本模型(如 GPT-4o-mini)用于规划和工具调用,再配一个专门的视觉模型(如 GPT-4o)只用于截图,这样你不必在每一轮都支付多模态模型的价格。可在 设置 → 视觉 中配置。

结果:与云端提供商的长会话保持可预测。如需完全控制,请使用本地 llama.cpp —— 每 token 成本为零。

我可以为 WebBrain 做贡献吗?

当然可以!WebBrain 采用 MIT 许可,欢迎贡献。请查看 GitHub 仓库 了解议题、功能请求和贡献指南。

100% 开源

WebBrain 采用 MIT 许可。检查代码、贡献功能,或 fork 一份,打造你自己的版本。

在 GitHub 上加星