WebBrain은 Chrome과 Firefox에 AI 에이전트 기능을 가져오는 무료 오픈소스 브라우저 확장입니다. 페이지를 읽고, 데이터를 추출하고, 웹 작업을 자동화합니다 — 원하는 LLM으로. 독점 브라우저 AI 플러그인의 셀프 호스팅 가능한 대안입니다.
WebBrain이 페이지를 읽고, 데이터를 추출하고, 브라우저 작업을 자동화하는 모습을 확인하세요.
브라우저 사이드 패널에 자리 잡고 어떤 웹 페이지든 이해하는 완전한 기능의 AI 에이전트.
어떤 웹 페이지든 읽고 이해합니다 — 기사, 문서, 대시보드, 양식. 현재 페이지 내용에 대해 질문하고 즉시 답을 받으세요.
당신을 대신해 클릭, 입력, 스크롤, 이동하며 페이지와 상호작용합니다. 자연어 지시로 반복 작업을 자동화하세요.
어떤 페이지에서든 구조화된 데이터를 추출합니다 — 표, 목록, 링크, 양식. 제품 카탈로그, 검색 결과, 또는 임의의 페이지 콘텐츠를 내보내세요. PDF에서도 작동합니다.
로컬 llama.cpp, OpenAI, Claude, OpenRouter와 작동합니다. 원하는 모델을 사용하거나 — 로컬 AI로 완전히 오프라인에서 실행하세요.
당신의 데이터는 당신의 것입니다. 로컬 LLM으로 데이터 유출 제로. 텔레메트리도, 추적도, 계정도 필요 없습니다. 완전한 오픈소스.
자동 컨텍스트 관리가 토큰 초과를 막습니다. 대화 기록을 똑똑하게 자르고 도구 출력을 제한해, 끊김 없이 매끄러운 세션을 유지합니다.
계획에는 빠른 텍스트 전용 모델을, 스크린샷 읽기에는 별도의 비전 지원 모델을 함께 쓰세요. 모든 일을 거대한 멀티모달 모델 하나로 처리하는 것보다 더 저렴하고 빠릅니다.
선택적인 일반 텍스트 자기소개 — 이름, 업무 이메일, 회사, 저위험 가입용 일회용 비밀번호 — 만 있으면, 에이전트가 매번 묻지 않고도 저위험 가입 양식을 술술 넘깁니다. 기본적으로 꺼져 있고, 모두 로컬에 저장됩니다.
페이지에 대해 추론하기 전에 동의 배너(OneTrust, Cookiebot, Didomi, Quantcast)를 닫습니다. 페이월이 감지되면 기사 내용을 지어내거나 우회하려 하지 않고 정직하게 알려 줍니다.
Plug in a CapSolver API key and the agent will auto-solve reCAPTCHA v2/v3, hCaptcha, and Cloudflare Turnstile when they block a step — instead of stopping to ask. Off by default, BYO key, no captcha service is shipped or contacted unless you turn it on.
플러그인은 English, Español, Français, Türkçe, 中文으로 제공됩니다. 처음 사용 시 브라우저 언어를 자동 감지하고, 사이드 패널의 지구본 아이콘으로 언제든 전환할 수 있습니다. 마케팅 사이트도 그에 맞춰 현지화되어 있습니다.
스크린샷은 당신의 머신을 떠나기 전에 크기가 조정되고 반복적으로 JPEG 압축되어 이미지 토큰이 작게 유지됩니다. 스마트 컨텍스트 트리밍과 도구 출력 상한이 클라우드 비용을 예측 가능하게 유지해 — 긴 세션에서도 깜짝 지출이 없습니다.
OpenAI 호환 API 어디에든 연결하거나 로컬 모델을 실행하세요. 확장 설정에서 프로바이더를 언제든 바꿀 수 있습니다.
Chrome과 Firefox에서 사용 가능. 무료, 오픈소스, 계정 불필요.
Manifest V3 · Chrome 116+ · Brave, Edge, Opera, Vivaldi 등 Chromium 호환 브라우저에서도 작동합니다.
WebBrain은 브라우저 네이티브 AI 플러그인과 본격 에이전트 프레임워크의 교차점에 있습니다. 다음은 그 비교입니다.
| 기능 | WebBrain | Chrome의 Claude |
|---|---|---|
| 오픈소스 | MIT 라이선스 | 독점 |
| 가격 | 영구 무료 | Claude Pro 필요 ($20/월) |
| 로컬 LLM 지원 | llama.cpp, Ollama | 아니요 — Claude 전용 |
| 멀티 프로바이더 | All OpenAI-compatible endpoints | Claude 전용 |
| Chrome | 예 (MV3) | 예 |
| Firefox | 예 (MV2) | 아니요 |
| 사이드 패널 UI | 예 | 예 |
| 묻기 / 실행 모드 | 예 | 유사 |
| 완전 오프라인 | 예 (로컬 LLM 사용 시) | 아니요 — 클라우드 필요 |
| 셀프 호스팅 가능 | 예 | 아니요 |
| 측면 | WebBrain | OpenClaw / Browser-Use / 등 |
|---|---|---|
| 그게 무엇인가요? | 브라우저 확장 (최종 사용자 도구) | 에이전트 프레임워크 / SDK (개발자 도구) |
| 대상 사용자 | 누구나 — 코딩 필요 없음 | 자동화를 만드는 개발자 |
| 설치 | 원클릭 브라우저 설치 | Python/Docker 설정 필요 |
| UI | 내장 사이드 패널 채팅 | UI 없음 — 코드 또는 API만 |
| 브라우저 제어 | Content script (경량) | CDP / Playwright (완전 제어) |
| 멀티 탭 워크플로 | 탭별 대화 | 프로그래머블 멀티 탭 오케스트레이션 |
| 헤드리스 모드 | 아니요 — 당신의 브라우저에서 실행 | 예 — 헤드리스 자동화 |
| 확장성 | 커스텀 LLM 프로바이더 추가 | 완전한 Python SDK, 커스텀 도구 |
| 가장 적합한 용도 | 일상 브라우징 AI 어시스턴트 | 자동 스크래핑 / 테스트 파이프라인 |
WebBrain은 브라우징을 하면서 AI 어시스턴트를 원하는 최종 사용자를 위한 브라우저 확장입니다. OpenClaw 같은 에이전트 프레임워크는 자동화 브라우저 파이프라인을 만드는 개발자 도구입니다. 일이 다르면 도구도 다릅니다 — 그리고 둘 다 함께 쓸 수 있습니다.
예. WebBrain은 비슷한 AI 브라우저 에이전트 기능을 제공합니다 — 페이지 읽기, 데이터 추출, 버튼 클릭, 양식 입력, 다단계 워크플로 자동화. Claude Pro 구독이 필요하고 Anthropic 모델만 지원하는 독점 Claude 플러그인과 달리, WebBrain은 완전 무료이고 오픈소스(MIT 라이선스)이며, 머신에서 완전히 실행되는 로컬 모델을 포함해 여러 LLM 프로바이더를 지원합니다.
서로 다른 범주의 도구입니다. WebBrain은 브라우저 확장입니다 — Chrome이나 Firefox에 설치해 사이드 패널에서 대화하며, 코딩이 필요 없습니다. OpenClaw, Browser-Use 같은 프레임워크는 Python으로 자동 브라우저 파이프라인을 구축하는 개발자용 SDK이며, 보통 헤드리스 브라우저와 CDP를 사용합니다. 한 줄로: WebBrain은 AI 어시스턴트와 함께 일상 브라우징을 하는 용도, 에이전트 프레임워크는 스크래핑 봇과 테스트 자동화를 만드는 용도. 둘을 함께 써도 됩니다 — 서로 보완 관계입니다.
예. WebBrain의 기본 프로바이더는 llama.cpp이며, 컴퓨터에서 로컬 AI 모델을 실행합니다. API 키도 필요 없고, AI에 인터넷도 필요 없으며, 데이터가 머신을 떠나지 않습니다. GGUF 모델을 받고 llama-server를 실행하면, 완전히 비공개인 AI 브라우저 에이전트가 됩니다. OpenAI 호환 엔드포인트가 있는 Ollama도 사용할 수 있습니다.
WebBrain은 네 가지 프로바이더 유형을 지원합니다: llama.cpp (모든 로컬 GGUF 모델), OpenAI (GPT-4o, GPT-4 등), Claude (네이티브 API를 통한 Claude Opus, Sonnet, Haiku), 그리고 OpenRouter (여러 프로바이더의 100개 이상 모델 접근). OpenAI 호환 API 엔드포인트는 무엇이든 작동하므로, Together AI, Groq, Mistral 같은 서비스나 OpenAI 호환 인터페이스를 가진 로컬 서버도 사용할 수 있습니다.
2026년 4월 21일 기준 최상위 추천은 Qwen 3.6 35B입니다. 이유: 자체 비전 벤치마크(vision-model-shootout)에서 스크린샷 이해 성능이 Gemma 4를 능가했고, 동시에 로컬 추론에도 실용적이었습니다.
컨슈머 GPU에서는 RTX 5090이 이상적이며, RTX 4090도 Intel/Qwen3.6-35B-A3B-int4-AutoRound의 INT4 AutoRound 양자화로 충분히 돌릴 수 있는 경우가 많습니다.
최대 속도를 원한다면 vLLM으로 서빙하는 것을 추천합니다. 명령어 예시:
python -u -m vllm.entrypoints.openai.api_server --model Intel/Qwen3.6-35B-A3B-int4-AutoRound --served-model-name qwen3.6-35b --quantization auto --dtype bfloat16 --max-model-len 65536 --max-num-batched-tokens 32768 --max-num-seqs 4 --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.92 --enable-prefix-caching --enable-chunked-prefill --limit-mm-per-prompt '{"image": 4, "video": 1}' --mm-processor-cache-type shm --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --trust-remote-code --allowed-origins '["*"]' --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' --attention-backend flash_attn
DFlash speculative decoding은 선택 사항입니다.
LLM 서버가 로컬 네트워크의 다른 머신(예: http://192.168.1.x:8000)에 있으면, 서버가 CORS 헤더를 보내지 않는 한 Chrome이 요청을 차단합니다. 해결책은 서버에 따라 다릅니다:
vLLM: --allowed-origins '["*"]'로 시작하세요 (값은 반드시 JSON 리스트).
Ollama: 시작 전에 환경 변수 OLLAMA_ORIGINS=*를 설정하세요.
llama.cpp: CORS가 기본으로 활성화되어 있어 — 변경할 필요가 없습니다.
서버가 localhost(브라우저와 같은 머신)에서 실행 중이면 보통 CORS가 필요 없습니다. 이 문제는 로컬 네트워크의 머신 간 연결에만 영향을 미칩니다. WebBrain 설정의 base URL이 /v1로 끝나는지(예: http://192.168.1.47:8000/v1) 확인하세요.
예. WebBrain은 Chrome 버전(Manifest V3, sidePanel API 사용)과 Firefox 버전(Manifest V2, sidebar_action 사용) 모두로 배포됩니다. 두 버전의 기능은 동일합니다. Firefox 버전은 개발용 임시 부가 기능으로 로드하거나, 영구 설치를 위해 addons.mozilla.org에 게시할 수 있습니다.
예 — Firefox 사이드바는 기본적으로 왼쪽이지만, 옮길 수 있습니다. 사이드바 헤더의 아무 데서나 오른쪽 클릭한 뒤 「사이드바를 오른쪽으로 이동」을 고르면 됩니다(또는 메뉴 바에서 「보기 → 사이드바 → 사이드바를 오른쪽으로 이동」). 위치는 재시작 후에도 유지됩니다. Chrome의 sidePanel은 기본적으로 오른쪽이고, 패널 자체에서 사용자가 옮길 수는 없습니다.
WebBrain에는 두 가지 모드가 있습니다: 묻기 모드(기본)는 읽기 전용이며 페이지의 어떤 것도 수정하지 못합니다. 실행 모드는 완전한 브라우저 에이전트 기능(클릭, 입력, 탐색)을 활성화하지만, 활성화 전 명시적인 사용자 확인이 필요하고 눈에 띄는 경고 배너가 함께 표시됩니다. 정지 버튼으로 언제든지 에이전트를 멈출 수 있습니다. 확장의 소스 코드는 GitHub에 완전히 공개되어 감사가 가능합니다.
원하는 웹 페이지를 열고 WebBrain 사이드 패널을 연 뒤 자연어로 물어보면 됩니다: "이 페이지의 모든 제품명과 가격을 추출해 줘", "이 페이지의 모든 이메일 주소를 가져와 줘", 또는 "이 글을 글머리표로 요약해 줘". AI 에이전트가 페이지 내용을 읽고, 구조를 이해해, 추출한 데이터를 돌려줍니다. 더 복잡한 스크래핑이라면 실행 모드로 전환하세요. 에이전트가 페이지 사이를 이동하고, 페이지네이션 버튼을 누르고, 여러 페이지에 걸쳐 데이터를 모을 수 있습니다.
기본적으로 WebBrain은 무언가를 만들거나, 수정하거나, 삭제하거나, 보내거나, 제출하거나, 게시하거나, 구매하는 모든 동작에 대해 항상 보이는 UI를 거쳐서 수행합니다. 페이지로 이동하고, 양식을 채우고, 버튼을 누르는 — 당신이 하는 방식 그대로 말이죠. 변경 작업을 위해 백그라운드 fetch()로 REST/GraphQL 엔드포인트를 직접 호출하는 것은 거부합니다. 이는 의도된 설계입니다: API 동작은 보이지 않고(무엇을 보내는지 보이지 않습니다), 별도의 인증 토큰이 필요할 때가 많고(설정하지 않았을 수도 있습니다), 보이는 한 번의 오클릭보다 영향 범위가 훨씬 넓습니다. UI-first는 모든 것이 화면 위에, 평소의 브라우저 세션 안에, 그리고 언제든 멈출 수 있는 상태로 있다는 뜻입니다.
데이터를 읽는 경우에는 — README를 가져오고, 이슈를 살펴보고, 사이트 간 가격을 비교하고, 상태 페이지를 확인하는 등 — WebBrain은 fetch_url과 research_url 도구를 통해 백그라운드 HTTP 요청을 자유롭게 사용합니다. 읽기는 행위가 아닙니다. 원격 서비스의 무언가를 바꾸지 않으므로 같은 안전 문제는 적용되지 않습니다.
특정 작업에 한해 API 변경을 허용하고 싶다면, 메시지 맨 앞에 /allow-api를 입력하세요(짧은 작업 설명을 뒤에 붙여도 됩니다). 이 대화 단위의 오버라이드는 UI가 정말로 실패하거나 사용 불가일 때 WebBrain이 API 엔드포인트로 폴백할 수 있게 하되, UI가 동작할 때는 여전히 UI를 우선시합니다. 오버라이드가 활성화된 동안에는 입력 영역 위에 고정 배지가 표시되며, 대화를 초기화하면 해제됩니다.
예. WebBrain의 읽기 전용 네트워크 도구 — fetch_url과 research_url — 는 LM Studio의 독립 플러그인으로도 제공되며 webbrain/web-tools에서 받을 수 있습니다. lms clone webbrain/web-tools로 설치하고 LM Studio의 아무 채팅에서나 켜면, 도구 호출이 가능한 모든 모델이 브라우저 확장을 설치하지 않고도 이 두 도구를 호출할 수 있습니다. 순수 Node, 헤드리스 브라우저 없음. 소스: lmstudio-plugin/.
예, Chrome에서는 가능합니다 — 에이전트는 백그라운드 서비스 워커에서 실행되고 시작한 탭에 묶여 있으므로, 포커스를 다른 곳으로 옮겨도 그 특정 탭에서 클릭, 입력, 읽기를 계속합니다. 탭을 대상으로 하는 도구(CDP의 클릭, 입력, 탐색, 스크린샷) 모두 Chrome에서는 백그라운드 탭에서도 작동합니다. 작업이 진행 중인 동안에는 사이드바가 입력을 잠그므로, 새 탭에서 실수로 두 번째 작업을 시작할 수 없습니다 — 기다리거나 현재 작업을 멈춰야 합니다. 브라우저가 백그라운드 탭의 타이머와 애니메이션을 제한하므로, 애니메이션이 많은 사이트는 반응이 다소 느려질 수 있습니다.
Firefox에서도 에이전트는 원래 탭에서 계속 실행되지만, 자동 스크린샷은 제한됩니다. Firefox의 스크린샷 API는 현재 활성 탭만 캡처할 수 있고 백그라운드의 특정 탭은 캡처하지 못합니다. WebBrain은 이를 감지해, 관계없는 페이지 이미지를 모델에 먹이는 대신 해당 턴의 스크린샷을 건너뜁니다. 에이전트는 당신이 그 탭으로 돌아갈 때까지 텍스트 기반 컨텍스트로 계획을 이어 갑니다.
에이전트가 작업 중인 같은 탭에서 적극적으로 클릭하거나 입력하는 것은 피하세요 — 같은 페이지를 두고 당신과 에이전트가 싸우는 경합 상태가 됩니다. 탭을 전환하는 것은 괜찮지만, 같은 탭을 함께 운전하는 것은 안 됩니다.
프로필 자동 입력은 설정 → 프로필에 있는 선택 기능입니다. 짧은 자기소개 — 이름, 업무 이메일, 회사, 저위험 가입용 일회용 비밀번호 — 를 입력하고 켜면, WebBrain이 그 텍스트를 에이전트의 시스템 프롬프트에 덧붙여 매번 묻지 않고도 가입 양식을 채울 수 있게 합니다.
텍스트는 브라우저 로컬 저장소에 평문으로 저장됩니다. WebBrain 프로젝트로는 전송되지 않지만, 설정한 LLM 프로바이더에게는 매 턴 시스템 프롬프트의 일부로 전송됩니다. 기본은 꺼짐입니다.
여기에 중요한 계정(Google, Apple, iCloud, 은행, 회사 SSO, 주 이메일) 비밀번호는 절대로 넣지 마세요. 이런 계정은 2FA를 사용해야 하고, 애초에 에이전트에게 넘길 일이 없어야 합니다. 의도된 사용 사례는 뉴스레터 가입과 무료 체험에서 재사용하는 일회용 비밀번호입니다.
쿠키 배너: WebBrain은 일반적인 프레임워크(OneTrust, Cookiebot, Didomi, Quantcast, Google Funding Choices, TrustArc)의 동의 배너를 인식해, 페이지에 대해 추론하기 전에 닫습니다. 우선순위는 명확히 보일 때 「모두 거부」/「필수 외 거부」/「필수만」이며, 그렇지 않다면 「설정 관리」 미로에 빠지는 대신 「모두 수락」으로 폴백합니다.
페이월: WebBrain은 페이월의 존재를 정직하게 보고하고, 실제로 본 부분(헤드라인, 부제, 첫 단락 정도)을 알려 줍니다. 페이월을 우회하려고 시도하지 않습니다 — archive.today, 12ft.io, 쿠키 삭제, JS 비활성화, 리더 모드 트릭 등은 모두 사용하지 않습니다. 전체 기사를 원한다면 구독으로 로그인하거나, 같은 사안에 대한 무료 보도를 찾아 달라고 WebBrain에 부탁하세요.
7.0.0 기준으로는 아직 아닙니다. dry-run 모드는 이미 로드맵에 올라가 있고 계획되어 있습니다.
독립적인 세 가지 레이어가 있습니다:
토큰을 아끼는 스크린샷. 이미지가 머신을 떠나기 전에, WebBrain은 크기를 조정하고(짧은 변에 상한, 가로세로 비율 유지) 턴당 이미지 토큰 예산에 맞을 때까지 JPEG로 반복 압축합니다. GPT-4o에서 입력 토큰 약 1,500개에 해당하는 2000×1200 스크린샷이, 페이지 읽기 작업에서 실질적인 손실 없이 ~300–500 토큰으로 압축됩니다. _fitImageDimensions에 구현되어 있고 예산 계산용 유닛 테스트도 있습니다.
스마트 컨텍스트 트리밍. 대화 기록, 도구 출력, 인라인 DOM 덤프 모두 턴 단위로 상한이 걸리고, 활성 모델의 컨텍스트 윈도우가 가득 차 가면 오래된 것부터 잘립니다. read_page가 소설 분량의 글을 반환했다는 이유로 실행이 조용히 10k 토큰에서 100k 토큰으로 부풀어 오르는 일은 없습니다.
전용 비전 모델. 계획과 도구 호출에는 저렴한 텍스트 모델(예: GPT-4o-mini)을, 스크린샷에만 별도의 비전 지원 모델(예: GPT-4o)을 짝지으면 매 턴마다 멀티모달 모델 가격을 낼 필요가 없습니다. 설정 → 비전에서 구성하세요.
결과적으로 클라우드 프로바이더와의 긴 세션은 예측 가능한 상태를 유지합니다. 완전한 제어를 원한다면 로컬 llama.cpp를 쓰세요 — 토큰당 비용은 0입니다.
물론입니다! WebBrain은 MIT 라이선스이며 기여를 환영합니다. 이슈, 기능 요청, 기여 가이드는 GitHub 저장소에서 확인하세요.