AI Browser Agent โอเพนซอร์ส

WebBrain เป็นส่วนขยายเบราว์เซอร์ฟรีและโอเพนซอร์สที่นำความสามารถของ AI agent มาสู่ Chrome และ Firefox อ่านหน้า สกัดข้อมูล และทำให้งานบนเว็บเป็นอัตโนมัติ — ขับเคลื่อนด้วย LLM ที่คุณเลือก เป็นทางเลือกที่โฮสต์เองได้ของปลั๊กอิน AI เบราว์เซอร์ที่เป็นกรรมสิทธิ์

ติดตั้งส่วนขยาย ดูบน GitHub
https://example.com/products

แค็ตตาล็อกสินค้า

🧠 WebBrain.one
สกัดชื่อสินค้าและราคาทั้งหมดจากหน้านี้
กำลังอ่านหน้า
กำลังสกัดข้อมูล
พบ สินค้า 24 รายการ ผลลัพธ์มีดังนี้:
1. Widget Pro — $29.99
2. Super Gadget — $49.99
3. MegaTool X — $19.99
...และอีก 21 รายการ
ถามอะไรก็ได้เกี่ยวกับหน้านี้...
เดโม

ดู WebBrain ทำงานจริง

ดูว่า WebBrain อ่านหน้า สกัดข้อมูล และทำให้งานในเบราว์เซอร์เป็นอัตโนมัติได้อย่างไร

คุณสมบัติ

ทุกอย่างที่ AI ในเบราว์เซอร์ควรมี

AI agent เต็มรูปแบบที่อยู่ในแถบด้านข้างของเบราว์เซอร์และเข้าใจหน้าเว็บใด ๆ

📖

เข้าใจหน้า

อ่านและเข้าใจหน้าเว็บใด ๆ — บทความ เอกสาร แดชบอร์ด ฟอร์ม ถามคำถามและรับคำตอบทันทีจากเนื้อหาของหน้าปัจจุบัน

🤖

Browser agent เต็มรูปแบบ

คลิก พิมพ์ เลื่อน นำทาง และโต้ตอบกับหน้าแทนคุณ ทำให้งานซ้ำ ๆ เป็นอัตโนมัติด้วยคำสั่งภาษาธรรมชาติ

📊

การสกัดข้อมูล

สกัดข้อมูลที่มีโครงสร้างจากหน้าใด ๆ — ตาราง รายการ ลิงก์ ฟอร์ม ส่งออกแค็ตตาล็อกสินค้า ผลการค้นหา หรือเนื้อหาของหน้าใด ๆ รองรับ PDF

🔌

LLM หลายผู้ให้บริการ

ใช้งานกับ llama.cpp ภายในเครื่อง, OpenAI, Claude และ OpenRouter ได้ ใช้โมเดลที่คุณชอบ — หรือทำงานออฟไลน์เต็มรูปแบบด้วย AI ในเครื่อง

🛡️

ความเป็นส่วนตัวเป็นอันดับแรก

ข้อมูลของคุณยังเป็นของคุณ ใช้กับ LLM ภายในเครื่องเพื่อให้ไม่มีการรั่วไหลของข้อมูล ไม่มีการเก็บข้อมูลผู้ใช้ ไม่มีการติดตาม ไม่ต้องมีบัญชี โอเพนซอร์สเต็มรูปแบบ

Context อัจฉริยะ

การจัดการ context อัตโนมัติป้องกันไม่ให้โทเค็นล้น ตัดประวัติการสนทนาอย่างชาญฉลาดและจำกัดเอาต์พุตของเครื่องมือ เพื่อให้เซสชันราบรื่นไม่สะดุด

👁️

โมเดลด้านการมองเห็นโดยเฉพาะ

จับคู่โมเดลเฉพาะข้อความที่รวดเร็วสำหรับวางแผน กับโมเดลที่รองรับการมองเห็นสำหรับอ่านภาพหน้าจอ ถูกและเร็วกว่าการใช้โมเดลมัลติโมดัลขนาดใหญ่ตัวเดียวทำทุกอย่าง

👤

กรอกโปรไฟล์อัตโนมัติ

ประวัติย่อแบบเลือกได้ — ชื่อ อีเมลที่ทำงาน บริษัท และรหัสผ่านใช้ครั้งเดียว — ช่วยให้เอเจนต์ผ่านฟอร์มสมัครที่มีความเสี่ยงต่ำได้โดยไม่ต้องถามทุกครั้ง ปิดเป็นค่าเริ่มต้น และทุกอย่างเก็บอยู่ในเครื่อง

🍪

รู้จัก Cookie และ Paywall

ปิดแบนเนอร์ยินยอม (OneTrust, Cookiebot, Didomi, Quantcast) ก่อนวิเคราะห์หน้า ตรวจพบ paywall และบอกตามตรงแทนที่จะแต่งเนื้อหาบทความหรือพยายามหลีกเลี่ยง

🧩

Optional CAPTCHA Solver

Plug in a CapSolver API key and the agent will auto-solve reCAPTCHA v2/v3, hCaptcha, and Cloudflare Turnstile when they block a step — instead of stopping to ask. Off by default, BYO key, no captcha service is shipped or contacted unless you turn it on.

🌐

UI หลายภาษา

ปลั๊กอินมาพร้อม English, Español, Français, Türkçe และ 中文 ตรวจจับภาษาเบราว์เซอร์ของคุณอัตโนมัติเมื่อใช้งานครั้งแรก เปลี่ยนได้ทุกเมื่อจากไอคอนลูกโลกในแถบด้านข้าง เว็บไซต์การตลาดมีการแปลให้สอดคล้องกัน

💰

ประหยัดโทเค็น

ภาพหน้าจอจะถูกปรับขนาดและบีบอัด JPEG ซ้ำ ๆ ก่อนออกจากเครื่องของคุณ ทำให้โทเค็นรูปภาพเล็ก การตัด context อัจฉริยะและขีดจำกัดเอาต์พุตของเครื่องมือทำให้บิลคลาวด์คาดเดาได้ — ไม่มีค่าใช้จ่ายเซอร์ไพรส์ในเซสชันยาว ๆ

ผู้ให้บริการ LLM

นำ AI ของคุณมาเอง

เชื่อมต่อกับ API ที่เข้ากันได้กับ OpenAI ใด ๆ หรือรันโมเดลภายในเครื่อง สลับผู้ให้บริการได้ทุกเมื่อจากการตั้งค่าของส่วนขยาย

🦙
llama.cpp
Ollama
OpenAI
Claude
OpenRouter
LM Studio
vLLM
Grok
Gemini
DeepSeek
Mistral
เริ่มต้นใช้งาน

ติดตั้ง WebBrain

ใช้ได้กับ Chrome และ Firefox ฟรี โอเพนซอร์ส ไม่ต้องมีบัญชี

🌐

Chrome และ Chromium

Manifest V3 · Chrome 116+ · ใช้งานได้กับ Brave, Edge, Opera, Vivaldi และเบราว์เซอร์ที่เข้ากันได้กับ Chromium อื่น ๆ ด้วย

ทำไมต้อง WebBrain?

WebBrain เปรียบเทียบอย่างไร?

WebBrain ยืนอยู่บนจุดตัดของปลั๊กอิน AI ในเบราว์เซอร์และเฟรมเวิร์กเอเจนต์เต็มรูปแบบ นี่คือการเปรียบเทียบ

เทียบกับปลั๊กอิน AI ในเบราว์เซอร์

คุณสมบัติ WebBrain Claude ใน Chrome
โอเพนซอร์สสัญญาอนุญาต MITเป็นกรรมสิทธิ์
ราคาฟรีตลอดไปต้องใช้ Claude Pro ($20/เดือน)
รองรับ LLM ภายในเครื่องllama.cpp, Ollamaไม่ — เฉพาะ Claude
หลายผู้ให้บริการAll OpenAI-compatible endpointsเฉพาะ Claude
Chromeใช่ (MV3)ใช่
Firefoxใช่ (MV2)ไม่
UI แถบด้านข้างใช่ใช่
โหมดถาม / ทำใช่คล้ายกัน
ออฟไลน์เต็มรูปแบบใช่ (พร้อม LLM ภายในเครื่อง)ไม่ — ต้องใช้คลาวด์
โฮสต์เองได้ใช่ไม่

เทียบกับเฟรมเวิร์กเอเจนต์ AI (คนละหมวด)

ด้าน WebBrain OpenClaw / Browser-Use / ฯลฯ
มันคืออะไร?ส่วนขยายเบราว์เซอร์ (เครื่องมือผู้ใช้ปลายทาง)เฟรมเวิร์กเอเจนต์ / SDK (เครื่องมือสำหรับนักพัฒนา)
ผู้ใช้เป้าหมายทุกคน — ไม่ต้องเขียนโค้ดนักพัฒนาที่สร้างระบบอัตโนมัติ
การติดตั้งติดตั้งในเบราว์เซอร์ด้วยคลิกเดียวต้องตั้งค่า Python/Docker
UIแชตในแถบด้านข้างในตัวไม่มี UI — โค้ดหรือ API เท่านั้น
ควบคุมเบราว์เซอร์Content script (เบา)CDP / Playwright (ควบคุมเต็มที่)
เวิร์กโฟลว์หลายแท็บการสนทนาแยกตามแท็บออเคสเตรชันหลายแท็บที่โปรแกรมได้
โหมด headlessไม่ — รันในเบราว์เซอร์ของคุณใช่ — ระบบอัตโนมัติแบบ headless
ความสามารถในการขยายเพิ่มผู้ให้บริการ LLM ที่กำหนดเองได้Python SDK เต็มรูปแบบ เครื่องมือกำหนดเอง
เหมาะที่สุดสำหรับผู้ช่วย AI สำหรับท่องเว็บประจำวันไปป์ไลน์ scraping / ทดสอบอัตโนมัติ

WebBrain คือส่วนขยายเบราว์เซอร์สำหรับผู้ใช้ปลายทางที่ต้องการผู้ช่วย AI ขณะท่องเว็บ เฟรมเวิร์กเอเจนต์อย่าง OpenClaw คือเครื่องมือสำหรับนักพัฒนาในการสร้างไปป์ไลน์เบราว์เซอร์อัตโนมัติ เครื่องมือต่างกันสำหรับงานต่างกัน — และคุณสามารถใช้ทั้งสองอย่างได้

คำถามที่พบบ่อย

คำถามที่พบบ่อย

WebBrain เป็นทางเลือกฟรีของปลั๊กอินเบราว์เซอร์ของ Claude หรือเปล่า?

ใช่ WebBrain ให้ความสามารถของ AI browser agent ที่คล้ายกัน — อ่านหน้า สกัดข้อมูล คลิกปุ่ม กรอกฟอร์ม และทำให้เวิร์กโฟลว์หลายขั้นเป็นอัตโนมัติ ต่างจากปลั๊กอินเบราว์เซอร์ของ Claude ที่เป็นกรรมสิทธิ์ ซึ่งต้องใช้สมาชิก Claude Pro และทำงานเฉพาะกับโมเดลของ Anthropic เท่านั้น WebBrain ฟรีโดยสิ้นเชิง โอเพนซอร์ส (สัญญาอนุญาต MIT) และรองรับผู้ให้บริการ LLM หลายราย รวมถึงโมเดลภายในเครื่องที่ทำงานทั้งหมดบนเครื่องของคุณ

WebBrain เปรียบเทียบกับ OpenClaw, Browser-Use และเฟรมเวิร์กเอเจนต์ AI อื่น ๆ ได้อย่างไร?

เป็นเครื่องมือคนละหมวด WebBrain คือส่วนขยายเบราว์เซอร์ — คุณติดตั้งใน Chrome หรือ Firefox และสนทนากับมันในแถบด้านข้าง ไม่ต้องเขียนโค้ด ส่วนเฟรมเวิร์กอย่าง OpenClaw และ Browser-Use คือ SDK สำหรับนักพัฒนาเพื่อสร้างไปป์ไลน์เบราว์เซอร์อัตโนมัติด้วย Python โดยทั่วไปจะใช้เบราว์เซอร์แบบ headless และ CDP คิดอย่างนี้: WebBrain ใช้สำหรับท่องเว็บประจำวันคู่กับผู้ช่วย AI; เฟรมเวิร์กเอเจนต์ใช้สำหรับสร้างบอท scraping และระบบทดสอบอัตโนมัติ ใช้คู่กันได้ — เสริมกัน

ใช้ WebBrain แบบออฟไลน์ทั้งหมดได้ไหม?

ได้ ผู้ให้บริการเริ่มต้นของ WebBrain คือ llama.cpp ซึ่งรันโมเดล AI ในเครื่องคุณ ไม่ต้องใช้คีย์ API, AI ไม่ต้องใช้อินเทอร์เน็ต และข้อมูลก็ไม่ออกจากเครื่องคุณเลย เพียงดาวน์โหลดโมเดล GGUF เริ่ม llama-server แล้วคุณจะมี AI browser agent ที่เป็นส่วนตัวเต็มรูปแบบ คุณยังสามารถใช้ Ollama ผ่าน endpoint ที่เข้ากันได้กับ OpenAI ได้ด้วย

WebBrain รองรับโมเดล AI ใดบ้าง?

WebBrain รองรับผู้ให้บริการ 4 ประเภท: llama.cpp (โมเดล GGUF ภายในเครื่องใด ๆ), OpenAI (GPT-4o, GPT-4 ฯลฯ), Claude (Claude Opus, Sonnet, Haiku ผ่าน API ดั้งเดิม) และ OpenRouter (เข้าถึงโมเดลกว่า 100 โมเดลจากผู้ให้บริการต่าง ๆ) endpoint API ใด ๆ ที่เข้ากันได้กับ OpenAI ก็ใช้ได้ ดังนั้นคุณยังใช้บริการอย่าง Together AI, Groq, Mistral หรือเซิร์ฟเวอร์ภายในเครื่องใด ๆ ที่มีอินเทอร์เฟซเข้ากันได้กับ OpenAI ก็ได้

โมเดลที่แนะนำที่สุดคืออะไร?

21 เมษายน 2026 คำแนะนำอันดับหนึ่งคือ Qwen 3.6 35B เหตุผล: ในเบนช์มาร์กด้านการมองเห็นของเรา (vision-model-shootout) มันทำได้ดีกว่า Gemma 4 ในการเข้าใจภาพหน้าจอ ขณะที่ยังใช้งานจริงสำหรับการอินเฟอเรนซ์ภายในเครื่องได้

สำหรับ GPU ระดับผู้บริโภค RTX 5090 เหมาะที่สุด ส่วน RTX 4090 มักใช้งานได้ด้วยการควอนไทซ์ INT4 AutoRound ผ่าน Intel/Qwen3.6-35B-A3B-int4-AutoRound

เพื่อความเร็วสูงสุด เราแนะนำให้เซิร์ฟด้วย vLLM ตัวอย่างคำสั่ง:

python -u -m vllm.entrypoints.openai.api_server --model Intel/Qwen3.6-35B-A3B-int4-AutoRound --served-model-name qwen3.6-35b --quantization auto --dtype bfloat16 --max-model-len 65536 --max-num-batched-tokens 32768 --max-num-seqs 4 --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.92 --enable-prefix-caching --enable-chunked-prefill --limit-mm-per-prompt '{"image": 4, "video": 1}' --mm-processor-cache-type shm --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --trust-remote-code --allowed-origins '["*"]' --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' --attention-backend flash_attn

DFlash speculative decoding เป็นทางเลือก

เจอ “Failed to fetch” เมื่อเชื่อมต่อกับเซิร์ฟเวอร์ LLM ภายใน (vLLM, Ollama, llama.cpp) บนเครือข่ายของฉัน

หากเซิร์ฟเวอร์ LLM อยู่บนเครื่องอื่นในเครือข่ายภายในของคุณ (เช่น http://192.168.1.x:8000) Chrome จะบล็อกคำขอเว้นแต่เซิร์ฟเวอร์จะส่ง เฮดเดอร์ CORS วิธีแก้ขึ้นกับเซิร์ฟเวอร์ของคุณ:

vLLM: เริ่มด้วย --allowed-origins '["*"]' (ค่าต้องเป็นลิสต์ JSON)
Ollama: ตั้งตัวแปรสภาพแวดล้อม OLLAMA_ORIGINS=* ก่อนเริ่ม
llama.cpp: เปิด CORS เป็นค่าเริ่มต้น — ไม่ต้องเปลี่ยน

หากเซิร์ฟเวอร์ของคุณรันที่ localhost (เครื่องเดียวกับเบราว์เซอร์) ปกติไม่จำเป็นต้องใช้ CORS ปัญหานี้กระทบเฉพาะการเชื่อมต่อข้ามเครื่องบนเครือข่ายภายในเท่านั้น ตรวจสอบให้แน่ใจว่า base URL ในการตั้งค่าของ WebBrain ลงท้ายด้วย /v1 (เช่น http://192.168.1.47:8000/v1)

WebBrain ใช้งานบน Firefox ได้ไหม?

ได้ WebBrain มาพร้อมทั้งเวอร์ชัน Chrome (Manifest V3 ใช้ sidePanel API) และเวอร์ชัน Firefox (Manifest V2 ใช้ sidebar_action) ทั้งสองเวอร์ชันมีคุณสมบัติเหมือนกัน เวอร์ชัน Firefox สามารถโหลดเป็นแอดออนชั่วคราวเพื่อใช้พัฒนา หรือเผยแพร่ไปยัง addons.mozilla.org เพื่อการติดตั้งถาวรได้

ย้ายแถบด้านข้างของ Firefox จากซ้ายไปขวาแบบแถบด้านข้างของ Chrome ได้ไหม?

ได้ — แถบด้านข้างของ Firefox โดยปกติจะอยู่ทางซ้าย แต่คุณสามารถสลับได้ คลิกขวาที่ส่วนหัวของแถบด้านข้าง แล้วเลือก Move Sidebar to Right (หรือใช้ View → Sidebar → Move Sidebar to Right จากแถบเมนู) ตำแหน่งจะคงอยู่หลังจากรีสตาร์ท ส่วน sidePanel ของ Chrome โดยปกติอยู่ทางขวาและผู้ใช้ไม่สามารถย้ายจากตัวพาเนลเองได้

WebBrain ใช้งานปลอดภัยไหม? มันแก้ไขหน้าเว็บได้หรือเปล่า?

WebBrain มีสองโหมด: โหมดถาม (ค่าเริ่มต้น) เป็นอ่านอย่างเดียวและไม่สามารถแก้ไขอะไรบนหน้าได้ โหมดทำเปิดความสามารถของ browser agent เต็มรูปแบบ (คลิก พิมพ์ นำทาง) แต่ต้องได้รับการยืนยันจากผู้ใช้อย่างชัดเจนก่อนเปิดใช้งาน และมีแบนเนอร์เตือนที่มองเห็นได้ คุณสามารถหยุดเอเจนต์ได้ทุกเมื่อด้วยปุ่มหยุด ซอร์สโค้ดของส่วนขยายเปิดเผยเต็มที่บน GitHub เพื่อการตรวจสอบ

ใช้ WebBrain สำหรับ web scraping และการสกัดข้อมูลอย่างไร?

เพียงเปิดหน้าเว็บใด ๆ เปิดแถบด้านข้างของ WebBrain แล้วถามเป็นภาษาธรรมชาติ: "สกัดชื่อสินค้าและราคาทั้งหมดจากหน้านี้", "ดึงที่อยู่อีเมลทั้งหมดบนหน้านี้" หรือ "สรุปบทความนี้เป็นข้อ ๆ" AI agent จะอ่านเนื้อหาของหน้า เข้าใจโครงสร้าง และส่งข้อมูลที่สกัดได้กลับมา สำหรับ scraping ที่ซับซ้อนกว่านั้น สลับไปที่โหมดทำ เอเจนต์สามารถเดินทางข้ามหน้า กดปุ่มแบ่งหน้า และรวบรวมข้อมูลจากหลายหน้าได้

WebBrain เรียก API โดยตรง หรือคลิกผ่าน UI เสมอ?

โดยค่าเริ่มต้น WebBrain จะ ผ่าน UI ที่มองเห็นได้เสมอ สำหรับทุกการกระทำที่สร้าง แก้ไข ลบ ส่ง โพสต์ หรือซื้ออะไรก็ตาม มันจะเดินทางไปยังหน้า กรอกฟอร์ม และคลิกปุ่ม — แบบเดียวกับที่คุณจะทำ มันจะปฏิเสธการเรียก endpoint REST/GraphQL โดยตรงผ่าน fetch() ในพื้นหลังเพื่อทำการเปลี่ยนแปลง สิ่งนี้เป็นความตั้งใจ: การกระทำผ่าน API มองไม่เห็น (คุณไม่เห็นว่าส่งอะไรไป) มักต้องใช้โทเค็นยืนยันแยกที่คุณอาจยังไม่ได้ตั้งค่า และมีรัศมีผลกระทบที่กว้างกว่าการคลิกผิดที่มองเห็นได้ UI-first หมายถึงทุกอย่างปรากฏบนหน้าจอ ในเซสชันเบราว์เซอร์ปกติของคุณ และสามารถหยุดได้

สำหรับการ อ่าน ข้อมูล — ดึง README, ดู issue, เปรียบเทียบราคาระหว่างไซต์, ตรวจสอบหน้าแสดงสถานะ — WebBrain ใช้คำขอ HTTP พื้นหลังได้อย่างอิสระผ่านเครื่องมือ fetch_url และ research_url การอ่านไม่ใช่การกระทำ; ไม่เปลี่ยนอะไรในบริการระยะไกล จึงไม่มีข้อกังวลด้านความปลอดภัยแบบเดียวกัน

หากคุณต้องการอนุญาตให้แก้ไขผ่าน API สำหรับงานเฉพาะ พิมพ์ /allow-api ที่ต้นข้อความ (ตามด้วยคำอธิบายงานสั้น ๆ ก็ได้) การข้ามผ่านระดับการสนทนานี้ช่วยให้ WebBrain ถอยไปใช้ endpoint API เมื่อ UI ใช้งานไม่ได้จริง ๆ ในขณะที่ยังคงให้ความสำคัญกับ UI เมื่อ UI ใช้งานได้ ป้ายติดถาวรจะปรากฏเหนือพื้นที่ป้อนข้อความขณะที่การข้ามผ่านยังทำงานอยู่ และจะหายไปเมื่อคุณรีเซ็ตการสนทนา

ใช้ใน LM Studio ก็ได้เหมือนกันไหม?

ได้ เครื่องมือเครือข่ายแบบอ่านอย่างเดียวของ WebBrain — fetch_url และ research_url — มาในรูปของปลั๊กอิน LM Studio เดี่ยว ๆ ที่ webbrain/web-tools ติดตั้งด้วย lms clone webbrain/web-tools แล้วเปิดใช้ในแชต LM Studio ใดก็ได้ — โมเดลใด ๆ ที่รองรับการเรียกใช้เครื่องมือจะสามารถเรียกใช้สองเครื่องมือนี้ได้โดยไม่ต้องติดตั้งส่วนขยายเบราว์เซอร์ Node ล้วน ไม่ใช้เบราว์เซอร์ headless ซอร์ส: lmstudio-plugin/

ในขณะที่ WebBrain ทำงานในหน้าหนึ่ง ฉันสลับไปแท็บอื่นได้ไหม?

ได้ บน Chrome — เอเจนต์ทำงานใน service worker เบื้องหลัง และผูกกับแท็บที่มันเริ่มทำงาน จึงคลิก พิมพ์ และอ่านแท็บนั้นต่อไปแม้คุณจะย้ายโฟกัสไปที่อื่น เครื่องมือที่กำหนดเป้าหมายเป็นแท็บ (CDP click, type, navigate, screenshot) ใช้งานกับแท็บเบื้องหลังบน Chrome ได้ทั้งหมด แถบด้านข้างจะล็อกช่องป้อนข้อความขณะที่งานกำลังทำอยู่ เพื่อไม่ให้คุณเผลอเริ่มงานที่สองในแท็บใหม่ — คุณต้องรอหรือหยุดงานปัจจุบันก่อน หมายเหตุ: เบราว์เซอร์จะจำกัด timer และอนิเมชันบนแท็บเบื้องหลัง ดังนั้นเว็บไซต์ที่มีอนิเมชันมากอาจตอบสนองช้าลงเล็กน้อย

บน Firefox เอเจนต์ก็จะทำงานต่อบนแท็บเดิม แต่ภาพหน้าจออัตโนมัติมีข้อจำกัด: API ภาพหน้าจอของ Firefox จับได้แค่แท็บที่ใช้งานอยู่ปัจจุบัน ไม่สามารถจับแท็บเฉพาะที่อยู่เบื้องหลังได้ WebBrain ตรวจจับสิ่งนี้และข้ามการถ่ายภาพหน้าจอในเทิร์นนั้น แทนที่จะป้อนภาพของหน้าที่ไม่เกี่ยวข้องให้กับโมเดล เอเจนต์จะวางแผนต่อจากบริบทแบบข้อความจนกว่าคุณจะสลับกลับไปยังแท็บของมัน

หลีกเลี่ยงการคลิกหรือพิมพ์ในแท็บเดียวกับที่เอเจนต์กำลังทำงาน — สิ่งนี้สร้างสภาวะแข่งขัน ที่คุณกับเอเจนต์แย่งกันใช้หน้าเดียวกัน การสลับแท็บไม่เป็นไร แต่ขับพร้อมกันในแท็บเดียวกันนั้นไม่

การกรอกโปรไฟล์อัตโนมัติทำงานอย่างไร และปลอดภัยไหม?

การกรอกโปรไฟล์อัตโนมัติเป็นคุณสมบัติเลือกได้ใน การตั้งค่า → โปรไฟล์ คุณกรอกประวัติย่อ — ชื่อ อีเมลที่ทำงาน บริษัท และรหัสผ่าน ใช้แล้วทิ้ง สำหรับการสมัครเสี่ยงต่ำ — แล้วเปิดใช้งาน เมื่อเปิดใช้ WebBrain จะเพิ่มข้อความนั้นต่อท้าย system prompt ของเอเจนต์ เพื่อให้มันกรอกฟอร์มสมัครได้โดยไม่ต้องถามทุกครั้ง

ข้อความถูกเก็บ เป็นข้อความธรรมดา ใน local storage ของเบราว์เซอร์ มัน จะไม่ ถูกส่งไปยังโปรเจกต์ WebBrain แต่ จะถูกส่ง ไปยังผู้ให้บริการ LLM ที่คุณตั้งค่าไว้ในทุกเทิร์น ในฐานะส่วนหนึ่งของ system prompt ปิดเป็นค่าเริ่มต้น

อย่าใส่รหัสผ่านของบัญชีสำคัญ ที่นี่ (Google, Apple, iCloud, ธนาคาร, SSO ที่ทำงาน, อีเมลหลัก) บัญชีเหล่านั้นควรใช้ 2FA และไม่ควรมอบให้เอเจนต์อยู่แล้ว กรณีใช้งานที่ตั้งใจคือรหัสผ่านใช้แล้วทิ้งที่คุณใช้ซ้ำสำหรับการสมัครจดหมายข่าวและการทดลองใช้ฟรี

WebBrain ทำอย่างไรกับแบนเนอร์ Cookie และ paywall?

แบนเนอร์ Cookie: WebBrain รู้จักแบนเนอร์ยินยอมจากเฟรมเวิร์กที่พบทั่วไป (OneTrust, Cookiebot, Didomi, Quantcast, Google Funding Choices, TrustArc) และปิดมันก่อนวิเคราะห์หน้า ลำดับความสำคัญคือ "ปฏิเสธทั้งหมด" / "ปฏิเสธที่ไม่จำเป็น" / "เฉพาะจำเป็น" เมื่อมองเห็นชัดเจน หากไม่เห็นจะกลับไปใช้ "ยอมรับทั้งหมด" แทนที่จะหลงทางในเขาวงกต "จัดการการตั้งค่า"

Paywall: WebBrain รายงาน paywall อย่างตรงไปตรงมาและบอกคุณว่ามองเห็นอะไรจริง ๆ (พาดหัว สาระสั้น ๆ ย่อหน้าแรก) มัน ไม่ พยายามผ่าน paywall — ไม่มี archive.today, 12ft.io, การล้าง Cookie, การปิด JS หรือเล่ห์ของโหมดผู้อ่าน หากต้องการบทความเต็ม ให้เข้าสู่ระบบด้วยสมาชิก หรือขอให้ WebBrain หาแหล่งฟรีของเรื่องเดียวกัน

WebBrain รองรับโหมด dry-run หรือไม่?

7.0.0 ยังไม่รองรับ โหมด dry-run มีแผนแล้วและอยู่ในแผนงาน

WebBrain ควบคุมบิล LLM บนคลาวด์อย่างไร?

มีสามชั้นที่เป็นอิสระต่อกัน:

ภาพหน้าจอประหยัดโทเค็น ก่อนรูปจะออกจากเครื่องของคุณ WebBrain ปรับขนาด (จำกัดด้านที่สั้นกว่า โดยรักษาสัดส่วน) และบีบอัด JPEG ซ้ำ ๆ จนกระทั่งพอดีกับงบโทเค็นรูปต่อเทิร์น ภาพหน้าจอ 2000×1200 ที่จะใช้โทเค็นอินพุตประมาณ 1,500 บน GPT-4o จะถูกบีบลงเหลือ ~300–500 โทเค็น โดยไม่มีความสูญเสียในทางปฏิบัติสำหรับงานอ่านหน้า ใช้งานอยู่ใน _fitImageDimensions พร้อมยูนิตเทสต์สำหรับคณิตศาสตร์ของงบ

การตัด context อัจฉริยะ ประวัติการสนทนา เอาต์พุตของเครื่องมือ และดัมป์ DOM แบบฝังในแต่ละเทิร์นล้วนมีขีดจำกัด และจะถูกตัดจากเก่าที่สุดก่อนเมื่อหน้าต่าง context ของโมเดลที่ใช้งานอยู่ใกล้เต็ม คุณจะไม่เห็นการรันบวมขึ้นเงียบ ๆ จาก 10k โทเค็นเป็น 100k เพราะ read_page คืนบทความยาวขนาดนวนิยาย

โมเดลด้านการมองเห็นโดยเฉพาะ จับคู่โมเดลข้อความราคาถูก (เช่น GPT-4o-mini) สำหรับการวางแผนและเรียกใช้เครื่องมือ กับโมเดลที่รองรับการมองเห็นแยก (เช่น GPT-4o) เฉพาะภาพหน้าจอ คุณจะได้ไม่ต้องจ่ายราคาของโมเดลมัลติโมดัลในทุกเทิร์น ตั้งค่าได้ที่ การตั้งค่า → การมองเห็น

ผลลัพธ์สุดท้าย: เซสชันยาว ๆ กับผู้ให้บริการคลาวด์ยังคาดเดาได้ หากต้องการการควบคุมเต็มที่ ใช้ llama.cpp ภายในเครื่อง — ต้นทุนต่อโทเค็นเป็นศูนย์

ฉันสามารถมีส่วนร่วมกับ WebBrain ได้ไหม?

ได้สิ! WebBrain ใช้สัญญาอนุญาต MIT และยินดีรับการมีส่วนร่วม ดู รีโพ GitHub สำหรับ issue คำขอคุณสมบัติ และแนวทางการมีส่วนร่วม

ส่งต่อ แชร์ความรัก

WebBrain อยู่ภายใต้สัญญาอนุญาต MIT และทำงานทั้งหมดในเบราว์เซอร์ของคุณ หากมีประโยชน์ ให้ดาวเราหรือแชร์ — นั่นคือวิธีที่โปรเจกต์โอเพนซอร์สอิสระจะถูกค้นพบ