f5xc-firecrawl

ปลั๊กอิน f5xc-firecrawl ให้บริการขูดข้อมูลเว็บแบบโฮสต์ด้วยตนเองในเครื่อง ผ่านเอนจิน firecrawl โอเพนซอร์ส ไม่ต้องใช้คีย์ API ไม่ต้องสมัครสมาชิก ไม่พึ่งพาคลาวด์ การดำเนินการทั้งหมด ทำงานกับอินสแตนซ์ firecrawl ในเครื่องที่ localhost:3002 ภายใน devcontainer

v1.1.0 Productivity

การติดตั้ง

/plugin install f5xc-firecrawl@f5-sales-demo-marketplace

คำสั่ง

/scrape

ขูดข้อมูลจาก URL เดียวและแยกเนื้อหาเป็น markdown

/scrape https://docs.example.com/getting-started
/scrape https://example.com --format markdown,links --wait 2000

/batch-scrape

ขูดข้อมูลจากหลาย URL พร้อมกัน

/batch-scrape https://example.com https://example.org https://example.net

/crawl

รวบรวมข้อมูลจากหลายหน้าโดยเริ่มจาก URL ที่กำหนด

/crawl https://docs.example.com --limit 20 --depth 2
/crawl https://docs.example.com --include /api/* --exclude /blog/*

/map

ค้นหา URL ทั้งหมดในเว็บไซต์

/map https://docs.example.com
/map https://docs.example.com --search api --subdomains

/search

ค้นหาเว็บและเลือกขูดข้อมูลผลลัพธ์

/search "firecrawl web scraping" --limit 10
/search "AI tools 2026" --scrape --time month

/extract

การดึงข้อมูลโครงสร้างจากหน้าเว็บด้วย LLM

/extract https://example.com "Extract the main heading and any links"
/extract https://example.com/pricing --schema '{"plans": [{"name": "string", "price": "string"}]}'

/llmstxt

สร้างไฟล์ llms.txt สำหรับเว็บไซต์

/llmstxt https://docs.example.com

ทักษะ

web-scraper

เปิดใช้งานอัตโนมัติเมื่อคุณขอขูดข้อมูลจาก URL รวบรวมข้อมูลเว็บไซต์ แมป URL ของเว็บไซต์ ค้นหาเว็บ ดึงข้อมูลโครงสร้าง สร้าง llms.txt ขูดข้อมูลหลาย URL พร้อมกัน หรือแปลงหน้าเว็บเป็น markdown โดยมอบหมายงานให้เอเจนต์ firecrawl-operator ทันที

เอเจนต์

firecrawl-operator

เอเจนต์ขูดข้อมูลเว็บอัตโนมัติที่ดำเนินการลำดับ curl + jq กับ firecrawl API ในเครื่อง รองรับ 11 โปรโตคอลครอบคลุม endpoint ทั้งหมดของ v1 เป็นเอเจนต์แบบอ่านอย่างเดียว (ไม่มีเครื่องมือ Write, Edit หรือ Agent)

โปรโตคอล	Endpoint	ประเภท
HEALTH	`GET /`	Sync
SCRAPE	`POST /v1/scrape`	Sync
BATCH_SCRAPE	`POST /v1/batch/scrape`	Async
CRAWL	`POST /v1/crawl`	Async
CRAWL_CANCEL	`DELETE /v1/crawl/:id`	Sync
CRAWL_ACTIVE	`GET /v1/crawl/active`	Sync
CRAWL_ERRORS	`GET /v1/crawl/:id/errors`	Sync
MAP	`POST /v1/map`	Sync
SEARCH	`POST /v1/search`	Sync
EXTRACT	`POST /v1/extract`	Async
LLMSTXT	`POST /v1/llmstxt`	Async

โครงสร้างพื้นฐาน

ปลั๊กอินต้องการสแตก firecrawl ที่ทำงานอยู่ใน devcontainer:

ส่วนประกอบ	พอร์ต	วัตถุประสงค์
Firecrawl API	3002	endpoint ทั้งหมดสำหรับ scrape/crawl/map/search/extract
Playwright	3000	เอนจินเรนเดอร์ JavaScript
Redis	6379	แบ็กเอนด์คิวงาน
PostgreSQL	socket	การคงอยู่ของงาน Crawl/batch
LiteLLM proxy	OPENAI_BASE_URL	แบ็กเอนด์ LLM สำหรับ extract (ไม่บังคับ)

สแตกเริ่มต้นโดยอัตโนมัติเมื่อ ENABLE_FIRECRAWL=true (ค่าเริ่มต้น) SessionStart hook ตรวจสอบว่า API สามารถเข้าถึงได้และแจ้งเตือนหากบริการหยุดทำงาน

ความแตกต่างจาก Cloud Firecrawl

ปลั๊กอินนี้ใช้เวอร์ชันโอเพนซอร์สแบบโฮสต์ด้วยตนเอง:

ไม่ต้องการการยืนยันตัวตนหรือคีย์ API สำหรับการขูดข้อมูล
ไม่มีข้อจำกัดด้านเครดิตหรือการจำกัดอัตรา
ใช้ endpoint API v1 (ไม่ใช่ v2)
ไม่รองรับ browser sessions และการค้นคว้าเชิงลึก
Extract ใช้ LLM proxy ของคุณเองแทนโมเดลที่โฮสต์บนคลาวด์
ทำงานทั้งหมดภายในเครือข่ายคอนเทนเนอร์ในเครื่อง