f5xc-firecrawl
f5xc-firecrawl 外掛程式透過開源 firecrawl 引擎提供本地自託管網頁擷取功能。無需 API 金鑰、無需訂閱、無雲端依賴。所有操作均在開發容器內 localhost:3002 上的本地 firecrawl 執行個體中運行。
/plugin install f5xc-firecrawl@f5-sales-demo-marketplace/scrape
Section titled “/scrape”擷取單一 URL 並將內容提取為 Markdown 格式。
/scrape https://docs.example.com/getting-started/scrape https://example.com --format markdown,links --wait 2000/batch-scrape
Section titled “/batch-scrape”一次擷取多個 URL。
/batch-scrape https://example.com https://example.org https://example.net/crawl
Section titled “/crawl”從起始 URL 爬取多個頁面。
/crawl https://docs.example.com --limit 20 --depth 2/crawl https://docs.example.com --include /api/* --exclude /blog/*探索網站上的所有 URL。
/map https://docs.example.com/map https://docs.example.com --search api --subdomains/search
Section titled “/search”搜尋網路並可選擇性地擷取搜尋結果。
/search "firecrawl web scraping" --limit 10/search "AI tools 2026" --scrape --time month/extract
Section titled “/extract”以 LLM 驅動從網頁提取結構化資料。
/extract https://example.com "Extract the main heading and any links"/extract https://example.com/pricing --schema '{"plans": [{"name": "string", "price": "string"}]}'/llmstxt
Section titled “/llmstxt”為網站產生 llms.txt 檔案。
/llmstxt https://docs.example.comweb-scraper
Section titled “web-scraper”當您請求擷取 URL、爬取網站、映射網站 URL、搜尋網路、提取結構化資料、產生 llms.txt、批次擷取多個 URL 或將網頁轉換為 Markdown 時自動啟用。立即委派給 firecrawl-operator 代理。
firecrawl-operator
Section titled “firecrawl-operator”自主網頁擷取代理,針對本地 firecrawl API 執行 curl + jq 序列。支援涵蓋所有 v1 端點的 11 種協定。唯讀代理(無寫入、編輯或代理工具)。
| 協定 | 端點 | 類型 |
|---|---|---|
| HEALTH | GET / | 同步 |
| SCRAPE | POST /v1/scrape | 同步 |
| BATCH_SCRAPE | POST /v1/batch/scrape | 非同步 |
| CRAWL | POST /v1/crawl | 非同步 |
| CRAWL_CANCEL | DELETE /v1/crawl/:id | 同步 |
| CRAWL_ACTIVE | GET /v1/crawl/active | 同步 |
| CRAWL_ERRORS | GET /v1/crawl/:id/errors | 同步 |
| MAP | POST /v1/map | 同步 |
| SEARCH | POST /v1/search | 同步 |
| EXTRACT | POST /v1/extract | 非同步 |
| LLMSTXT | POST /v1/llmstxt | 非同步 |
此外掛程式需要在開發容器中運行的 firecrawl 堆疊:
| 元件 | 連接埠 | 用途 |
|---|---|---|
| Firecrawl API | 3002 | 所有擷取/爬取/映射/搜尋/提取端點 |
| Playwright | 3000 | JavaScript 渲染引擎 |
| Redis | 6379 | 工作佇列後端 |
| PostgreSQL | socket | 爬取/批次工作持久化 |
| LiteLLM proxy | OPENAI_BASE_URL | 用於提取的 LLM 後端(選用) |
當 ENABLE_FIRECRAWL=true(預設值)時,堆疊會自動啟動。SessionStart 鉤子會檢查 API 是否可連線,並在服務中斷時發出警告。
與雲端 Firecrawl 的差異
Section titled “與雲端 Firecrawl 的差異”此外掛程式使用自託管開源版本:
- 擷取無需驗證或 API 金鑰
- 無點數限制或速率限制
- 使用 v1 API 端點(非 v2)
- 不支援瀏覽器工作階段與深度研究
- 提取功能使用您自己的 LLM 代理,而非託管模型
- 完全在本地容器網路內運行