f5xc-firecrawl
f5xc-firecrawl 插件通过开源 firecrawl 引擎提供本地自托管网页抓取功能。无需 API 密钥,无需订阅,无需云端依赖。所有操作均在 devcontainer 内的本地 firecrawl 实例(localhost:3002)上运行。
/plugin install f5xc-firecrawl@f5-sales-demo-marketplace/scrape
Section titled “/scrape”抓取单个 URL 并将内容提取为 Markdown 格式。
/scrape https://docs.example.com/getting-started/scrape https://example.com --format markdown,links --wait 2000/batch-scrape
Section titled “/batch-scrape”同时抓取多个 URL。
/batch-scrape https://example.com https://example.org https://example.net/crawl
Section titled “/crawl”从起始 URL 开始爬取多个页面。
/crawl https://docs.example.com --limit 20 --depth 2/crawl https://docs.example.com --include /api/* --exclude /blog/*发现网站上的所有 URL。
/map https://docs.example.com/map https://docs.example.com --search api --subdomains/search
Section titled “/search”搜索网页并可选择性地抓取结果。
/search "firecrawl web scraping" --limit 10/search "AI tools 2026" --scrape --time month/extract
Section titled “/extract”基于 LLM 的网页结构化数据提取。
/extract https://example.com "Extract the main heading and any links"/extract https://example.com/pricing --schema '{"plans": [{"name": "string", "price": "string"}]}'/llmstxt
Section titled “/llmstxt”为网站生成 llms.txt 文件。
/llmstxt https://docs.example.comweb-scraper
Section titled “web-scraper”当您请求抓取 URL、爬取网站、映射站点 URL、搜索网页、提取结构化数据、生成 llms.txt、批量抓取多个 URL 或将网页转换为 Markdown 时自动激活。立即委托给 firecrawl-operator 代理执行。
firecrawl-operator
Section titled “firecrawl-operator”自主网页抓取代理,针对本地 firecrawl API 执行 curl + jq 命令序列。支持涵盖所有 v1 端点的 11 种协议。只读代理(不具备 Write、Edit 或 Agent 工具权限)。
| 协议 | 端点 | 类型 |
|---|---|---|
| HEALTH | GET / | 同步 |
| SCRAPE | POST /v1/scrape | 同步 |
| BATCH_SCRAPE | POST /v1/batch/scrape | 异步 |
| CRAWL | POST /v1/crawl | 异步 |
| CRAWL_CANCEL | DELETE /v1/crawl/:id | 同步 |
| CRAWL_ACTIVE | GET /v1/crawl/active | 同步 |
| CRAWL_ERRORS | GET /v1/crawl/:id/errors | 同步 |
| MAP | POST /v1/map | 同步 |
| SEARCH | POST /v1/search | 同步 |
| EXTRACT | POST /v1/extract | 异步 |
| LLMSTXT | POST /v1/llmstxt | 异步 |
该插件需要在 devcontainer 中运行 firecrawl 技术栈:
| 组件 | 端口 | 用途 |
|---|---|---|
| Firecrawl API | 3002 | 所有抓取/爬取/映射/搜索/提取端点 |
| Playwright | 3000 | JavaScript 渲染引擎 |
| Redis | 6379 | 任务队列后端 |
| PostgreSQL | socket | 爬取/批量任务持久化 |
| LiteLLM proxy | OPENAI_BASE_URL | 用于 extract 的 LLM 后端(可选) |
当 ENABLE_FIRECRAWL=true(默认值)时,技术栈自动启动。SessionStart 钩子会检查 API 是否可访问,并在服务不可用时发出警告。
与云端 Firecrawl 的区别
Section titled “与云端 Firecrawl 的区别”本插件使用自托管开源版本:
- 抓取无需身份验证或 API 密钥
- 无积分限制或速率限制
- 使用 v1 API 端点(非 v2)
- 不支持浏览器会话和深度研究功能
- extract 使用您自己的 LLM 代理,而非托管模型
- 完全在本地容器网络内运行