f5xc-firecrawl

Il plugin f5xc-firecrawl fornisce web scraping self-hosted in locale tramite il motore open-source firecrawl. Nessuna chiave API, nessun abbonamento, nessuna dipendenza cloud. Tutte le operazioni vengono eseguite sull’istanza firecrawl locale su localhost:3002 all’interno del devcontainer.

v1.1.0 Productivity

Installazione

/plugin install f5xc-firecrawl@f5-sales-demo-marketplace

Comandi

/scrape

Esegue lo scraping di un singolo URL ed estrae il contenuto come markdown.

/scrape https://docs.example.com/getting-started
/scrape https://example.com --format markdown,links --wait 2000

/batch-scrape

Esegue lo scraping di più URL contemporaneamente.

/batch-scrape https://example.com https://example.org https://example.net

/crawl

Esegue il crawling di più pagine a partire da un URL iniziale.

/crawl https://docs.example.com --limit 20 --depth 2
/crawl https://docs.example.com --include /api/* --exclude /blog/*

/map

Individua tutti gli URL di un sito web.

/map https://docs.example.com
/map https://docs.example.com --search api --subdomains

/search

Esegue ricerche sul web con opzione di scraping dei risultati.

/search "firecrawl web scraping" --limit 10
/search "AI tools 2026" --scrape --time month

/extract

Estrazione di dati strutturati dalle pagine web tramite LLM.

/extract https://example.com "Extract the main heading and any links"
/extract https://example.com/pricing --schema '{"plans": [{"name": "string", "price": "string"}]}'

/llmstxt

Genera un file llms.txt per un sito.

/llmstxt https://docs.example.com

Skill

web-scraper

Si attiva automaticamente quando si richiede lo scraping di un URL, il crawling di un sito web, la mappatura degli URL del sito, la ricerca sul web, l’estrazione di dati strutturati, la generazione di llms.txt, lo scraping batch di più URL o la conversione di una pagina web in markdown. Delega immediatamente all’agente firecrawl-operator.

Agenti

firecrawl-operator

Agente autonomo di web scraping che esegue sequenze curl + jq contro l’API firecrawl locale. Supporta 11 protocolli che coprono tutti gli endpoint v1. Agente di sola lettura (nessuno strumento di scrittura, modifica o agente).

Protocollo	Endpoint	Tipo
HEALTH	`GET /`	Sync
SCRAPE	`POST /v1/scrape`	Sync
BATCH_SCRAPE	`POST /v1/batch/scrape`	Async
CRAWL	`POST /v1/crawl`	Async
CRAWL_CANCEL	`DELETE /v1/crawl/:id`	Sync
CRAWL_ACTIVE	`GET /v1/crawl/active`	Sync
CRAWL_ERRORS	`GET /v1/crawl/:id/errors`	Sync
MAP	`POST /v1/map`	Sync
SEARCH	`POST /v1/search`	Sync
EXTRACT	`POST /v1/extract`	Async
LLMSTXT	`POST /v1/llmstxt`	Async

Infrastruttura

Il plugin richiede lo stack firecrawl in esecuzione nel devcontainer:

Componente	Porta	Scopo
Firecrawl API	3002	Tutti gli endpoint scrape/crawl/map/search/extract
Playwright	3000	Motore di rendering JavaScript
Redis	6379	Backend della coda dei job
PostgreSQL	socket	Persistenza dei job crawl/batch
LiteLLM proxy	OPENAI_BASE_URL	Backend LLM per extract (opzionale)

Lo stack si avvia automaticamente quando ENABLE_FIRECRAWL=true (impostazione predefinita). Un hook SessionStart verifica che l’API sia raggiungibile e avvisa se il servizio non è disponibile.

Differenze rispetto a Cloud Firecrawl

Questo plugin utilizza la versione open-source self-hosted:

Nessuna autenticazione o chiave API richiesta per lo scraping
Nessun limite di crediti o rate limiting
Utilizza gli endpoint API v1 (non v2)
Sessioni browser e ricerca approfondita non disponibili
Extract utilizza il proprio proxy LLM invece dei modelli ospitati
Funziona interamente all’interno della rete del container locale