Salta ai contenuti

f5xc-firecrawl

Il plugin f5xc-firecrawl fornisce web scraping self-hosted in locale tramite il motore open-source firecrawl. Nessuna chiave API, nessun abbonamento, nessuna dipendenza cloud. Tutte le operazioni vengono eseguite sull’istanza firecrawl locale su localhost:3002 all’interno del devcontainer.

v1.1.0 Productivity
/plugin install f5xc-firecrawl@f5-sales-demo-marketplace

Esegue lo scraping di un singolo URL ed estrae il contenuto come markdown.

/scrape https://docs.example.com/getting-started
/scrape https://example.com --format markdown,links --wait 2000

Esegue lo scraping di più URL contemporaneamente.

/batch-scrape https://example.com https://example.org https://example.net

Esegue il crawling di più pagine a partire da un URL iniziale.

/crawl https://docs.example.com --limit 20 --depth 2
/crawl https://docs.example.com --include /api/* --exclude /blog/*

Individua tutti gli URL di un sito web.

/map https://docs.example.com
/map https://docs.example.com --search api --subdomains

Esegue ricerche sul web con opzione di scraping dei risultati.

/search "firecrawl web scraping" --limit 10
/search "AI tools 2026" --scrape --time month

Estrazione di dati strutturati dalle pagine web tramite LLM.

/extract https://example.com "Extract the main heading and any links"
/extract https://example.com/pricing --schema '{"plans": [{"name": "string", "price": "string"}]}'

Genera un file llms.txt per un sito.

/llmstxt https://docs.example.com

Si attiva automaticamente quando si richiede lo scraping di un URL, il crawling di un sito web, la mappatura degli URL del sito, la ricerca sul web, l’estrazione di dati strutturati, la generazione di llms.txt, lo scraping batch di più URL o la conversione di una pagina web in markdown. Delega immediatamente all’agente firecrawl-operator.

Agente autonomo di web scraping che esegue sequenze curl + jq contro l’API firecrawl locale. Supporta 11 protocolli che coprono tutti gli endpoint v1. Agente di sola lettura (nessuno strumento di scrittura, modifica o agente).

ProtocolloEndpointTipo
HEALTHGET /Sync
SCRAPEPOST /v1/scrapeSync
BATCH_SCRAPEPOST /v1/batch/scrapeAsync
CRAWLPOST /v1/crawlAsync
CRAWL_CANCELDELETE /v1/crawl/:idSync
CRAWL_ACTIVEGET /v1/crawl/activeSync
CRAWL_ERRORSGET /v1/crawl/:id/errorsSync
MAPPOST /v1/mapSync
SEARCHPOST /v1/searchSync
EXTRACTPOST /v1/extractAsync
LLMSTXTPOST /v1/llmstxtAsync

Il plugin richiede lo stack firecrawl in esecuzione nel devcontainer:

ComponentePortaScopo
Firecrawl API3002Tutti gli endpoint scrape/crawl/map/search/extract
Playwright3000Motore di rendering JavaScript
Redis6379Backend della coda dei job
PostgreSQLsocketPersistenza dei job crawl/batch
LiteLLM proxyOPENAI_BASE_URLBackend LLM per extract (opzionale)

Lo stack si avvia automaticamente quando ENABLE_FIRECRAWL=true (impostazione predefinita). Un hook SessionStart verifica che l’API sia raggiungibile e avvisa se il servizio non è disponibile.

Questo plugin utilizza la versione open-source self-hosted:

  • Nessuna autenticazione o chiave API richiesta per lo scraping
  • Nessun limite di crediti o rate limiting
  • Utilizza gli endpoint API v1 (non v2)
  • Sessioni browser e ricerca approfondita non disponibili
  • Extract utilizza il proprio proxy LLM invece dei modelli ospitati
  • Funziona interamente all’interno della rete del container locale