Aller au contenu

f5xc-firecrawl

Le plugin f5xc-firecrawl fournit une extraction web auto-hébergée en local via le moteur open-source firecrawl. Aucune clé API, aucun abonnement, aucune dépendance au cloud. Toutes les opérations s’exécutent contre l’instance firecrawl locale sur localhost:3002 à l’intérieur du conteneur de développement.

v1.1.0 Productivity
/plugin install f5xc-firecrawl@f5-sales-demo-marketplace

Extraire le contenu d’une seule URL au format markdown.

/scrape https://docs.example.com/getting-started
/scrape https://example.com --format markdown,links --wait 2000

Extraire le contenu de plusieurs URLs simultanément.

/batch-scrape https://example.com https://example.org https://example.net

Explorer plusieurs pages à partir d’une URL de départ.

/crawl https://docs.example.com --limit 20 --depth 2
/crawl https://docs.example.com --include /api/* --exclude /blog/*

Découvrir toutes les URLs d’un site web.

/map https://docs.example.com
/map https://docs.example.com --search api --subdomains

Effectuer une recherche web et extraire optionnellement les résultats.

/search "firecrawl web scraping" --limit 10
/search "AI tools 2026" --scrape --time month

Extraction de données structurées à partir de pages web, alimentée par un LLM.

/extract https://example.com "Extract the main heading and any links"
/extract https://example.com/pricing --schema '{"plans": [{"name": "string", "price": "string"}]}'

Générer un fichier llms.txt pour un site.

/llmstxt https://docs.example.com

S’active automatiquement lorsque vous demandez à extraire une URL, explorer un site web, cartographier les URLs d’un site, effectuer une recherche web, extraire des données structurées, générer un fichier llms.txt, extraire plusieurs URLs en lot, ou convertir une page web en markdown. Délègue immédiatement à l’agent firecrawl-operator.

Agent d’extraction web autonome qui exécute des séquences curl + jq contre l’API firecrawl locale. Prend en charge 11 protocoles couvrant tous les points de terminaison v1. Agent en lecture seule (aucun outil d’écriture, d’édition ou d’agent).

ProtocolePoint de terminaisonType
HEALTHGET /Sync
SCRAPEPOST /v1/scrapeSync
BATCH_SCRAPEPOST /v1/batch/scrapeAsync
CRAWLPOST /v1/crawlAsync
CRAWL_CANCELDELETE /v1/crawl/:idSync
CRAWL_ACTIVEGET /v1/crawl/activeSync
CRAWL_ERRORSGET /v1/crawl/:id/errorsSync
MAPPOST /v1/mapSync
SEARCHPOST /v1/searchSync
EXTRACTPOST /v1/extractAsync
LLMSTXTPOST /v1/llmstxtAsync

Le plugin nécessite que la pile firecrawl soit en cours d’exécution dans le conteneur de développement :

ComposantPortFonction
Firecrawl API3002Tous les points de terminaison scrape/crawl/map/search/extract
Playwright3000Moteur de rendu JavaScript
Redis6379Backend de file d’attente des tâches
PostgreSQLsocketPersistance des tâches crawl/batch
LiteLLM proxyOPENAI_BASE_URLBackend LLM pour extract (optionnel)

La pile démarre automatiquement lorsque ENABLE_FIRECRAWL=true (valeur par défaut). Un hook SessionStart vérifie que l’API est accessible et avertit si le service est indisponible.

Ce plugin utilise la version open-source auto-hébergée :

  • Aucune authentification ni clé API requise pour l’extraction
  • Aucune limite de crédits ni limitation du débit
  • Utilise les points de terminaison de l’API v1 (pas v2)
  • Les sessions de navigateur et la recherche approfondie ne sont pas disponibles
  • Extract utilise votre propre proxy LLM au lieu des modèles hébergés
  • S’exécute entièrement au sein du réseau du conteneur local