Ir al contenido

f5xc-firecrawl

El plugin f5xc-firecrawl proporciona raspado web local autohospedado mediante el motor de código abierto firecrawl. Sin claves de API, sin suscripciones, sin dependencia en la nube. Todas las operaciones se ejecutan contra la instancia local de firecrawl en localhost:3002 dentro del contenedor de desarrollo.

v1.1.0 Productivity
/plugin install f5xc-firecrawl@f5-sales-demo-marketplace

Raspar una única URL y extraer el contenido como markdown.

/scrape https://docs.example.com/getting-started
/scrape https://example.com --format markdown,links --wait 2000

Raspar múltiples URLs a la vez.

/batch-scrape https://example.com https://example.org https://example.net

Rastrear múltiples páginas desde una URL de inicio.

/crawl https://docs.example.com --limit 20 --depth 2
/crawl https://docs.example.com --include /api/* --exclude /blog/*

Descubrir todas las URLs de un sitio web.

/map https://docs.example.com
/map https://docs.example.com --search api --subdomains

Buscar en la web y, opcionalmente, raspar los resultados.

/search "firecrawl web scraping" --limit 10
/search "AI tools 2026" --scrape --time month

Extracción de datos estructurados mediante LLM desde páginas web.

/extract https://example.com "Extract the main heading and any links"
/extract https://example.com/pricing --schema '{"plans": [{"name": "string", "price": "string"}]}'

Generar un archivo llms.txt para un sitio.

/llmstxt https://docs.example.com

Se activa automáticamente cuando se solicita raspar una URL, rastrear un sitio web, mapear URLs del sitio, buscar en la web, extraer datos estructurados, generar llms.txt, raspar múltiples URLs en lote, o convertir una página web a markdown. Delega inmediatamente al agente firecrawl-operator.

Agente autónomo de raspado web que ejecuta secuencias de curl + jq contra la API local de firecrawl. Admite 11 protocolos que cubren todos los endpoints de la v1. Agente de solo lectura (sin herramientas de escritura, edición o agente).

ProtocoloEndpointTipo
HEALTHGET /Sync
SCRAPEPOST /v1/scrapeSync
BATCH_SCRAPEPOST /v1/batch/scrapeAsync
CRAWLPOST /v1/crawlAsync
CRAWL_CANCELDELETE /v1/crawl/:idSync
CRAWL_ACTIVEGET /v1/crawl/activeSync
CRAWL_ERRORSGET /v1/crawl/:id/errorsSync
MAPPOST /v1/mapSync
SEARCHPOST /v1/searchSync
EXTRACTPOST /v1/extractAsync
LLMSTXTPOST /v1/llmstxtAsync

El plugin requiere que el stack de firecrawl esté en ejecución dentro del contenedor de desarrollo:

ComponentePuertoPropósito
Firecrawl API3002Todos los endpoints de scrape/crawl/map/search/extract
Playwright3000Motor de renderizado de JavaScript
Redis6379Backend de cola de trabajos
PostgreSQLsocketPersistencia de trabajos de crawl/batch
LiteLLM proxyOPENAI_BASE_URLBackend LLM para extract (opcional)

El stack se inicia automáticamente cuando ENABLE_FIRECRAWL=true (el valor predeterminado). Un hook SessionStart verifica que la API sea accesible y advierte si el servicio no está disponible.

Este plugin utiliza la versión autohospedada de código abierto:

  • No se requiere autenticación ni claves de API para el raspado
  • Sin límites de créditos ni limitación de velocidad
  • Utiliza endpoints de API v1 (no v2)
  • Las sesiones de navegador y la investigación profunda no están disponibles
  • Extract utiliza su propio proxy LLM en lugar de modelos hospedados
  • Se ejecuta completamente dentro de la red del contenedor local