f5xc-firecrawl

El plugin f5xc-firecrawl proporciona raspado web local autohospedado mediante el motor de código abierto firecrawl. Sin claves de API, sin suscripciones, sin dependencia en la nube. Todas las operaciones se ejecutan contra la instancia local de firecrawl en localhost:3002 dentro del contenedor de desarrollo.

v1.1.0 Productivity

Instalación

/plugin install f5xc-firecrawl@f5-sales-demo-marketplace

Comandos

/scrape

Raspar una única URL y extraer el contenido como markdown.

/scrape https://docs.example.com/getting-started
/scrape https://example.com --format markdown,links --wait 2000

/batch-scrape

Raspar múltiples URLs a la vez.

/batch-scrape https://example.com https://example.org https://example.net

/crawl

Rastrear múltiples páginas desde una URL de inicio.

/crawl https://docs.example.com --limit 20 --depth 2
/crawl https://docs.example.com --include /api/* --exclude /blog/*

/map

Descubrir todas las URLs de un sitio web.

/map https://docs.example.com
/map https://docs.example.com --search api --subdomains

/search

Buscar en la web y, opcionalmente, raspar los resultados.

/search "firecrawl web scraping" --limit 10
/search "AI tools 2026" --scrape --time month

/extract

Extracción de datos estructurados mediante LLM desde páginas web.

/extract https://example.com "Extract the main heading and any links"
/extract https://example.com/pricing --schema '{"plans": [{"name": "string", "price": "string"}]}'

/llmstxt

Generar un archivo llms.txt para un sitio.

/llmstxt https://docs.example.com

Habilidades

web-scraper

Se activa automáticamente cuando se solicita raspar una URL, rastrear un sitio web, mapear URLs del sitio, buscar en la web, extraer datos estructurados, generar llms.txt, raspar múltiples URLs en lote, o convertir una página web a markdown. Delega inmediatamente al agente firecrawl-operator.

Agentes

firecrawl-operator

Agente autónomo de raspado web que ejecuta secuencias de curl + jq contra la API local de firecrawl. Admite 11 protocolos que cubren todos los endpoints de la v1. Agente de solo lectura (sin herramientas de escritura, edición o agente).

Protocolo	Endpoint	Tipo
HEALTH	`GET /`	Sync
SCRAPE	`POST /v1/scrape`	Sync
BATCH_SCRAPE	`POST /v1/batch/scrape`	Async
CRAWL	`POST /v1/crawl`	Async
CRAWL_CANCEL	`DELETE /v1/crawl/:id`	Sync
CRAWL_ACTIVE	`GET /v1/crawl/active`	Sync
CRAWL_ERRORS	`GET /v1/crawl/:id/errors`	Sync
MAP	`POST /v1/map`	Sync
SEARCH	`POST /v1/search`	Sync
EXTRACT	`POST /v1/extract`	Async
LLMSTXT	`POST /v1/llmstxt`	Async

Infraestructura

El plugin requiere que el stack de firecrawl esté en ejecución dentro del contenedor de desarrollo:

Componente	Puerto	Propósito
Firecrawl API	3002	Todos los endpoints de scrape/crawl/map/search/extract
Playwright	3000	Motor de renderizado de JavaScript
Redis	6379	Backend de cola de trabajos
PostgreSQL	socket	Persistencia de trabajos de crawl/batch
LiteLLM proxy	OPENAI_BASE_URL	Backend LLM para extract (opcional)

El stack se inicia automáticamente cuando ENABLE_FIRECRAWL=true (el valor predeterminado). Un hook SessionStart verifica que la API sea accesible y advierte si el servicio no está disponible.

Diferencias con Firecrawl en la nube

Este plugin utiliza la versión autohospedada de código abierto:

No se requiere autenticación ni claves de API para el raspado
Sin límites de créditos ni limitación de velocidad
Utiliza endpoints de API v1 (no v2)
Las sesiones de navegador y la investigación profunda no están disponibles
Extract utiliza su propio proxy LLM en lugar de modelos hospedados
Se ejecuta completamente dentro de la red del contenedor local