Pular para o conteúdo

f5xc-firecrawl

O plugin f5xc-firecrawl fornece web scraping local auto-hospedado via o motor open-source firecrawl. Sem chaves de API, sem assinaturas, sem dependência de nuvem. Todas as operações são executadas na instância local do firecrawl em localhost:3002 dentro do devcontainer.

v1.1.0 Productivity
/plugin install f5xc-firecrawl@f5-sales-demo-marketplace

Realiza o scraping de uma única URL e extrai o conteúdo como markdown.

/scrape https://docs.example.com/getting-started
/scrape https://example.com --format markdown,links --wait 2000

Realiza o scraping de múltiplas URLs ao mesmo tempo.

/batch-scrape https://example.com https://example.org https://example.net

Rastreia múltiplas páginas a partir de uma URL inicial.

/crawl https://docs.example.com --limit 20 --depth 2
/crawl https://docs.example.com --include /api/* --exclude /blog/*

Descobre todas as URLs de um site.

/map https://docs.example.com
/map https://docs.example.com --search api --subdomains

Pesquisa na web e, opcionalmente, realiza o scraping dos resultados.

/search "firecrawl web scraping" --limit 10
/search "AI tools 2026" --scrape --time month

Extração de dados estruturados com base em LLM a partir de páginas web.

/extract https://example.com "Extract the main heading and any links"
/extract https://example.com/pricing --schema '{"plans": [{"name": "string", "price": "string"}]}'

Gera um arquivo llms.txt para um site.

/llmstxt https://docs.example.com

Ativa-se automaticamente quando você solicita o scraping de uma URL, rastreamento de um site, mapeamento de URLs do site, pesquisa na web, extração de dados estruturados, geração de llms.txt, scraping em lote de múltiplas URLs ou conversão de uma página web para markdown. Delega imediatamente para o agente firecrawl-operator.

Agente autônomo de web scraping que executa sequências de curl + jq contra a API local do firecrawl. Suporta 11 protocolos cobrindo todos os endpoints v1. Agente somente leitura (sem ferramentas de escrita, edição ou agente).

ProtocoloEndpointTipo
HEALTHGET /Síncrono
SCRAPEPOST /v1/scrapeSíncrono
BATCH_SCRAPEPOST /v1/batch/scrapeAssíncrono
CRAWLPOST /v1/crawlAssíncrono
CRAWL_CANCELDELETE /v1/crawl/:idSíncrono
CRAWL_ACTIVEGET /v1/crawl/activeSíncrono
CRAWL_ERRORSGET /v1/crawl/:id/errorsSíncrono
MAPPOST /v1/mapSíncrono
SEARCHPOST /v1/searchSíncrono
EXTRACTPOST /v1/extractAssíncrono
LLMSTXTPOST /v1/llmstxtAssíncrono

O plugin requer a stack do firecrawl em execução no devcontainer:

ComponentePortaFinalidade
Firecrawl API3002Todos os endpoints de scrape/crawl/map/search/extract
Playwright3000Motor de renderização JavaScript
Redis6379Backend da fila de jobs
PostgreSQLsocketPersistência de jobs de crawl/batch
Proxy LiteLLMOPENAI_BASE_URLBackend LLM para extract (opcional)

A stack inicia automaticamente quando ENABLE_FIRECRAWL=true (o padrão). Um hook SessionStart verifica se a API está acessível e emite um aviso caso o serviço esteja indisponível.

Este plugin utiliza a versão open-source auto-hospedada:

  • Nenhuma autenticação ou chave de API necessária para scraping
  • Sem limites de crédito ou limitação de taxa
  • Utiliza endpoints da API v1 (não v2)
  • Sessões de navegador e pesquisa aprofundada não estão disponíveis
  • O extract utiliza seu próprio proxy LLM em vez de modelos hospedados
  • Executa inteiramente dentro da rede local do container