f5xc-firecrawl

f5xc-firecrawl प्लगइन ओपन-सोर्स firecrawl इंजन के माध्यम से लोकल सेल्फ-होस्टेड वेब स्क्रेपिंग प्रदान करता है। कोई API कुंजी नहीं, कोई सब्सक्रिप्शन नहीं, कोई क्लाउड निर्भरता नहीं। सभी ऑपरेशन डेवकंटेनर के अंदर localhost:3002 पर लोकल firecrawl इंस्टेंस के विरुद्ध चलते हैं।

v1.1.0 Productivity

स्थापना

/plugin install f5xc-firecrawl@f5-sales-demo-marketplace

कमांड

/scrape

एकल URL को स्क्रेप करें और कंटेंट को मार्कडाउन के रूप में निकालें।

/scrape https://docs.example.com/getting-started
/scrape https://example.com --format markdown,links --wait 2000

/batch-scrape

एक साथ कई URL स्क्रेप करें।

/batch-scrape https://example.com https://example.org https://example.net

/crawl

किसी प्रारंभिक URL से कई पृष्ठों को क्रॉल करें।

/crawl https://docs.example.com --limit 20 --depth 2
/crawl https://docs.example.com --include /api/* --exclude /blog/*

/map

किसी वेबसाइट पर सभी URL खोजें।

/map https://docs.example.com
/map https://docs.example.com --search api --subdomains

/search

वेब पर खोजें और वैकल्पिक रूप से परिणाम स्क्रेप करें।

/search "firecrawl web scraping" --limit 10
/search "AI tools 2026" --scrape --time month

/extract

वेब पृष्ठों से LLM-संचालित संरचित डेटा निष्कर्षण।

/extract https://example.com "Extract the main heading and any links"
/extract https://example.com/pricing --schema '{"plans": [{"name": "string", "price": "string"}]}'

/llmstxt

किसी साइट के लिए llms.txt फ़ाइल जनरेट करें।

/llmstxt https://docs.example.com

स्किल्स

web-scraper

स्वतः सक्रिय होता है जब आप किसी URL को स्क्रेप करने, किसी वेबसाइट को क्रॉल करने, साइट URL मैप करने, वेब पर खोज करने, संरचित डेटा निकालने, llms.txt जनरेट करने, एकाधिक URL बैच स्क्रेप करने, या किसी वेब पृष्ठ को मार्कडाउन में परिवर्तित करने के लिए कहते हैं। तुरंत firecrawl-operator एजेंट को सौंप देता है।

एजेंट

firecrawl-operator

स्वायत्त वेब स्क्रेपिंग एजेंट जो लोकल firecrawl API के विरुद्ध curl + jq सीक्वेंस निष्पादित करता है। सभी v1 एंडपॉइंट को कवर करने वाले 11 प्रोटोकॉल का समर्थन करता है। केवल-पठन एजेंट (कोई Write, Edit, या Agent उपकरण नहीं)।

प्रोटोकॉल	एंडपॉइंट	प्रकार
HEALTH	`GET /`	Sync
SCRAPE	`POST /v1/scrape`	Sync
BATCH_SCRAPE	`POST /v1/batch/scrape`	Async
CRAWL	`POST /v1/crawl`	Async
CRAWL_CANCEL	`DELETE /v1/crawl/:id`	Sync
CRAWL_ACTIVE	`GET /v1/crawl/active`	Sync
CRAWL_ERRORS	`GET /v1/crawl/:id/errors`	Sync
MAP	`POST /v1/map`	Sync
SEARCH	`POST /v1/search`	Sync
EXTRACT	`POST /v1/extract`	Async
LLMSTXT	`POST /v1/llmstxt`	Async

इन्फ्रास्ट्रक्चर

प्लगइन के लिए डेवकंटेनर में चल रहे firecrawl स्टैक की आवश्यकता है:

घटक	पोर्ट	उद्देश्य
Firecrawl API	3002	सभी scrape/crawl/map/search/extract एंडपॉइंट
Playwright	3000	JavaScript रेंडरिंग इंजन
Redis	6379	जॉब क्यू बैकएंड
PostgreSQL	socket	Crawl/batch जॉब परसिस्टेंस
LiteLLM proxy	OPENAI_BASE_URL	extract के लिए LLM बैकएंड (वैकल्पिक)

स्टैक स्वतः प्रारंभ होता है जब ENABLE_FIRECRAWL=true हो (डिफ़ॉल्ट)। एक SessionStart हुक जाँचता है कि API पहुँच योग्य है और यदि सेवा बंद है तो चेतावनी देता है।

क्लाउड Firecrawl से अंतर

यह प्लगइन सेल्फ-होस्टेड ओपन-सोर्स संस्करण का उपयोग करता है:

स्क्रेपिंग के लिए कोई प्रमाणीकरण या API कुंजी आवश्यक नहीं
कोई क्रेडिट सीमा या रेट लिमिटिंग नहीं
v1 API एंडपॉइंट का उपयोग करता है (v2 नहीं)
ब्राउज़र सत्र और डीप रिसर्च उपलब्ध नहीं
Extract होस्टेड मॉडल के बजाय आपके स्वयं के LLM प्रॉक्सी का उपयोग करता है
पूरी तरह से लोकल कंटेनर नेटवर्क के भीतर चलता है