ข้ามไปยังเนื้อหา

f5xc-firecrawl

ปลั๊กอิน f5xc-firecrawl ให้บริการขูดข้อมูลเว็บแบบโฮสต์ด้วยตนเองในเครื่อง ผ่านเอนจิน firecrawl โอเพนซอร์ส ไม่ต้องใช้คีย์ API ไม่ต้องสมัครสมาชิก ไม่พึ่งพาคลาวด์ การดำเนินการทั้งหมด ทำงานกับอินสแตนซ์ firecrawl ในเครื่องที่ localhost:3002 ภายใน devcontainer

v1.1.0 Productivity
/plugin install f5xc-firecrawl@f5-sales-demo-marketplace

ขูดข้อมูลจาก URL เดียวและแยกเนื้อหาเป็น markdown

/scrape https://docs.example.com/getting-started
/scrape https://example.com --format markdown,links --wait 2000

ขูดข้อมูลจากหลาย URL พร้อมกัน

/batch-scrape https://example.com https://example.org https://example.net

รวบรวมข้อมูลจากหลายหน้าโดยเริ่มจาก URL ที่กำหนด

/crawl https://docs.example.com --limit 20 --depth 2
/crawl https://docs.example.com --include /api/* --exclude /blog/*

ค้นหา URL ทั้งหมดในเว็บไซต์

/map https://docs.example.com
/map https://docs.example.com --search api --subdomains

ค้นหาเว็บและเลือกขูดข้อมูลผลลัพธ์

/search "firecrawl web scraping" --limit 10
/search "AI tools 2026" --scrape --time month

การดึงข้อมูลโครงสร้างจากหน้าเว็บด้วย LLM

/extract https://example.com "Extract the main heading and any links"
/extract https://example.com/pricing --schema '{"plans": [{"name": "string", "price": "string"}]}'

สร้างไฟล์ llms.txt สำหรับเว็บไซต์

/llmstxt https://docs.example.com

เปิดใช้งานอัตโนมัติเมื่อคุณขอขูดข้อมูลจาก URL รวบรวมข้อมูลเว็บไซต์ แมป URL ของเว็บไซต์ ค้นหาเว็บ ดึงข้อมูลโครงสร้าง สร้าง llms.txt ขูดข้อมูลหลาย URL พร้อมกัน หรือแปลงหน้าเว็บเป็น markdown โดยมอบหมายงานให้เอเจนต์ firecrawl-operator ทันที

เอเจนต์ขูดข้อมูลเว็บอัตโนมัติที่ดำเนินการลำดับ curl + jq กับ firecrawl API ในเครื่อง รองรับ 11 โปรโตคอลครอบคลุม endpoint ทั้งหมดของ v1 เป็นเอเจนต์แบบอ่านอย่างเดียว (ไม่มีเครื่องมือ Write, Edit หรือ Agent)

โปรโตคอลEndpointประเภท
HEALTHGET /Sync
SCRAPEPOST /v1/scrapeSync
BATCH_SCRAPEPOST /v1/batch/scrapeAsync
CRAWLPOST /v1/crawlAsync
CRAWL_CANCELDELETE /v1/crawl/:idSync
CRAWL_ACTIVEGET /v1/crawl/activeSync
CRAWL_ERRORSGET /v1/crawl/:id/errorsSync
MAPPOST /v1/mapSync
SEARCHPOST /v1/searchSync
EXTRACTPOST /v1/extractAsync
LLMSTXTPOST /v1/llmstxtAsync

ปลั๊กอินต้องการสแตก firecrawl ที่ทำงานอยู่ใน devcontainer:

ส่วนประกอบพอร์ตวัตถุประสงค์
Firecrawl API3002endpoint ทั้งหมดสำหรับ scrape/crawl/map/search/extract
Playwright3000เอนจินเรนเดอร์ JavaScript
Redis6379แบ็กเอนด์คิวงาน
PostgreSQLsocketการคงอยู่ของงาน Crawl/batch
LiteLLM proxyOPENAI_BASE_URLแบ็กเอนด์ LLM สำหรับ extract (ไม่บังคับ)

สแตกเริ่มต้นโดยอัตโนมัติเมื่อ ENABLE_FIRECRAWL=true (ค่าเริ่มต้น) SessionStart hook ตรวจสอบว่า API สามารถเข้าถึงได้และแจ้งเตือนหากบริการหยุดทำงาน

ปลั๊กอินนี้ใช้เวอร์ชันโอเพนซอร์สแบบโฮสต์ด้วยตนเอง:

  • ไม่ต้องการการยืนยันตัวตนหรือคีย์ API สำหรับการขูดข้อมูล
  • ไม่มีข้อจำกัดด้านเครดิตหรือการจำกัดอัตรา
  • ใช้ endpoint API v1 (ไม่ใช่ v2)
  • ไม่รองรับ browser sessions และการค้นคว้าเชิงลึก
  • Extract ใช้ LLM proxy ของคุณเองแทนโมเดลที่โฮสต์บนคลาวด์
  • ทำงานทั้งหมดภายในเครือข่ายคอนเทนเนอร์ในเครื่อง