f5xc-firecrawl
ปลั๊กอิน f5xc-firecrawl ให้บริการขูดข้อมูลเว็บแบบโฮสต์ด้วยตนเองในเครื่อง
ผ่านเอนจิน firecrawl โอเพนซอร์ส
ไม่ต้องใช้คีย์ API ไม่ต้องสมัครสมาชิก ไม่พึ่งพาคลาวด์ การดำเนินการทั้งหมด
ทำงานกับอินสแตนซ์ firecrawl ในเครื่องที่ localhost:3002
ภายใน devcontainer
การติดตั้ง
หัวข้อที่มีชื่อว่า “การติดตั้ง”/plugin install f5xc-firecrawl@f5-sales-demo-marketplace/scrape
หัวข้อที่มีชื่อว่า “/scrape”ขูดข้อมูลจาก URL เดียวและแยกเนื้อหาเป็น markdown
/scrape https://docs.example.com/getting-started/scrape https://example.com --format markdown,links --wait 2000/batch-scrape
หัวข้อที่มีชื่อว่า “/batch-scrape”ขูดข้อมูลจากหลาย URL พร้อมกัน
/batch-scrape https://example.com https://example.org https://example.netรวบรวมข้อมูลจากหลายหน้าโดยเริ่มจาก URL ที่กำหนด
/crawl https://docs.example.com --limit 20 --depth 2/crawl https://docs.example.com --include /api/* --exclude /blog/*ค้นหา URL ทั้งหมดในเว็บไซต์
/map https://docs.example.com/map https://docs.example.com --search api --subdomains/search
หัวข้อที่มีชื่อว่า “/search”ค้นหาเว็บและเลือกขูดข้อมูลผลลัพธ์
/search "firecrawl web scraping" --limit 10/search "AI tools 2026" --scrape --time month/extract
หัวข้อที่มีชื่อว่า “/extract”การดึงข้อมูลโครงสร้างจากหน้าเว็บด้วย LLM
/extract https://example.com "Extract the main heading and any links"/extract https://example.com/pricing --schema '{"plans": [{"name": "string", "price": "string"}]}'/llmstxt
หัวข้อที่มีชื่อว่า “/llmstxt”สร้างไฟล์ llms.txt สำหรับเว็บไซต์
/llmstxt https://docs.example.comweb-scraper
หัวข้อที่มีชื่อว่า “web-scraper”เปิดใช้งานอัตโนมัติเมื่อคุณขอขูดข้อมูลจาก URL รวบรวมข้อมูลเว็บไซต์ แมป URL ของเว็บไซต์ ค้นหาเว็บ ดึงข้อมูลโครงสร้าง สร้าง llms.txt ขูดข้อมูลหลาย URL พร้อมกัน หรือแปลงหน้าเว็บเป็น markdown โดยมอบหมายงานให้เอเจนต์ firecrawl-operator ทันที
เอเจนต์
หัวข้อที่มีชื่อว่า “เอเจนต์”firecrawl-operator
หัวข้อที่มีชื่อว่า “firecrawl-operator”เอเจนต์ขูดข้อมูลเว็บอัตโนมัติที่ดำเนินการลำดับ curl + jq
กับ firecrawl API ในเครื่อง รองรับ 11 โปรโตคอลครอบคลุม endpoint ทั้งหมดของ v1
เป็นเอเจนต์แบบอ่านอย่างเดียว (ไม่มีเครื่องมือ Write, Edit หรือ Agent)
| โปรโตคอล | Endpoint | ประเภท |
|---|---|---|
| HEALTH | GET / | Sync |
| SCRAPE | POST /v1/scrape | Sync |
| BATCH_SCRAPE | POST /v1/batch/scrape | Async |
| CRAWL | POST /v1/crawl | Async |
| CRAWL_CANCEL | DELETE /v1/crawl/:id | Sync |
| CRAWL_ACTIVE | GET /v1/crawl/active | Sync |
| CRAWL_ERRORS | GET /v1/crawl/:id/errors | Sync |
| MAP | POST /v1/map | Sync |
| SEARCH | POST /v1/search | Sync |
| EXTRACT | POST /v1/extract | Async |
| LLMSTXT | POST /v1/llmstxt | Async |
โครงสร้างพื้นฐาน
หัวข้อที่มีชื่อว่า “โครงสร้างพื้นฐาน”ปลั๊กอินต้องการสแตก firecrawl ที่ทำงานอยู่ใน devcontainer:
| ส่วนประกอบ | พอร์ต | วัตถุประสงค์ |
|---|---|---|
| Firecrawl API | 3002 | endpoint ทั้งหมดสำหรับ scrape/crawl/map/search/extract |
| Playwright | 3000 | เอนจินเรนเดอร์ JavaScript |
| Redis | 6379 | แบ็กเอนด์คิวงาน |
| PostgreSQL | socket | การคงอยู่ของงาน Crawl/batch |
| LiteLLM proxy | OPENAI_BASE_URL | แบ็กเอนด์ LLM สำหรับ extract (ไม่บังคับ) |
สแตกเริ่มต้นโดยอัตโนมัติเมื่อ ENABLE_FIRECRAWL=true (ค่าเริ่มต้น)
SessionStart hook ตรวจสอบว่า API สามารถเข้าถึงได้และแจ้งเตือนหากบริการหยุดทำงาน
ความแตกต่างจาก Cloud Firecrawl
หัวข้อที่มีชื่อว่า “ความแตกต่างจาก Cloud Firecrawl”ปลั๊กอินนี้ใช้เวอร์ชันโอเพนซอร์สแบบโฮสต์ด้วยตนเอง:
- ไม่ต้องการการยืนยันตัวตนหรือคีย์ API สำหรับการขูดข้อมูล
- ไม่มีข้อจำกัดด้านเครดิตหรือการจำกัดอัตรา
- ใช้ endpoint API v1 (ไม่ใช่ v2)
- ไม่รองรับ browser sessions และการค้นคว้าเชิงลึก
- Extract ใช้ LLM proxy ของคุณเองแทนโมเดลที่โฮสต์บนคลาวด์
- ทำงานทั้งหมดภายในเครือข่ายคอนเทนเนอร์ในเครื่อง