跳轉到

Playwright CLI Property Scraping

概念概覽

問題背景

核心知識

問題背景

agent-browser(由 Claude agent 操控瀏覽器逐頁瀏覽)在房產 pipeline 中效率低落,主要瓶頸:每次訪問頁面都要等待 agent 推理 + 截圖 + 解析,處理 7 個物件耗時 ~482 秒(≈70秒/物件)。

遷移方向:Playwright CLI

改用 Playwright CLI(playwright Node.js 套件)直接執行爬取腳本,將「瀏覽操作邏輯」從 agent prompt 中分離出來,改為確定性程式碼: - 腳本負責:頁面導航、DOM 解析、資料萃取、反爬蟲處理 - Agent 負責:評分邏輯、報告撰寫、決策判斷

架構分工

[Playwright CLI Script] → 抓取原始資料 (JSON/TSV)
[Claude Agent]         → 評估 + 評分 + 報告

此分工讓爬取可以批次並行執行,Agent 只在需要判斷時介入,大幅降低 token 消耗與延遲。

經驗教訓

  • agent-browser 適合需要視覺判斷或動態互動的場景(如 CAPTCHA 處理、複雜 SPA),對於結構化資料萃取(房產清單)成本過高

  • 將爬取腳本獨立為 Playwright CLI 後,可在 agent 外部批次執行並快取結果,重跑評估時不需重新爬取

常見陷阱

  • Playwright 在 WSL 環境執行時可能遭遇 bash 權限問題(task notification 中提到 bash 權限問題導致 TSV 無法移至 processed/)

最佳實踐

  • 房產評估 pipeline 的最佳分工:Playwright CLI 負責資料蒐集,Claude Agent 負責評分與推理

  • 爬取結果存為 TSV/JSON 中間檔,讓 agent 可以從本地讀取而非即時爬取,降低評估成本

相關概念

來源 Sessions

日期 Session 貢獻摘要

| 2026-04-13 | 4daa79de-150a-4889-8cd9-df5382d02150 | 記錄了從 agent-browser 遷移到 Playwright CLI 的決策背景與架構轉換,用於房產入口網站爬取。 |


本概念頁面由 Semi-Brain Wiki 系統自動維護

最後更新: 2026-04-13