Playwright CLI Property Scraping¶
概念概覽
問題背景¶
核心知識¶
問題背景¶
agent-browser(由 Claude agent 操控瀏覽器逐頁瀏覽)在房產 pipeline 中效率低落,主要瓶頸:每次訪問頁面都要等待 agent 推理 + 截圖 + 解析,處理 7 個物件耗時 ~482 秒(≈70秒/物件)。
遷移方向:Playwright CLI¶
改用 Playwright CLI(playwright Node.js 套件)直接執行爬取腳本,將「瀏覽操作邏輯」從 agent prompt 中分離出來,改為確定性程式碼:
- 腳本負責:頁面導航、DOM 解析、資料萃取、反爬蟲處理
- Agent 負責:評分邏輯、報告撰寫、決策判斷
架構分工¶
此分工讓爬取可以批次並行執行,Agent 只在需要判斷時介入,大幅降低 token 消耗與延遲。
經驗教訓¶
-
agent-browser 適合需要視覺判斷或動態互動的場景(如 CAPTCHA 處理、複雜 SPA),對於結構化資料萃取(房產清單)成本過高
-
將爬取腳本獨立為 Playwright CLI 後,可在 agent 外部批次執行並快取結果,重跑評估時不需重新爬取
常見陷阱¶
- Playwright 在 WSL 環境執行時可能遭遇 bash 權限問題(task notification 中提到 bash 權限問題導致 TSV 無法移至 processed/)
最佳實踐¶
-
房產評估 pipeline 的最佳分工:Playwright CLI 負責資料蒐集,Claude Agent 負責評分與推理
-
爬取結果存為 TSV/JSON 中間檔,讓 agent 可以從本地讀取而非即時爬取,降低評估成本
相關概念¶
來源 Sessions¶
| 日期 | Session | 貢獻摘要 |
|---|---|---|
| 2026-04-13 | 4daa79de-150a-4889-8cd9-df5382d02150 | 記錄了從 agent-browser 遷移到 Playwright CLI 的決策背景與架構轉換,用於房產入口網站爬取。 |