Playwright CLI Property Scraping¶

概念概覽

問題背景¶

agent-browser（由 Claude agent 操控瀏覽器逐頁瀏覽）在房產 pipeline 中效率低落，主要瓶頸：每次訪問頁面都要等待 agent 推理 + 截圖 + 解析，處理 7 個物件耗時 ~482 秒（≈70秒/物件）。

改用 Playwright CLI（playwright Node.js 套件）直接執行爬取腳本，將「瀏覽操作邏輯」從 agent prompt 中分離出來，改為確定性程式碼： - 腳本負責：頁面導航、DOM 解析、資料萃取、反爬蟲處理 - Agent 負責：評分邏輯、報告撰寫、決策判斷

[Playwright CLI Script] → 抓取原始資料 (JSON/TSV)
        ↓
[Claude Agent]         → 評估 + 評分 + 報告

此分工讓爬取可以批次並行執行，Agent 只在需要判斷時介入，大幅降低 token 消耗與延遲。

Playwright 在 WSL 環境執行時可能遭遇 bash 權限問題（task notification 中提到 bash 權限問題導致 TSV 無法移至 processed/）

日期	Session	貢獻摘要

| 2026-04-13 | 4daa79de-150a-4889-8cd9-df5382d02150 | 記錄了從 agent-browser 遷移到 Playwright CLI 的決策背景與架構轉換，用於房產入口網站爬取。 |

本概念頁面由 Semi-Brain Wiki 系統自動維護

最後更新: 2026-04-13