Obra Knowledge Graph Semantic Indexing¶
概念概覽
obra/knowledge-graph 整合策略¶
核心知識¶
obra/knowledge-graph 整合策略¶
選擇依據(對比自建向量搜尋)¶
| 面向 | 選項 A(自建向量搜尋) | 選項 B(obra/knowledge-graph) |
|---|---|---|
| 工作量 | 較少 | 多 2 小時 |
| 能力 | 去重 | 揭示知識結構 |
| 彙整品質改善 | 一般 | 顯著 |
| 未來 Phase 3.5+ 成本 | 需 2-3 天自建 | 已內建 |
選擇 obra/knowledge-graph 的核心原因:它能**揭示知識結構**,而不只是做相似度去重。
整合步驟¶
- 在
/tmpclone obra/knowledge-graph,對docs/concepts/跑一次 index 和 search 驗證可用性 - 確認可用後撰寫 Python adapter,整合到
wiki_manager.py的概念提取階段 - 加入 CI 步驟,每次 push 後自動更新語意索引
- 語意索引輸出作為「語意重複檢查」的輸入,阻擋碎片化概念提交
語意重複檢查邏輯¶
# 在 wiki_manager.py 提取新概念時:
# 1. 用 obra 的 search API 找相似概念
# 2. 相似度 > 0.85 → 警告並建議合併到既有概念
# 3. 相似度 0.7-0.85 → 建議加 related_concepts 連結
# 4. 相似度 < 0.7 → 允許創建新概念
經驗教訓¶
-
語意知識圖譜的價值在於「揭示結構」而非「去重」,這是選擇工具的關鍵判斷標準
-
先在 /tmp 做小規模驗證再整合到 CI,降低整合失敗的風險
-
語意相似度閾值需調校:太高會漏掉真正的重複,太低會錯誤合併不同概念
常見陷阱¶
-
若 obra/knowledge-graph 對中文支援不佳,需切回選項 A 或找替代方案
-
語意索引需定期重建,否則新增概念不會被納入相似度計算
最佳實踐¶
-
整合前先做本地驗證(/tmp clone + 手動跑 index/search)
-
語意重複檢查應在概念提取階段介入,而非事後批次處理
-
保留高信心(>0.85)合併,中信心(0.7-0.85)只加連結,保護知識多樣性
相關概念¶
- mkdocs-roamlinks-backlink-pipeline
- Mutation Pipeline DB-backed Idempotency Backstop
- Semi-Brain Knowledge Wiki System
來源 Sessions¶
| 日期 | Session | 貢獻摘要 |
|---|---|---|
| 2026-04-12 | a0379709-073f-4231-a61f-87b8486559f7 | 本 session 評估並選擇 obra/knowledge-graph 作為語意知識索引方案,優於自建向量搜尋 |