watersonusa.ai · HSW-002 OGSM Polish Loop

OGSM v5.1-alpha — Wave α Spec Verifier 完成

HSW-002 Polish Loop · 2026-04-11 · 19/19 Robot 1 (Spec Verifier) 完成

版本:v5.1-alpha · 所屬 Wave: α (Spec Verifier) · 狀態:完成

與前一版本 (v5) 的差異:這不是 v5.md 本身的修改,而是 polish loop 的第一個 wave 結果。v5.md 仍維持原樣,等 Wave γ apply 階段才會更新。

📘 想看真實機器人內容? v5 機器人快照展示 6 個代表 agent 的完整 G/S/M/Anti-patterns。

Wave α 做了什麼

19 個獨立的 Robot 1 (Spec Verifier) 同時跑,每個人負責一個 HSW-002 agent。強制角色隔離:

19-agent Wave α 結果總表

# Agent Verdict Top Gap
1Investigator A✅ HOLDS2 soft gap(非 blocker)
2Writer A⚠ GAPSarc-level voice M 缺可測 proxy(High)
3Fresh Eyes Reviewer🚨 GAPS結構性矛盾:clean draft 無通過路徑
4Copy Editor✅ 5/5 PASS
5Compliance Reviewer⚠ 3 預測 FAILgrep-based vs render-based(延到 final gate 處理)
6Content Director⚠ 3 預測 FAILpacing / through-line / NOT-INSTEAD
7Engineer (HTML)✅ PASS2 個 reconcile point
8Engagement Designer⚠ 2 FAIL + 2 partialcategory touch map 缺 M / transition operationalization
9Fact Checker⚠ 主要 FAILNEW-03 forbidden phrase 缺
10Writer B⚠ 2 高 FAIL 風險Writer A↔B cross-author handoff 缺 interface contract
11Commander🚨 GAPSline 146 「Skill commands: 無」矛盾 line 169「必須用 wrapper」
12Investigator B🚨 5/5 FAIL/PARTIALNEW-03 + line 1039 raw gemini CLI
13Source Reviewer⚠ 4 PARTIALopinion 分類 / container class / 5% budget
14Sales Rep Advisor⚠ B3 driftline 689 vs 1044 Principle 7 duplication
15Project Architect Advisor✅ PASSMarcus persona 最佳定義
16Learning Outcome Validator⚠ 3 structural missingcoverage matrix / wave3_blocked flag / threshold drift anti-pattern
17Quality Auditor⚠ 3 missingscope creep / threshold drift / reverse-index check
18Performance Supervisor✅ 9/9 PASSScenario 5: flag-candidate enforcement 閉環
19Candidate Collector✅ 9/9 PASS3/5 BDD predicted FAIL(healthy BDD 設計)

統計

核心發現:角色隔離的價值

v5 現狀是 1-subagent polish 模式跑出「CONVERGED」的,但 Wave α 的角色隔離 Robot 1 揭露:68% 的 agent 仍有實質 gap

最有力的證據是 Fresh Eyes Reviewer——1-subagent 模式說 17/17 PASS,但 Robot 1 角色隔離發現 結構性矛盾≥3 challenges floorvacuous-pass-detected 規則互斥,乾淨 draft 下 reviewer 被迫 fabrication。

3 個系統性 pattern 浮現

P-025 候選:結構化欄位 vs 決策規則缺失

v5 spec 擅長寫「有什麼元素」(欄位、lists、規則名稱),但弱於寫「元素之間如何交互決策」。結果:8 個 agent 命中這個類型的 gap。典型例子:

P-026 候選:Cross-agent 同病根

Investigator A polish run 提出的 NEW-03 (fabricated-count) fix 沒有自動傳播到 Investigator B。Wave α Robot 1 在 Investigator B 和 Fact Checker 都抓到同樣病根。類似地,Commander 和 Sales Rep Advisor 都有 Principle 7 duplication。

修正方向:G-022 scope creep 禁止「順便修別人」是對的,但必須加一個 archetype_shared_fix flag,讓同 archetype 的下一個 polish run 主動套用。

Interface contract 缺失

Spec 寫了各自的角色,但沒寫角色之間的 interface contract:

3 個必須討論的 Tier C gap(已決定)

Fresh Eyes 結構性矛盾 → Option C

決定:加 clean_draft_asserted: true schema 欄位 + exit path。Reviewer 可以 assert「這份 draft 乾淨」,有 exit path;若 assert 後被 Quality Auditor 否決,則視為 false-assert 違規。有彈性且可審計。

Writer A ↔ Writer B handoff → Writer A 擔責

決定:Writer A 的 M 要產出 hook_for_next_writer 欄位,slide 12 必須留一個明確的鉤子給 Writer B 的 slide 13 callback。

Compliance Reviewer grep vs render → 延到 final gate

決定:迭代過程中忽略這個問題,不改 Compliance Reviewer 的 spec。只在 pre-deploy 最後檢查加一條「用 Puppeteer render disclosure 區塊確認肉眼可見」的 M 項目,且只在 final gate stage 觸發。

Tier A / Tier B / Tier C 分級

13 個 gap-bearing agent 的 gap 按修法複雜度分 3 Tier:

Tier A — 自動修(8 個 agent)
修法在知識庫已有 pattern、additive diff、最小改動。範例:Investigator B 套 P-019、Commander line 146 改為 pointer、Sales Rep Advisor 刪 line 689 inline 保留 pointer。Wave γ Iterator 直接 apply,不打斷 loop。
Tier B — 嘗試修但留 flag(4 個 agent)
方向清楚但需設計決策。範例:Writer A 的 arc-level voice proxy 分數門檻、Content Director 的 pacing baseline、Engagement Designer 的 5×5 category touch map schema。Wave γ 嘗試、Wave δ Auditor 判 accept/revise/escalate。
Tier C — 必須討論(3 個已決定,見上方)
結構性矛盾或架構選擇,不能自動。全部 3 個已在本版本決定完畢,Wave γ 按照決定實作。

下一個版本

v5.1-beta(Wave β Dispatch Harness)預計在 19 個 Robot 2 全部完成後發佈。Wave β 會驗證 Wave α 的 mental-run 預測——actual deliverable 跟 mental PASS/FAIL 吻合嗎?哪些預測過度悲觀?哪些隱藏的執行期 bug 在 mental 時沒看到?

之後依序: