watersonusa.ai · HSW-002 OGSM Polish Loop

OGSM v5.1-alpha — Wave α Spec Verifier 完成

HSW-002 Polish Loop · 2026-04-11 · 19/19 Robot 1 (Spec Verifier) 完成

Wave α 做了什麼

19 個獨立的 Robot 1 (Spec Verifier) 同時跑，每個人負責一個 HSW-002 agent。強制角色隔離：

只讀 v5.md 的 target agent section + ogsm-framework skill 規則
不讀任何先前 polish workspace（防 self-fulfilling prophecy）
寫 5 個 fresh BDD scenarios（行為可測試，非結構檢查）
mental-run 對 v5 現狀，報 pass/fail
draft dispatch test input 給 Wave β 用

19-agent Wave α 結果總表

#	Agent	Verdict	Top Gap
1	Investigator A	✅ HOLDS	2 soft gap（非 blocker）
2	Writer A	⚠ GAPS	arc-level voice M 缺可測 proxy（High）
3	Fresh Eyes Reviewer	🚨 GAPS	結構性矛盾：clean draft 無通過路徑
4	Copy Editor	✅ 5/5 PASS	—
5	Compliance Reviewer	⚠ 3 預測 FAIL	grep-based vs render-based（延到 final gate 處理）
6	Content Director	⚠ 3 預測 FAIL	pacing / through-line / NOT-INSTEAD
7	Engineer (HTML)	✅ PASS	2 個 reconcile point
8	Engagement Designer	⚠ 2 FAIL + 2 partial	category touch map 缺 M / transition operationalization
9	Fact Checker	⚠ 主要 FAIL	NEW-03 forbidden phrase 缺
10	Writer B	⚠ 2 高 FAIL 風險	Writer A↔B cross-author handoff 缺 interface contract
11	Commander	🚨 GAPS	line 146 「Skill commands: 無」矛盾 line 169「必須用 wrapper」
12	Investigator B	🚨 5/5 FAIL/PARTIAL	NEW-03 + line 1039 raw `gemini` CLI
13	Source Reviewer	⚠ 4 PARTIAL	opinion 分類 / container class / 5% budget
14	Sales Rep Advisor	⚠ B3 drift	line 689 vs 1044 Principle 7 duplication
15	Project Architect Advisor	✅ PASS	Marcus persona 最佳定義
16	Learning Outcome Validator	⚠ 3 structural missing	coverage matrix / wave3_blocked flag / threshold drift anti-pattern
17	Quality Auditor	⚠ 3 missing	scope creep / threshold drift / reverse-index check
18	Performance Supervisor	✅ 9/9 PASS	Scenario 5: flag-candidate enforcement 閉環
19	Candidate Collector	✅ 9/9 PASS	3/5 BDD predicted FAIL（healthy BDD 設計）

統計：

SPEC-HAS-GAPS 或 FAIL: 13 個（68%）
Clean PASS 或只有 soft gap: 6 個（32%）

核心發現：角色隔離的價值

v5 現狀是 1-subagent polish 模式跑出「CONVERGED」的，但 Wave α 的角色隔離 Robot 1 揭露：68% 的 agent 仍有實質 gap。

最有力的證據是 Fresh Eyes Reviewer——1-subagent 模式說 17/17 PASS，但 Robot 1 角色隔離發現 結構性矛盾：≥3 challenges floor 和 vacuous-pass-detected 規則互斥，乾淨 draft 下 reviewer 被迫 fabrication。

3 個系統性 pattern 浮現

P-025 候選：結構化欄位 vs 決策規則缺失

v5 spec 擅長寫「有什麼元素」（欄位、lists、規則名稱），但弱於寫「元素之間如何交互決策」。結果：8 個 agent 命中這個類型的 gap。典型例子：

Fresh Eyes：`≥3 floor` 跟 `vacuous-pass` 規則互斥，沒寫 exit path
Content Director：有 pacing 概念但沒 per-phase M check
Engagement Designer：有分類平衡意圖但沒 touch map deliverable
Quality Auditor：有 scope 但沒 reverse-index check 作 M 驗證

P-026 候選：Cross-agent 同病根

Investigator A polish run 提出的 NEW-03 (fabricated-count) fix 沒有自動傳播到 Investigator B。Wave α Robot 1 在 Investigator B 和 Fact Checker 都抓到同樣病根。類似地，Commander 和 Sales Rep Advisor 都有 Principle 7 duplication。

修正方向：G-022 scope creep 禁止「順便修別人」是對的，但必須加一個 archetype_shared_fix flag，讓同 archetype 的下一個 polish run 主動套用。

Interface contract 缺失

Spec 寫了各自的角色，但沒寫角色之間的 interface contract：

Writer A ↔ Writer B：cross-author handoff 無條款（slide 13 應 callback slide 12）
Source Reviewer ↔ Fact Checker：5% budget 跨 agent 規則沒引用
Quality Auditor ↔ Fact Checker：coverage reconciliation 是隱式的

3 個必須討論的 Tier C gap（已決定）

Fresh Eyes 結構性矛盾 → Option C

決定：加 clean_draft_asserted: true schema 欄位 + exit path。Reviewer 可以 assert「這份 draft 乾淨」，有 exit path；若 assert 後被 Quality Auditor 否決，則視為 false-assert 違規。有彈性且可審計。

Writer A ↔ Writer B handoff → Writer A 擔責

決定：Writer A 的 M 要產出 hook_for_next_writer 欄位，slide 12 必須留一個明確的鉤子給 Writer B 的 slide 13 callback。

Compliance Reviewer grep vs render → 延到 final gate

決定：迭代過程中忽略這個問題，不改 Compliance Reviewer 的 spec。只在 pre-deploy 最後檢查加一條「用 Puppeteer render disclosure 區塊確認肉眼可見」的 M 項目，且只在 final gate stage 觸發。

Tier A / Tier B / Tier C 分級

13 個 gap-bearing agent 的 gap 按修法複雜度分 3 Tier：

Tier A — 自動修（8 個 agent）
修法在知識庫已有 pattern、additive diff、最小改動。範例：Investigator B 套 P-019、Commander line 146 改為 pointer、Sales Rep Advisor 刪 line 689 inline 保留 pointer。Wave γ Iterator 直接 apply，不打斷 loop。

Tier B — 嘗試修但留 flag（4 個 agent）
方向清楚但需設計決策。範例：Writer A 的 arc-level voice proxy 分數門檻、Content Director 的 pacing baseline、Engagement Designer 的 5×5 category touch map schema。Wave γ 嘗試、Wave δ Auditor 判 accept/revise/escalate。

Tier C — 必須討論（3 個已決定，見上方）
結構性矛盾或架構選擇，不能自動。全部 3 個已在本版本決定完畢，Wave γ 按照決定實作。

下一個版本

v5.1-beta（Wave β Dispatch Harness）預計在 19 個 Robot 2 全部完成後發佈。Wave β 會驗證 Wave α 的 mental-run 預測——actual deliverable 跟 mental PASS/FAIL 吻合嗎？哪些預測過度悲觀？哪些隱藏的執行期 bug 在 mental 時沒看到？

之後依序：

v5.1-gamma：Wave γ Iterator 提出的 19 個 proposed patch（Tier A 自動 + Tier B 嘗試 + Tier C 套用決定）
v5.1-delta：Wave δ Quality Auditor 的審查結果（accept / revise / reject）
v5.1（最終版）：apply 後的 v5.md 含完整 changelog