watersonusa.ai · HSW-002 OGSM Polish Loop

OGSM v5.1-beta — Wave β Dispatch Harness 完成

HSW-002 Polish Loop · 2026-04-11 · 19/19 Robot 2 (Dispatch Harness) 完成

版本:v5.1-beta · 所屬 Wave: β (Dispatch Harness) · 狀態:完成

v5.1-alpha 的差異:Wave α 是 mental-run 預測,Wave β 是**實際扮演 target agent 跑 Robot 1 準備的 test input,產出 real deliverable + actual pass/fail**。v5.md 仍未修改,只是產出更多證據。

📘 想看真實機器人內容? v5 機器人快照展示 6 個代表 agent 的完整 G/S/M/Anti-patterns。

Wave β 做了什麼

19 個獨立的 Robot 2 (Dispatch Harness) 同時跑,每個 subagent:

19-agent Wave β 實測結果

#AgentScenario PASS/FAIL關鍵實測發現
1Investigator A5/5 PASS誠實 N=0 under-delivery,line 236 禁用短語防線 work
2Writer A3 PASS + 2 FAILGap 4 LIVE BUG 確認: LLM 實際滑進教科書語氣,anti-pattern 無 detection
3Fresh Eyes ReviewerFE-R2 HARD FAILRobot 2 拒絕 fabricate,結構性矛盾實證為 blocker
4Copy Editor5/5 PASS21/21 defect catch rate + 0 false positive(最佳結果)
5Compliance Reviewer5/5 loose / 2/5 strict4/4 planted issues 全 CAUGHT,Gemini 中立性評分 2.6/5 < 4.0
6Content Director5/5 PASS (3 caveat)pacing / through-line / NOT-INSTEAD 三個 Tier B 目標確認
7Engineer (HTML)10/10 PASS4 ambiguity(cadence window 繼承 / 16px floor / post-test fallback)
8Engagement Designer5/5 PASS (3 ad hoc)0 LLM call,自律拒絕 prose-regeneration;SCN-ED-004 需要 paired S input-contract
9Fact CheckerPASS behavior / FAIL spec🚨 順便發現 v5 課程 3 個事實錯誤:ASCE 7-22 Ch26=Wind Loads / NFPA 80 ≠ 15 lbf / CSC ≠ NMS maintainer
10Writer B5/5 PASS (S5 caveat)cross-author handoff **只因 Robot 1 直接 inject** 才過,production 會斷
11Commander5/5 behavior PASS🚨 META gap: get_skills_for_role.sh commander → role not found,factory 自己的知識庫有 data hole
12Investigator B4 PASS + 1 PARTIAL4 次 wrapper 呼叫全合規,誠實 HARD COUNT REACHED AT 3;Robot 1 fixture 選錯 NFPA 80 section(meta-finding)
13Source Reviewer5 PASS + 3 conditionalopinion vs empirical 邊界規則建立(第一人稱必要但不充分)
14Sales Rep AdvisorB3 FAIL 確認byte-level drift 實證:line 689 vs 1044 不一致,現有 validator 沒抓到
15Project Architect Advisor5/5 PASSGemini 耗盡 → Claude Opus self-sim 降級(spec line 661),persona 6/6 第一人稱
16Learning Outcome Validator1 PARTIAL + 3 PASS + 1 FAIL by designaggregate 77% < 80%,wave3_blocked 正確觸發,未下調門檻
17Quality Auditor3/3 hidden catches全部 3 個隱藏問題抓到,BLOCK Wave 3 verdict
18Performance Supervisor5/5 PASSskill-invocation gap audit 實測成功(gap=2 literal count)
19Candidate Collector4 PASS + 1 PARTIALS2 byte-exact 驗證通過;S5 flag-candidate CLI 缺 3 個欄位

Wave α 預測 vs Wave β 實測對照

✅ Robot 1 mental-run 預測高度準確

⚠ 新發現(Wave α 沒預期的)

1. Factory 自己的知識庫有 data gap(META-level)

Commander 實測呼叫 get_skills_for_role.sh commanderrole not found。Robot 1 以為是 spec-text gap,實際是 ogsm-framework skill 的 references data 也缺。修 v5.md 不夠,要修 data file。→ G-025 候選

2. v5 課程內容本身有事實錯誤

Fact Checker 認真跑,意外發現 v5 打算教的內容本身是錯的:

這三個錯誤代表 v5 spec 作為指導文件沒問題,但**真的產出課程時**必須被 Fact Checker 阻擋。Wave γ 不修這些(不在 spec scope),但會強化 Fact Checker 的 anti-pattern 保護。

3. Robot 1 fixture 自己有瑕疵

Investigator B Robot 2 發現:Robot 1 選的 NFPA 80 §6.1.5 實際是「Inspection of Door Assemblies」,不是 hinge-specific(§6.4.2.1 才是)。Robot 1 也會犯錯——這是 4-robot 架構的 recursive 價值:**Robot 2 也審查 Robot 1**。

4. G-020 wrapper bug 直接被 Writer A 觀察到

Writer A Robot 2 實際觸發 call_with_fallback.sh single-model chain + 429,得到 exit 3 + empty stdout/stderr。完美對應 Robot 1 Fresh Eyes 的 G-020 預測。

🚨 Infrastructure:Gemini quota 全線耗盡

Wave β 期間,Gemini 所有 tier 都在撞 429 RESOURCE_EXHAUSTED:

但**所有 subagent 都優雅降級**(spec-defined fallback 路徑 work),沒有任何 raw LLM violation、沒有 fabrication。→ 架構對了,但 production 需要更高 quota tier 或 per-agent rate limit。G-024 候選。

誠實紀律 100% holds

19 個 Robot 2,**沒有一個**捏造數字、沒有一個 fabricate source、沒有一個 self-pass。所有 under-delivery 都被誠實標註:

Engagement Designer 甚至**自律拒絕 call LLM**——因為 Anti-pattern #2 禁止 prose-regeneration 可能 fabricate case detail,Robot 2 選擇 deterministic constraint-satisfaction 取代。這是 anti-pattern 正確 internalize 的最佳範例。

對 Tier C 決定的 refinement

Writer A ↔ Writer B handoff 需要雙面條款

原本 Tier C 決定:Writer A 擔 handoff 責任(producer 側)。Writer B Robot 2 實測發現:**只因 Robot 1 test input 直接 inject hook** 才能 callback;production 環境下 Writer A/B 在 Wave 1 並行,hook 傳不過去。

Refinement(不推翻決定): Writer A lead 不變,但 Writer B 也需要對稱的 consumer-side M bullet — slide 13 必須 consume handoff.md,不能 ignore。Wave γ Iterator 會同時加兩邊。

下一步

v5.1-gamma(Wave γ Iterator)現在立刻開跑。19 個 Robot 3 subagent 會:

  1. 讀 Robot 1 (BDD + gaps) + Robot 2 (actual deliverable + pass/fail) 完整輸入
  2. 提出 smallest-possible-diff patch 到 workspace(不直接改 v5.md)
  3. Tier A 自動修(8 個)/ Tier B 嘗試修(4 個)/ Tier C 套用你的決定(Fresh Eyes Option C / Writer A lead + Writer B consume / Compliance 延到 final gate)
  4. Cross-agent pattern propagation: P-019 同時應用到 Investigator B + Fact Checker
  5. Data-layer 修正: get_skills_for_role.sh 補 commander + 其他缺 role