這是 v5(AI Factory 時代)。v4 是 4 輪人類主導討論與迭代的成果(Round 1/2/3)。v5 是第一個由 Agent Optimization Factory 驅動的版本——改動完全來自 AI mini-agent 工廠的學習,不是人類的直覺判斷。尋找 v4?查看 v4 歷史版本(人類迭代時代終點)
v4 = 人類迭代時代的終點。v5 = AI Factory 迭代時代的起點。
v4 是 chihao 帶領 4 輪人類討論+判斷產生的版本。v5 是第一個由 Agent Optimization Factory 驅動的版本。Factory 派出 mini-agent 工廠,每個 agent 跑 3 個 cycle(每 cycle:Spec Verifier → Iterator → Dispatch Harness → BDD 驗收),從真實 production input 中找到規格缺陷,提出 smallest-possible-diff,並驗收 BDD pass rate 不退步。
v5 的改動完全來自工廠學習。人類不需要判斷「哪裡不好」——factory 自己找到了問題並修復。
1. 10 個 raw LLM 呼叫 → /ai-fallback wrap
10 個 agent(Investigator A/B、Fact Checker、Compliance Reviewer、Source Reviewer、3 個外部 reviewer、Performance Supervisor、Learning Outcome Validator)的 Model commands 原本直呼 echo "Y" | gemini -m ... -p ... 或 codex exec。v5 全部改用 bash ~/.claude/skills/ai-fallback/scripts/call_with_fallback.sh "prompt" "chain" 包裝,加入 per-model timeout(120s/150s)。原因:factory pre-flight 發現 check_ai_fallback_usage.py FAIL 10 個 agent。
2. Direction Seed 第 5 欄位擴充 — mandatory knowledge query commands
新增 3 條 knowledge query commands 作為 Direction Seed 必要元素:
get_patterns_for_failure.sh <failure-type> — 查詢已知優化模式get_gotchas_for_context.sh <context> — 查詢已知坑get_skills_for_role.sh <role-name> — 查詢角色相關 skill 命令這是 Principle 7 延伸:subprocess agents 看不到 parent memory,所以查詢命令必須 embed 到 briefing。這是經驗傳承機制——未來 Iteration Team 自動繼承上一輪學到的所有 pattern + gotcha。
3. Smoke test 發現的 2 個 pre-scale blocker(記錄在 Known Issues,v5 尚未修)
flash-lite,pro,codex,timeout 提升到 120s。Smoke test 驗證 factory pattern 後,工廠在 2026-04-11 執行 Batch 1–4 的真實 agent scale-up。每個 agent 用 real production input 執行完整 BDD 驗收。
整體狀態:16/19 agents 驗證通過(GO / CAUTION GO)。3 個 Batch 4 agents(Commander、Performance Supervisor、Quality Auditor)為 paper exercise,BDD 設計通過但未跑真實 LLM production input。
| Batch | Agent | BDD | 狀態 | 關鍵發現 |
|---|---|---|---|---|
| Batch 1 | Investigator A | 12/12 | CAUTION GO | NEW-02 vacuous success on Codex; WebSearch saved 5 queries |
| Batch 1 | Investigator B | 11/12 | CAUTION GO | G-011 paywall workaround via AHJ adoption channels |
| Batch 1 | Writer A | 13/13 | GO | Substrate gap protocol triggered on 2 slides; BDD pre-pinning (P-014) applied |
| Batch 1 | Writer B | 12/13 | GO | Toolbox framing improved architect independence score |
| Batch 2 | Content Director | 12/12 + 2 WEAK | GO | 3/3 planted issues caught; WEAK on framing suggestions |
| Batch 2 | Compliance Reviewer | 16/16 | GO | G-012 Pro timeout 150s verified; flash-lite fallback clean |
| Batch 2 | Copy Editor | 12/13 | GO | Preserved peer voice; surgical typo fix; CE-13 vacuous-PASS guard |
| Batch 2 | Fact Checker | 11/12 | GO | 8 real lookups verified; 1 false negative on ambiguous date claim |
| Batch 2 | Source Reviewer | 10/10 | GO | G-013 discovered: raw model misclassified 2 planted violations; P-017 reviewer-override applied |
| Batch 3 | Project Architect Advisor | 13/13 | GO | Pro→flash-lite fallback clean; BDD pre-pinning (P-014) applied |
| Batch 3 | Sales Rep Advisor | 18/18 | GO | Measurable cross-layer value vs Compliance; vendor-smell test clean |
| Batch 3 | Fresh Eyes Reviewer | 12/12 | GO | Discovered G-014 + G-015; P-018 3-axis override caught 3 additional gaps Flash-Lite missed |
| Batch 4 | Commander | 11/11 | PAPER | All gate-review questions answered; Direction Seed 9-field check clean |
| Batch 4 | Performance Supervisor | 9/9 | PAPER | Direction Seed audit trail design verified |
| Batch 4 | Quality Auditor | 9/9 | PAPER | S-to-M coverage check design verified |
| Batch 4 | Learning Outcome Validator | 8/9 | GO | Pro hang handled by timeout; fallback to flash-lite successful |
| Batch 4 | Engineer HTML | 10/10 | GO | post-test-designer skill invocation clean; no hallucinated slides |
| Batch 4 | Engagement Designer | 9/10 | GO | Self-caught fabrication on interaction count; corrected before gate review |
| Batch 4 | Candidate Collector | 10/10 | GO | Cleanest of 4 coordination agents; 0 schema violations |
PAPER = paper exercise,BDD 設計通過但未跑真實 LLM production input。GO = 真實 production input + BDD 驗收通過。CAUTION GO = 通過但有已知邊界情況需監控。
v5 的 O 與 v4 相同。O 是整個 19 人團隊唯一的北極星,factory 改動從不觸碰 O——factory 改的是達到 O 的路徑(S/M/anti-patterns),不是 O 本身。
讓建築師喜歡這份簡報並真正理解產品在做什麼。課程結束時,學員應該能獨立判斷任何門五金規格的合規性和適用性,不需要查資料。
首宗目標 persona:Project Architect(不是 design architect,也不是 principal)。所有審查視角、內容假設、互動設計都以 Project Architect 的 day-to-day 工作流為基準——drawing set 審查、Division 08 寫作、spec writer coordination、AHJ 送審、RFI/submittal review。
建築師想把這門課存起來、推薦給同事——不只是為了湊學時而完成它。
建築師能引用條號、解釋機械差異、在專案壓力下抓出錯誤 spec——不靠 Google。
v5 保留 v4 的 19-agent 架構不變。factory 改動只在規格內部(S/M/anti-patterns 和 model commands)——角色數量和 wave 結構不動。
v5 改動:Investigator A/B model commands 包入 /ai-fallback;加入 paywall workaround protocol(G-011)
v5 改動:Source Reviewer 加入 P-017 reviewer-override 後處理層;Compliance Reviewer Pro-timeout 處理確認
v5 改動:Fresh Eyes Reviewer 加入 P-018 3-axis override;外部 reviewer model commands 包入 /ai-fallback(Flash-Lite timeout 180s for long prompts)
v5 改動:Commander Direction Seed 第 5 欄加 3 條 knowledge query commands
v5 改動:Performance Supervisor Direction Seed audit 加入 knowledge query field 驗證;LO Validator model timeout 處理
Wave 1→3 collect-only;v5 paper exercise PASS(0 schema violations)
mini-agent factory run(Batch 1–4)中,工廠從真實執行中發現以下新的坑,全部寫入知識庫並更新 Direction Seed。未來每個 agent 啟動時都可以透過 get_gotchas_for_context.sh 查詢。
ICC Digital Codes + NFPA LiNK 都有付費牆,直接抓 verbatim 文字會被擋。解法:用 AHJ adoption channels — ada.gov(ADA 2010 公版)、city building department adoption notices(例如 phila.gov)、industry commentary citing verbatim(idighardware.com、Lori Greene)。Investigator B 和所有 code-research agent 應預設套用此策略。
Codex 以 exit 0 輸出「Not inside a trusted directory」到 stdout,wrapper 只檢查 exit code → 分類為 SUCCESS,下游 agent 收到 error text 作為研究資料。嚴重性:CRITICAL(silent data corruption)。已修復:wrapper 現在偵測 trust-check error pattern + --skip-git-repo-check + general error heuristic。
Gemini 2.5 Pro 在 Compliance Reviewer 和 Source Reviewer 執行中都 hang 150+ 秒,與 G-001 Flash hang 相同症狀。緩解:INT-001 fix(per-model 150s timeout for Pro)可以處理。Pro 不再可靠作為 single-fallback;chain 深度應 ≥ 3 並包含 flash-lite。建議 reviewer chain 改為 flash-lite,pro,codex。
Gemini Flash-Lite 和 Pro 正確檢查 citation 機械完整性,但把違反 spec priority-order rules 的引用標記為 verified。Source Reviewer 直接信任 raw model 輸出會造成 silent miss。解法:P-017 reviewer-override 後處理層——把 raw model 當作「機械完整性檢查」,不是「spec 合規檢查」,所有 reviewer 必須在 raw output 上再套 spec anti-patterns。
Gemini 2.5 Pro quota 耗盡時透過 stderr retry loop 回傳錯誤,但 wrapper 只看 stdout → 把 quota error 當作 hang,觸發不必要的 150s timeout。暫時緩解:如果 quota 狀態已知,operator 可以 short-circuit Pro。正式修法需要 wrapper 加 stderr-aware quota detection。
Fresh Eyes Reviewer 使用 1000 字 cold-read prompt 時,預設 OGSM_LITE_TIMEOUT=90s 在 Flash-Lite 還在生成有效輸出時就 kill 了。緩解:reviewer 類工作使用 OGSM_LITE_TIMEOUT=180。直接帶 180s 的 Flash-Lite 呼叫只需約 15 秒。建議:reviewer 角色預設 120–180s。
Batch 1–4 的 factory run 中發現 5 個新 pattern,全部寫入知識庫。未來透過 get_patterns_for_failure.sh 查詢。
在 dispatch reviewer agent 之前,先在 BDD scenario 明確 pin 下 flag 的格式(category、severity、location、rationale)。這樣 Iterator 可以驗證 format compliance,不只是 catch-rate。適用:所有 reviewer-archetype agents(Content Director、Compliance Reviewer、Copy Editor、Fact Checker、Source Reviewer)的 BDD 套件。
當 /ai-fallback exit 3(所有模型耗盡)或 silent failure(NEW-02),research-archetype agent 應把 WebSearch tool 當最終 fallback。Briefing 明確寫:「If ai-fallback exit 3, OR output looks like error, use WebSearch with same query, extract sources manually.」Batch 1 兩個 Investigator agent 共 6+ 次靠 WebSearch 救回 query。
ICC Digital Codes / NFPA LiNK 有付費牆時,用 AHJ adoption channels 作為替代取得路徑:ada.gov(公版 ADA 2010)、城市建管局採用通知、industry commentary citing verbatim、BHMA 免費標準。Batch 1 Team B 成功引用 4 個 code sources 不需要付費帳號。建議:build 進 Investigator B 的 Tier 1 briefing 作為 default research path。
任何使用 /ai-fallback 驗證事實、來源或合規性的 reviewer agent,不能直接信任 raw model 的 verified/approved 標記作為最終結果。Reviewer agent 必須把 spec anti-patterns 當作 post-processing layer 套在 raw model 輸出上。把 raw model 當「機械完整性檢查」,不是「spec 合規檢查」。Evidence:Source Reviewer — raw model 把 2 個 planted issues 標記為 verified;reviewer override via spec anti-pattern rules 抓回了。
External cold-read reviewer 的 override 必須在 P-017 基礎上,進一步對 raw output 的每個 challenge 評分三個軸:(a) planted issue coverage、(b) outside voice discipline(有沒有 vendor frame 滲入)、(c) actionable fix language。拒絕 raw output 在格式正確但 blindspot class 不符的情況(vacuous-PASS risk)。Evidence:Fresh Eyes Reviewer override 抓到 raw Flash-Lite 遺漏的 3 個額外問題——Waterson vendor frame、§1.3 circular argument、AHJ hand-wave。
v4 和 v5 代表兩種不同的迭代哲學。兩個版本都是「正確的」——在各自的時代背景下。v4 是人類判斷能達到的極限;v5 是 AI factory 能做到的第一步。
| 維度 | v4(人類迭代時代) | v5(AI Factory 時代) |
|---|---|---|
| 改動來源 | chihao 的直覺判斷 + 討論 | mini-agent factory 3-cycle 學習 |
| 改動驗證 | 人類 sanity check | BDD 自動化驗收(pass rate 不退步) |
| 模型呼叫處理 | 10 個 raw 呼叫,無 fallback | 10 個全部包入 /ai-fallback,含 timeout |
| 知識傳承 | 靠人記憶,隱式 | get_patterns/get_gotchas/get_skills 查詢,顯式 embed 到 briefing |
| Scale-up 驗證 | 0 真實 production 驗證 | 16/19 agents 真實 production input 驗證 |
| 已知坑 | G-001 ~ G-010(factory run 前發現) | G-001 ~ G-015 + NEW-02(factory run 中發現) |
| 已知 pattern | P-001 ~ P-013 | P-001 ~ P-018(P-014 ~ P-018 新增) |
| 什麼時候用 v4 | 讀歷史文件、了解人類迭代哲學、對照 factory 前後差異 | |
| 什麼時候用 v5 | 執行真實課程製作、dispatch agent fleet、factory 持續優化基礎 | |
以下問題在 v5 規格中記錄,但尚未在 v5 中修復。v6 目標是由 factory 平行優化後解決這些問題。
flash-lite,pro,codex,timeout 升到 120s。v5 的位置:v5 是「CAUTION GO」版本——GO for pattern(factory 方法論已驗證),CAUTION for 2 blockers(INT-001 incomplete + Codex trust check)。v6 目標是 scale-up 到 12–19 agents 並行優化後產生的版本。
Direction Seed 是 Commander 派遣每個 subagent 的 briefing 模板。v4 有 9 個欄位。v5 的第 5 欄(Knowledge & Context)強制加入 3 條 knowledge query commands:
v5 第 5 欄必要新增(knowledge query before action):
bash ~/.claude/skills/ogsm-framework/scripts/get_patterns_for_failure.sh <failure-type>— 在 Cycle 1 FAIL 後查詢
bash ~/.claude/skills/ogsm-framework/scripts/get_gotchas_for_context.sh <context>— 在 bootstrap 和每次 FAIL 查詢
bash ~/.claude/skills/ogsm-framework/scripts/get_skills_for_role.sh <role-name>— 在 bootstrap 和 BDD 設計前查詢
為什麼?subprocess agents 看不到 parent memory 或 ~/.claude/skills/ogsm-framework/references/。這 3 條命令讓每個新派的 subprocess agent 在開始工作前,自動繼承工廠累積的所有 pattern + gotcha + skill 知識——不依賴 agent 記憶,不依賴人類傳達。
Performance Supervisor 的驗證規則(v5 新增):每個波次抽檢 ≥ 1 次 Commander 的 dispatch briefing,確認第 5 欄內含 3 條 knowledge query commands。任一條件不滿足,該 subagent 的交付物不納入 gate review,必須重新派遣。
直接呼叫 gemini -m ... -p ... 或 codex exec 而不包 /ai-fallback wrapper。v5 factory pre-flight 發現 v4 有 10 個 agent 犯這個問題。症狀:生產環境 Gemini hang 時,agent 會卡住 6+ 分鐘沒有 output,沒有 error,沒有 fallback。修法:所有 LLM 呼叫用 call_with_fallback.sh 包裝,指定 chain 和 per-model timeout。
在 Direction Seed 第 5 欄不包含 3 條 knowledge query commands。subprocess agent 啟動時不知道已知的坑和 pattern,會重新踩相同的問題。Prevention: Performance Supervisor 每波次抽檢,缺欄位的 briefing 強制重新派遣。
Reviewer agent 直接信任 raw Gemini/Codex 的 verified/approved 標記,不套 spec anti-patterns。G-013 顯示 raw model 只做「機械完整性檢查」,不做「spec 合規檢查」——會漏掉 priority-order violations 和 version-note requirements。修法:P-017 reviewer-override 後處理層,必須成為每個 reviewer 的 S section 的明確 bullet。
透過 Agent tool 派遣的 subprocess agent 看不到 parent Claude 的 memory、CLAUDE.md 或對話歷史。v3.1 的 agent S 段落只寫「使用 /content-scout flag-candidate」,subprocess 根本不知道命令格式。v4 修正是 Principle 7:所有 skill 呼叫命令必須完整寫在 S 段落裡。v5 進一步把 knowledge query commands 也 embed 進 Direction Seed 第 5 欄。
把完整的 OGSM 文件塞進每一次 subagent briefing,強迫 agent 讀完一本手冊再開始工作。v4 round 2 引入 Brief Layering:Tier 1(核心對齊,每次必帶)和 Tier 2(按需載入完整細節)。v5 在 Tier 1 新增 knowledge query commands 欄位,但不增加 briefing 整體長度——Tier 1 只放「第一步需要知道的東西」。
BDD 的 fallback/escalation scenarios 在 happy-path 下 always PASS(passing-by-absence)——上游完整時 fallback 根本不會觸發,0 events 就算 PASS。修法:P-004 forced fallback via partial upstream fixture——harness 故意提供 broken upstream,強制 fallback 真的被觸發。P-017/P-018 同理:planted violations 必須存在,不能靠 happy path 過 reviewer BDD。
回到主文章,看 Memory、Skills 和 OGSM 如何組成一個完整的 AI 團隊管理系統。也可以看 v4 歷史版本,對照人類迭代和 factory 迭代的差異。
← 回到主文章 看 v4(人類迭代時代) 看 HSW-002 課程本身這份展示頁面的所有內容來自真實的工作計畫文件 WTR-HSW-002-OGSM-v5.md,儲存在 Waterson AI Growth System 的私有 repo 中。v4 版本保留在 WTR-HSW-002-OGSM-v4.md(人類迭代時代終點),更早的歷史版本(v1/v2/v3)也保留在同一 repo 中供比較。
factory-run-artifacts/ 包含完整的 gotchas-and-lessons.md 和 patterns-library.md,可以透過 get_gotchas_for_context.sh 和 get_patterns_for_failure.sh 查詢。