真實案例：15 個 AI Agent 的 OGSM 實作

建築師教育課程 HSW-002 的完整 OGSM 工作計畫 • 2026-04-08 • 已由 v2 取代

這是什麼？

這個頁面展示 HSW-002（Spring Hinge vs Self-Closing Hinge）AIA 課程的實際 OGSM 規劃。這不是示範用的假案例——這是我們在製作這門課程時，真正使用的工作計畫。

為什麼分享這份文件？

很多人看到「OGSM」這個詞，腦中只有空洞的表格。我們希望讓你看到一個真實運作的 OGSM 長什麼樣——每個 agent 的 G 是可衡量的，S 是具體的操作方法，O 的對齊是說得清楚的邏輯，而不是口號。

如果你還沒讀過主文章，建議先回去看架構說明：

→ 回到主文章：如何組建有效率的 AI Agent 團隊

總目標 O（Objective）

O — Objective

讓建築師真正理解 spring hinge 和 self-closing hinge 的根本技術差異，能夠在專案中做出基於法規、功能、長期成本的正確選擇——而不是根據慣性、品牌偏好、或表面特徵。課程結束時學員應該能獨立判斷任何門五金規格的合規性和適用性。

注意：O 的達成標準不是「課程發布」，而是「建築師真的學會了」。這個差異驅動了整個 OGSM 的設計——特別是 Wave Gate 2 的學習成果驗證。

團隊結構總覽（15 個角色）

Wave 1 — 研究與初稿

👑 指揮官
🔍 調查員 A
🔎 調查員 B
✍️ 寫手 A
✍️ 寫手 B
🎨 互動設計師

生產原始素材：案例、法規、成本數據、課程初稿、互動設計

Wave 2 — 品質審查

📋 內容總監
✅ 合規審查員
📝 文字編輯
🔢 事實查核員
📎 資料來源審查

確保內容正確、合規、清晰，每個都有明確的通過標準

Wave 3 — 整合部署

💻 HTML 工程師
👑 指揮官（最終確認）

生產可部署的 HTML，通過 W3C 驗證、無障礙審查、效能測試

Measurement Layer — 持續監控

📊 績效督導
🔍 品質稽核員
🎓 學習成果驗證

三層監控：G 達成率、S 格式合規、直接測量 O

每個角色的 OGSM 詳細內容

以下是 15 個角色各自的 G（可衡量目標）和 S（執行策略）摘要，以及如何對齊總目標 O。

👑

指揮官（Commander / A君）

Wave 1 + 全程

G — 關鍵可衡量目標

在 3-wave 生產週期內交付 1 個可部署的 AIA HSW 課程 HTML 檔案
15 個 agent 各自在開始前收到含 100% 必要輸入的任務說明
所有阻礙問題在 1 個任務週期內解決（零遺留）
最終交付物通過 3 個 Measurement Layer agent 的驗證才部署
部署後產出 OGSM 回顧報告，記錄計畫 vs. 實際 G 達成率

S — 主要策略

用 Task 系統追蹤每個 agent 狀態；每次 wave 交接後更新
Wave 1 並行執行；Wave 2 開始前由 Measurement Layer 完成預檢
每個 wave gate 審查 Measurement Layer 報告後才授權下一 wave

對齊 O：協調所有 15 個 agent 朝向同一個 O，確保沒有 agent 孤立運作，最終課程能一致達成學習目標。

🔍

調查員 A — 案例與數據

Wave 1

G — 關鍵可衡量目標

交付 1 份研究報告：research-course002-cases.md
最少 5 個真實案例（含火災評級案例至少 1 個、2020 後案例至少 1 個）
每個案例至少 3 個可驗證的引用來源
至少 2 個記錄了因鉸鏈選擇錯誤導致失敗或違規的案例

S — 主要策略

使用 Gemini CLI Google Search grounding 搜尋 NFPA 案例、DHI 出版物、AHJ 檢驗失敗報告
交叉對照 Waterson 內部研究檔案（/docs/aia-course/）

對齊 O：真實案例讓建築師從「知道差異」升級到「知道為什麼這個選擇很重要」——轉換為以證據為基礎的決策本能。

🔎

調查員 B — 法規與成本

Wave 1

G — 關鍵可衡量目標

交付 1 份研究報告：research-course002-codes-cost.md
涵蓋至少 4 個法規來源（IBC、IFC、NFPA 80、NFPA 101、ADA/ICC A117.1），附精確章節號碼
生命週期成本比較表涵蓋 3 個時間段（5 年、10 年、20 年）
找出至少 3 個法規情境，其中一種五金是必須選項（非偏好）

S — 主要策略

Gemini CLI 搜尋最新版本法規；標注各州差異（CA、NY、TX、FL、IL 5 州）
成本數據來源：GSA、設施管理期刊、同儕審查建築科學期刊

對齊 O：能引用精確法規章節並比較 20 年成本的建築師，能向客戶、承包商和 AHJ 為其規格決定辯護——這正是 O 要求的核心能力。

✍️

寫手 A — 前半段（理論與機制）

Wave 1

G — 關鍵可衡量目標

交付投影片 1–12（課程前 30 分鐘）
內容涵蓋：課程框架、「錯誤假設」開場鉤、spring hinge 機械原理、self-closing hinge 機械原理、並排技術比較
最少 2 個互動檢查點（含題目 + 選項 + 正確答案說明）
每張投影片有講師備忘（最少 2 句）

S — 主要策略

AIA CEU 風格：問題導向，從建築師熟悉的場景切入，再建立技術說明
用 Gemini 檢查說明對非五金專業建築師的清晰度

對齊 O：前半段建立概念基礎——如果建築師離開這個段落時仍不理解機械差異，他們就無法做出正確決策，後半段的應用練習也會失效。

✍️

寫手 B — 後半段（應用與決策）

Wave 1

G — 關鍵可衡量目標

交付投影片 13–24（課程後 30 分鐘）
內容涵蓋：法規合規情境、3 種建案類型決策演練（商辦、醫療、教育）、決策框架、常見規格錯誤
最少 3 個互動檢查點，至少 1 個情境式決策練習（非單純記憶題）
交付 1 個建築師可實際使用於未來專案的決策樹或清單工具

S — 主要策略

情境練習使用 Given-When-Then 格式
所有規格錯誤範例可追溯到調查員的原始數據（不能自創）

對齊 O：後半段是建築師實際練習做出正確決策的地方。少了應用練習和可重用的決策工具，課程只傳授知識而非能力——直接破壞 O 的核心要求。

🎨

互動設計師

Wave 1

G — 關鍵可衡量目標

更新故事板檔案：storyboard-002.md
定義全課程至少 5 個互動檢查點的完整規格（觸發條件、題目格式、錯誤選項邏輯、回饋文字）
交付至少 3 個資料視覺化時刻的視覺佈局描述（機制比較圖、生命週期成本圖、決策樹）

S — 主要策略

AIA 互動原則：每 10 分鐘內容至少 1 個參與點
只使用純 HTML/CSS/JS，不依賴外部框架（與 HTML 工程師協調可行性）

對齊 O：互動設計決定建築師是主動處理還是被動閱讀。正確設計的檢查點強迫大腦進行決策練習，這正是 O 要求的——沒有它，課程完成不等於能力發展。

📋

內容總監

Wave 2

G — 關鍵可衡量目標

交付 1 份編輯審查報告：review-002-content.md，涵蓋全部 24 張投影片
標記所有：缺乏來源引用的說法、假設受眾有五金專業知識的說明、法規說教語氣
最終報告確認：互動檢查點數量達 AIA 最低要求、3 種建案類型演練都有、決策工具存在且可用

S — 主要策略

對照 AIA CEU 標準評估：問題導向、受眾適合（持照建築師，非五金專業）、整體類別視角
使用 Gemini Flash 檢查每張投影片的可讀性分數和術語密度

對齊 O：若沒有一個強制執行受眾適合框架的門檻，課程可能技術上正確但對建築師毫無用處。內容總監保護 O 的「實際可用性」這半邊。

✅

合規審查員

Wave 2

G — 關鍵可衡量目標

交付合規稽核報告：review-002-compliance.md
確認 4 個標準 AIA 學習目標都在課程內容中有明確對應（附投影片編號引用）
標記任何可能構成廠商推薦的內容（違反 AIA 供應商中立要求）
確認課程時長與實際內容量相符

S — 主要策略

參照 AIA CES Provider Manual 現行版要求
供應商中立問題即時升報給指揮官（不等到 wave 結束）

對齊 O：未通過 AIA 認可的課程永遠到不了建築師手上。合規是 O 能被嘗試達成的先決條件，是強制門檻，不是加分選項。

📝

文字編輯

Wave 2

G — 關鍵可衡量目標

零容忍：被動語態、超過 25 字的投影片正文句子、首次出現未定義的技術縮寫
統一全課程術語（spring hinge、self-closing hinge、door closer、fire-rated assembly）
確認 24 張投影片各有 1 個講師備忘（共 24 個）
順帶產出術語表：glossary-002.md（10–15 個關鍵術語）

S — 主要策略

先用 Gemini Flash 初步掃描被動語態和句子長度，再人工審查
不自動套用 AI 編輯建議，每條需要判斷才採用

對齊 O：清晰度是理解的前提。建築師若需要重讀投影片才能解析意思，認知負荷上升、決策練習減少。乾淨的語言直接服務 O 的學習成果。

🔢

事實查核員

Wave 2

G — 關鍵可衡量目標

查核 100% 的數字聲明：統計數據、百分比、成本數字、法規章節編號、年份、荷重額定值、關門力值
每個聲明標記：已驗證 / 未驗證 / 不正確
最終課程零個「不正確」；「未驗證」不超過 5%（需標記為「估計值」）

S — 主要策略

使用 Gemini Pro + Google Search grounding 逐一驗證每個數字聲明
以調查員 B 的研究報告作為主要基準來源

對齊 O：建築師基於課程內容做法律和安全決策。一個錯誤的法規章節號碼或成本數字，可能導致檢驗失敗、責任索賠或火災安全事故。事實準確度直接與 O 的「正確決策」成果相連。

📎

資料來源審查員

Wave 2

G — 關鍵可衡量目標

驗證所有來源引用：URL 可達性、2018 年前引用的法規須標記（可能引用過時版本）
確認來源多樣性：任何單一組織不超過全部引用的 40%
找出任何可能被視為廠商背書的引用，轉介給合規審查員
產出 1 份 AIA 相容格式的參考文獻清單

S — 主要策略

使用 Gemini Flash 批次測試每個 URL 的 HTTP 狀態
人工審查出版日期相關性和來源多樣性計算

對齊 O：來源可信度決定課程能否獲得建築師信任。如果引用失效、過時或來源集中，課程就無法滿足 O 要求的「基於法規、功能和成本」的決策循證標準。

💻

HTML 工程師

Wave 3

G — 關鍵可衡量目標

交付 1 個生產就緒的 HTML 檔案：WTR-HSW-002-full-course.html
通過 W3C HTML 驗證，零錯誤
所有互動檢查點正常運作（題目顯示、答案選取、回饋文字、進度追蹤）
在至少 3 個螢幕尺寸正確渲染（1920×1080、1366×768、375×812）
標準寬頻下頁面載入時間低於 3 秒；無外部 CDN 依賴
WCAG 2.1 AA 通過：所有圖片有 alt text，所有互動元素可鍵盤操作

S — 主要策略

只使用純 JavaScript，不使用 React 或外部函式庫
輸出：單一自包含的 HTML 檔案

對齊 O：HTML 檔案就是課程本身。如果互動功能損壞、無障礙失敗或效能不佳，建築師就無法與內容互動——無論文字內容多好，O 都無法達成。

📊

績效督導

Measurement Layer

G — 關鍵可衡量目標

每個 wave 完成後交付 1 份即時監控儀表板更新
每份報告包含：agent 名稱、G 狀態、實際交付 vs. 計畫交付、G 差距分析
標記任何實際交付偏離承諾 G 超過 20% 的 agent
最終匯總報告：monitor-002-final.md，記錄所有 15 個 agent 的整體 G 達成率

對齊 O：如果 agent 沒有達成其 G 承諾，O 就面臨風險。績效督導是早期預警系統，防止 Wave 3 才發現 Wave 1 的失敗——早期發現意味著 O 仍然可以被挽救。

🔍

品質稽核員

Measurement Layer

G — 關鍵可衡量目標

每個 wave 交付 1 份品質稽核報告
驗證實際交付物是否符合每個 agent 承諾的 S（格式、檔案命名、必要段落、工具使用記錄）
特別標記：通過 G 檢查但未通過 S 檢查的交付物（如研究報告有 5 個案例但引用格式不符規格）
確認交接就緒：下一個 wave 的 agent 能直接使用這個交付物作為輸入，不需要重新格式化

對齊 O：G 衡量交付了什麼，S 衡量交付的可靠性。品質達到數量要求但結構混亂的交付物會打亂下游 agent 工作流程。品質稽核員確保生產鏈無摩擦運行，保護 O 的時間線。

🎓

學習成果驗證員

Measurement Layer

G — 關鍵可衡量目標（最關鍵）

交付驗證報告：validate-002-learning.md
模擬 3 個不同建築師角色讀完課程：(1) 無五金專業的通才建築師；(2) 習慣預設選 spring hinge 的建築師；(3) 熟悉 door closer 但不熟 spring hinge 的建築師
每個角色驗證：完成課程後能否正確回答 5 道決策題？（記錄推理過程，非只回答是/否）
找出至少 3 個特定內容缺口，在這些地方，某個角色的既有思維模型會讓他在讀完課程後仍得出錯誤結論

S — 主要策略

獨立開發 5 道決策題（基於 O 的學習目標，非基於課程自身的評量題）
使用 Gemini Pro 角色模擬 prompt 進行測試
若任何角色 2+ 題答錯，立即升報給指揮官並附具體修改建議，在 HTML 生產開始前處理

對齊 O：O 不是在課程發布時達成的——而是在建築師讀完後能正確規格化門五金時達成的。學習成果驗證員是唯一直接衡量 O 的 agent。沒有這個驗證，部署只是希望，不是證據。

對齊性驗證矩陣

角色	主要交付	貢獻的 O 維度	G 失敗的風險
👑 指揮官	協調所有 15 個 agent	所有 O 維度	整個專案失敗
🔍 調查員 A	5 個含引用的真實案例	「非根據慣性」— 證據基礎	建築師缺乏真實世界背景
🔎 調查員 B	法規章節 + 生命週期成本	「基於法規、功能、長期成本」	O 的 3 個決策維度少了 2 個
✍️ 寫手 A	投影片 1–12：理論與機制	「真正理解根本技術差異」	沒有概念基礎，決策無從建立
✍️ 寫手 B	投影片 13–24：應用與決策工具	「獨立判斷任何規格」	有知識但無能力
🎨 互動設計師	5 個互動點 + 3 個資料視覺化	主動處理 → 決策練習	被動閱讀，零能力轉移
📋 內容總監	強制受眾適合性的編輯通過	「建築師」（非五金工程師）	技術上正確但實際無用
✅ 合規審查員	AIA HSW 認可驗證	課程能到達建築師手上	從未發布，O 從未被嘗試
📝 文字編輯	清晰度 + 術語一致性	理解的前提	認知過載阻礙學習
🔢 事實查核員	100% 數字聲明驗證	「基於法規和成本的正確決策」	錯誤數據 → 錯誤決策
📎 資料來源審查	引用驗證 + 參考文獻清單	可信度 + 法律可辯性	建築師信任失敗
💻 HTML 工程師	生產就緒 HTML，互動功能完整	課程可存取且功能正常	O 的交付機制失敗
📊 績效督導	逐 Wave 的 G 達成率監控	早期發現差距 → 可挽救 O	Wave 3 才發現 Wave 1 失敗
🔍 品質稽核員	S 合規驗證	生產鏈完整性	下游 agent 工作流程中斷
🎓 學習成果驗證	角色模擬 O 衡量	部署前直接驗證 O	在沒有達成證明的情況下部署

Wave Gate 條件（4 個關卡）

每個 Gate 是進入下一個 Wave 的通過條件。指揮官必須確認所有條件達成才能授權繼續。

關鍵設計洞見

“

O 不是在「課程發布」時達成的，而是在「讀者真的學會」時達成的。

這句話聽起來像廢話，但它驅動了整個 OGSM 最重要的結構決策：Wave Gate 2 必須包含學習成果驗證，而且這個驗證必須由一個獨立的、不負責生產課程的 agent 來執行。

學習成果驗證員（Learning Outcome Validator）是 15 個 agent 中唯一的工作是直接衡量 O 的人。其他 agent 的工作都是為 O 建立條件——只有這個 agent 在問：「建築師真的學會了嗎？」

沒有這個驗證，部署只是希望，不是證據。

這個設計來自一個核心認識：在 AI agent 系統中，生產端和驗證端必須分離。讓寫手自己評估學習成果，等同於讓學生自己批改考卷。唯有將驗證職責獨立出來，才能讓 O 真正成為可測量的目標，而不是一個口號。

下一步

這份 OGSM 的原始 Markdown 檔案

這份展示頁面的所有內容來自真實的工作計畫文件 WTR-HSW-002-OGSM.md，儲存在 Waterson AI Growth System 的私有 repo 中。

如果你正在考慮為自己的 AI 團隊建立類似的 OGSM 結構，文章中分享了一個可以直接 fork 的 starter kit 模板。

真實案例：15 個 AI Agent 的 OGSM 實作（v1 原版）

這是什麼？

為什麼分享這份文件？

總目標 O（Objective）

團隊結構總覽（15 個角色）

Wave 1 — 研究與初稿

Wave 2 — 品質審查

Wave 3 — 整合部署

Measurement Layer — 持續監控

每個角色的 OGSM 詳細內容

指揮官（Commander / A君）

調查員 A — 案例與數據

調查員 B — 法規與成本

寫手 A — 前半段（理論與機制）

寫手 B — 後半段（應用與決策）

互動設計師

內容總監

合規審查員

文字編輯

事實查核員

資料來源審查員

HTML 工程師

績效督導

品質稽核員

學習成果驗證員

對齊性驗證矩陣

Wave Gate 條件（4 個關卡）

Gate 0 → Wave 1 開始

Gate 1 → Wave 2 開始（績效督導把關）

Gate 2 → Wave 3 開始（最關鍵）

Gate 3 → 部署

關鍵設計洞見

下一步

想了解這個架構如何建立起來？

這份 OGSM 的原始 Markdown 檔案

真實案例：15 個 AI Agent 的 OGSM 實作（v1 原版）

這是什麼？

為什麼分享這份文件？

總目標 O（Objective）

團隊結構總覽（15 個角色）

Wave 1 — 研究與初稿

Wave 2 — 品質審查

Wave 3 — 整合部署

Measurement Layer — 持續監控

每個角色的 OGSM 詳細內容

指揮官（Commander / A君）

調查員 A — 案例與數據

調查員 B — 法規與成本

寫手 A — 前半段（理論與機制）

寫手 B — 後半段（應用與決策）

互動設計師

內容總監

合規審查員

文字編輯

事實查核員

資料來源審查員

HTML 工程師

績效督導

品質稽核員

學習成果驗證員

對齊性驗證矩陣

Wave Gate 條件（4 個關卡）

Gate 0 → Wave 1 開始

Gate 1 → Wave 2 開始（績效督導把關）

Gate 2 → Wave 3 開始 （最關鍵）

Gate 3 → 部署

關鍵設計洞見

下一步

想了解這個架構如何建立起來？

這份 OGSM 的原始 Markdown 檔案

Gate 2 → Wave 3 開始（最關鍵）