真實案例:15 個 AI Agent 的 OGSM 實作(v1 原版)
建築師教育課程 HSW-002 的完整 OGSM 工作計畫 • 2026-04-08 • 已由 v2 取代
這是什麼?
這個頁面展示 HSW-002(Spring Hinge vs Self-Closing Hinge)AIA 課程的實際 OGSM 規劃。這不是示範用的假案例——這是我們在製作這門課程時,真正使用的工作計畫。
為什麼分享這份文件?
很多人看到「OGSM」這個詞,腦中只有空洞的表格。我們希望讓你看到一個真實運作的 OGSM 長什麼樣——每個 agent 的 G 是可衡量的,S 是具體的操作方法,O 的對齊是說得清楚的邏輯,而不是口號。
如果你還沒讀過主文章,建議先回去看架構說明:
→ 回到主文章:如何組建有效率的 AI Agent 團隊
總目標 O(Objective)
整個 15 人團隊只有一個 O,所有 G 和 S 都對齊這個目標:
O — Objective
讓建築師真正理解 spring hinge 和 self-closing hinge 的根本技術差異,能夠在專案中做出基於法規、功能、長期成本的正確選擇——而不是根據慣性、品牌偏好、或表面特徵。課程結束時學員應該能獨立判斷任何門五金規格的合規性和適用性。
注意:O 的達成標準不是「課程發布」,而是「建築師真的學會了」。這個差異驅動了整個 OGSM 的設計——特別是 Wave Gate 2 的學習成果驗證。
團隊結構總覽(15 個角色)
Wave 1 — 研究與初稿
- 👑 指揮官
- 🔍 調查員 A
- 🔎 調查員 B
- ✍️ 寫手 A
- ✍️ 寫手 B
- 🎨 互動設計師
生產原始素材:案例、法規、成本數據、課程初稿、互動設計
Wave 2 — 品質審查
- 📋 內容總監
- ✅ 合規審查員
- 📝 文字編輯
- 🔢 事實查核員
- 📎 資料來源審查
確保內容正確、合規、清晰,每個都有明確的通過標準
Wave 3 — 整合部署
生產可部署的 HTML,通過 W3C 驗證、無障礙審查、效能測試
Measurement Layer — 持續監控
三層監控:G 達成率、S 格式合規、直接測量 O
每個角色的 OGSM 詳細內容
以下是 15 個角色各自的 G(可衡量目標)和 S(執行策略)摘要,以及如何對齊總目標 O。
G — 關鍵可衡量目標
- 在 3-wave 生產週期內交付 1 個可部署的 AIA HSW 課程 HTML 檔案
- 15 個 agent 各自在開始前收到含 100% 必要輸入的任務說明
- 所有阻礙問題在 1 個任務週期內解決(零遺留)
- 最終交付物通過 3 個 Measurement Layer agent 的驗證才部署
- 部署後產出 OGSM 回顧報告,記錄計畫 vs. 實際 G 達成率
S — 主要策略
- 用 Task 系統追蹤每個 agent 狀態;每次 wave 交接後更新
- Wave 1 並行執行;Wave 2 開始前由 Measurement Layer 完成預檢
- 每個 wave gate 審查 Measurement Layer 報告後才授權下一 wave
對齊 O:協調所有 15 個 agent 朝向同一個 O,確保沒有 agent 孤立運作,最終課程能一致達成學習目標。
G — 關鍵可衡量目標
- 交付 1 份研究報告:
research-course002-cases.md
- 最少 5 個真實案例(含火災評級案例至少 1 個、2020 後案例至少 1 個)
- 每個案例至少 3 個可驗證的引用來源
- 至少 2 個記錄了因鉸鏈選擇錯誤導致失敗或違規的案例
S — 主要策略
- 使用 Gemini CLI Google Search grounding 搜尋 NFPA 案例、DHI 出版物、AHJ 檢驗失敗報告
- 交叉對照 Waterson 內部研究檔案(
/docs/aia-course/)
對齊 O:真實案例讓建築師從「知道差異」升級到「知道為什麼這個選擇很重要」——轉換為以證據為基礎的決策本能。
G — 關鍵可衡量目標
- 交付 1 份研究報告:
research-course002-codes-cost.md
- 涵蓋至少 4 個法規來源(IBC、IFC、NFPA 80、NFPA 101、ADA/ICC A117.1),附精確章節號碼
- 生命週期成本比較表涵蓋 3 個時間段(5 年、10 年、20 年)
- 找出至少 3 個法規情境,其中一種五金是必須選項(非偏好)
S — 主要策略
- Gemini CLI 搜尋最新版本法規;標注各州差異(CA、NY、TX、FL、IL 5 州)
- 成本數據來源:GSA、設施管理期刊、同儕審查建築科學期刊
對齊 O:能引用精確法規章節並比較 20 年成本的建築師,能向客戶、承包商和 AHJ 為其規格決定辯護——這正是 O 要求的核心能力。
G — 關鍵可衡量目標
- 交付投影片 1–12(課程前 30 分鐘)
- 內容涵蓋:課程框架、「錯誤假設」開場鉤、spring hinge 機械原理、self-closing hinge 機械原理、並排技術比較
- 最少 2 個互動檢查點(含題目 + 選項 + 正確答案說明)
- 每張投影片有講師備忘(最少 2 句)
S — 主要策略
- AIA CEU 風格:問題導向,從建築師熟悉的場景切入,再建立技術說明
- 用 Gemini 檢查說明對非五金專業建築師的清晰度
對齊 O:前半段建立概念基礎——如果建築師離開這個段落時仍不理解機械差異,他們就無法做出正確決策,後半段的應用練習也會失效。
G — 關鍵可衡量目標
- 交付投影片 13–24(課程後 30 分鐘)
- 內容涵蓋:法規合規情境、3 種建案類型決策演練(商辦、醫療、教育)、決策框架、常見規格錯誤
- 最少 3 個互動檢查點,至少 1 個情境式決策練習(非單純記憶題)
- 交付 1 個建築師可實際使用於未來專案的決策樹或清單工具
S — 主要策略
- 情境練習使用 Given-When-Then 格式
- 所有規格錯誤範例可追溯到調查員的原始數據(不能自創)
對齊 O:後半段是建築師實際練習做出正確決策的地方。少了應用練習和可重用的決策工具,課程只傳授知識而非能力——直接破壞 O 的核心要求。
G — 關鍵可衡量目標
- 更新故事板檔案:
storyboard-002.md
- 定義全課程至少 5 個互動檢查點的完整規格(觸發條件、題目格式、錯誤選項邏輯、回饋文字)
- 交付至少 3 個資料視覺化時刻的視覺佈局描述(機制比較圖、生命週期成本圖、決策樹)
S — 主要策略
- AIA 互動原則:每 10 分鐘內容至少 1 個參與點
- 只使用純 HTML/CSS/JS,不依賴外部框架(與 HTML 工程師協調可行性)
對齊 O:互動設計決定建築師是主動處理還是被動閱讀。正確設計的檢查點強迫大腦進行決策練習,這正是 O 要求的——沒有它,課程完成不等於能力發展。
G — 關鍵可衡量目標
- 交付 1 份編輯審查報告:
review-002-content.md,涵蓋全部 24 張投影片
- 標記所有:缺乏來源引用的說法、假設受眾有五金專業知識的說明、法規說教語氣
- 最終報告確認:互動檢查點數量達 AIA 最低要求、3 種建案類型演練都有、決策工具存在且可用
S — 主要策略
- 對照 AIA CEU 標準評估:問題導向、受眾適合(持照建築師,非五金專業)、整體類別視角
- 使用 Gemini Flash 檢查每張投影片的可讀性分數和術語密度
對齊 O:若沒有一個強制執行受眾適合框架的門檻,課程可能技術上正確但對建築師毫無用處。內容總監保護 O 的「實際可用性」這半邊。
G — 關鍵可衡量目標
- 交付合規稽核報告:
review-002-compliance.md
- 確認 4 個標準 AIA 學習目標都在課程內容中有明確對應(附投影片編號引用)
- 標記任何可能構成廠商推薦的內容(違反 AIA 供應商中立要求)
- 確認課程時長與實際內容量相符
S — 主要策略
- 參照 AIA CES Provider Manual 現行版要求
- 供應商中立問題即時升報給指揮官(不等到 wave 結束)
對齊 O:未通過 AIA 認可的課程永遠到不了建築師手上。合規是 O 能被嘗試達成的先決條件,是強制門檻,不是加分選項。
G — 關鍵可衡量目標
- 零容忍:被動語態、超過 25 字的投影片正文句子、首次出現未定義的技術縮寫
- 統一全課程術語(spring hinge、self-closing hinge、door closer、fire-rated assembly)
- 確認 24 張投影片各有 1 個講師備忘(共 24 個)
- 順帶產出術語表:
glossary-002.md(10–15 個關鍵術語)
S — 主要策略
- 先用 Gemini Flash 初步掃描被動語態和句子長度,再人工審查
- 不自動套用 AI 編輯建議,每條需要判斷才採用
對齊 O:清晰度是理解的前提。建築師若需要重讀投影片才能解析意思,認知負荷上升、決策練習減少。乾淨的語言直接服務 O 的學習成果。
G — 關鍵可衡量目標
- 查核 100% 的數字聲明:統計數據、百分比、成本數字、法規章節編號、年份、荷重額定值、關門力值
- 每個聲明標記:已驗證 / 未驗證 / 不正確
- 最終課程零個「不正確」;「未驗證」不超過 5%(需標記為「估計值」)
S — 主要策略
- 使用 Gemini Pro + Google Search grounding 逐一驗證每個數字聲明
- 以調查員 B 的研究報告作為主要基準來源
對齊 O:建築師基於課程內容做法律和安全決策。一個錯誤的法規章節號碼或成本數字,可能導致檢驗失敗、責任索賠或火災安全事故。事實準確度直接與 O 的「正確決策」成果相連。
G — 關鍵可衡量目標
- 驗證所有來源引用:URL 可達性、2018 年前引用的法規須標記(可能引用過時版本)
- 確認來源多樣性:任何單一組織不超過全部引用的 40%
- 找出任何可能被視為廠商背書的引用,轉介給合規審查員
- 產出 1 份 AIA 相容格式的參考文獻清單
S — 主要策略
- 使用 Gemini Flash 批次測試每個 URL 的 HTTP 狀態
- 人工審查出版日期相關性和來源多樣性計算
對齊 O:來源可信度決定課程能否獲得建築師信任。如果引用失效、過時或來源集中,課程就無法滿足 O 要求的「基於法規、功能和成本」的決策循證標準。
G — 關鍵可衡量目標
- 交付 1 個生產就緒的 HTML 檔案:
WTR-HSW-002-full-course.html
- 通過 W3C HTML 驗證,零錯誤
- 所有互動檢查點正常運作(題目顯示、答案選取、回饋文字、進度追蹤)
- 在至少 3 個螢幕尺寸正確渲染(1920×1080、1366×768、375×812)
- 標準寬頻下頁面載入時間低於 3 秒;無外部 CDN 依賴
- WCAG 2.1 AA 通過:所有圖片有 alt text,所有互動元素可鍵盤操作
S — 主要策略
- 只使用純 JavaScript,不使用 React 或外部函式庫
- 輸出:單一自包含的 HTML 檔案
對齊 O:HTML 檔案就是課程本身。如果互動功能損壞、無障礙失敗或效能不佳,建築師就無法與內容互動——無論文字內容多好,O 都無法達成。
G — 關鍵可衡量目標
- 每個 wave 完成後交付 1 份即時監控儀表板更新
- 每份報告包含:agent 名稱、G 狀態、實際交付 vs. 計畫交付、G 差距分析
- 標記任何實際交付偏離承諾 G 超過 20% 的 agent
- 最終匯總報告:
monitor-002-final.md,記錄所有 15 個 agent 的整體 G 達成率
對齊 O:如果 agent 沒有達成其 G 承諾,O 就面臨風險。績效督導是早期預警系統,防止 Wave 3 才發現 Wave 1 的失敗——早期發現意味著 O 仍然可以被挽救。
G — 關鍵可衡量目標
- 每個 wave 交付 1 份品質稽核報告
- 驗證實際交付物是否符合每個 agent 承諾的 S(格式、檔案命名、必要段落、工具使用記錄)
- 特別標記:通過 G 檢查但未通過 S 檢查的交付物(如研究報告有 5 個案例但引用格式不符規格)
- 確認交接就緒:下一個 wave 的 agent 能直接使用這個交付物作為輸入,不需要重新格式化
對齊 O:G 衡量交付了什麼,S 衡量交付的可靠性。品質達到數量要求但結構混亂的交付物會打亂下游 agent 工作流程。品質稽核員確保生產鏈無摩擦運行,保護 O 的時間線。
G — 關鍵可衡量目標(最關鍵)
- 交付驗證報告:
validate-002-learning.md
- 模擬 3 個不同建築師角色讀完課程:(1) 無五金專業的通才建築師;(2) 習慣預設選 spring hinge 的建築師;(3) 熟悉 door closer 但不熟 spring hinge 的建築師
- 每個角色驗證:完成課程後能否正確回答 5 道決策題?(記錄推理過程,非只回答是/否)
- 找出至少 3 個特定內容缺口,在這些地方,某個角色的既有思維模型會讓他在讀完課程後仍得出錯誤結論
S — 主要策略
- 獨立開發 5 道決策題(基於 O 的學習目標,非基於課程自身的評量題)
- 使用 Gemini Pro 角色模擬 prompt 進行測試
- 若任何角色 2+ 題答錯,立即升報給指揮官並附具體修改建議,在 HTML 生產開始前處理
對齊 O:O 不是在課程發布時達成的——而是在建築師讀完後能正確規格化門五金時達成的。學習成果驗證員是唯一直接衡量 O 的 agent。沒有這個驗證,部署只是希望,不是證據。
對齊性驗證矩陣
| 角色 |
主要交付 |
貢獻的 O 維度 |
G 失敗的風險 |
| 👑 指揮官 |
協調所有 15 個 agent |
所有 O 維度 |
整個專案失敗 |
| 🔍 調查員 A |
5 個含引用的真實案例 |
「非根據慣性」— 證據基礎 |
建築師缺乏真實世界背景 |
| 🔎 調查員 B |
法規章節 + 生命週期成本 |
「基於法規、功能、長期成本」 |
O 的 3 個決策維度少了 2 個 |
| ✍️ 寫手 A |
投影片 1–12:理論與機制 |
「真正理解根本技術差異」 |
沒有概念基礎,決策無從建立 |
| ✍️ 寫手 B |
投影片 13–24:應用與決策工具 |
「獨立判斷任何規格」 |
有知識但無能力 |
| 🎨 互動設計師 |
5 個互動點 + 3 個資料視覺化 |
主動處理 → 決策練習 |
被動閱讀,零能力轉移 |
| 📋 內容總監 |
強制受眾適合性的編輯通過 |
「建築師」(非五金工程師) |
技術上正確但實際無用 |
| ✅ 合規審查員 |
AIA HSW 認可驗證 |
課程能到達建築師手上 |
從未發布,O 從未被嘗試 |
| 📝 文字編輯 |
清晰度 + 術語一致性 |
理解的前提 |
認知過載阻礙學習 |
| 🔢 事實查核員 |
100% 數字聲明驗證 |
「基於法規和成本的正確決策」 |
錯誤數據 → 錯誤決策 |
| 📎 資料來源審查 |
引用驗證 + 參考文獻清單 |
可信度 + 法律可辯性 |
建築師信任失敗 |
| 💻 HTML 工程師 |
生產就緒 HTML,互動功能完整 |
課程可存取且功能正常 |
O 的交付機制失敗 |
| 📊 績效督導 |
逐 Wave 的 G 達成率監控 |
早期發現差距 → 可挽救 O |
Wave 3 才發現 Wave 1 失敗 |
| 🔍 品質稽核員 |
S 合規驗證 |
生產鏈完整性 |
下游 agent 工作流程中斷 |
| 🎓 學習成果驗證 |
角色模擬 O 衡量 |
部署前直接驗證 O |
在沒有達成證明的情況下部署 |
Wave Gate 條件(4 個關卡)
每個 Gate 是進入下一個 Wave 的通過條件。指揮官必須確認所有條件達成才能授權繼續。
-
0
Gate 0 → Wave 1 開始
- OGSM 文件完成並經使用者確認
- 所有 Wave 1 agent 已收到含輸入檔案、輸出格式、驗收標準的任務說明
-
1
Gate 1 → Wave 2 開始(績效督導把關)
- 所有 5 個 Wave 1 交付物完成
- 績效督導報告:沒有任何 agent G 差距超過 20%
- 品質稽核員報告:所有交付物確認為交接就緒狀態
-
2
Gate 2 → Wave 3 開始 (最關鍵)
- 所有 5 個 Wave 2 交付物完成
- 績效督導報告:無阻礙問題
- 品質稽核員報告:所有交付物交接就緒
- 學習成果驗證員報告:3 個角色均至少答對 5 題中的 4 題(4/5 最低通過率)
若任何角色未達 4/5,必須退回 Wave 2 修訂,不得進入 HTML 生產。
-
3
Gate 3 → 部署
- HTML 工程師的檔案通過 W3C 驗證
- 指揮官最終審查完成
/security-check 通過
git push 由指揮官授權
關鍵設計洞見
“
O 不是在「課程發布」時達成的,而是在「讀者真的學會」時達成的。
這句話聽起來像廢話,但它驅動了整個 OGSM 最重要的結構決策:Wave Gate 2 必須包含學習成果驗證,而且這個驗證必須由一個獨立的、不負責生產課程的 agent 來執行。
學習成果驗證員(Learning Outcome Validator)是 15 個 agent 中唯一的工作是直接衡量 O 的人。其他 agent 的工作都是為 O 建立條件——只有這個 agent 在問:「建築師真的學會了嗎?」
沒有這個驗證,部署只是希望,不是證據。
這個設計來自一個核心認識:在 AI agent 系統中,生產端和驗證端必須分離。讓寫手自己評估學習成果,等同於讓學生自己批改考卷。唯有將驗證職責獨立出來,才能讓 O 真正成為可測量的目標,而不是一個口號。
下一步
這份 OGSM 的原始 Markdown 檔案
這份展示頁面的所有內容來自真實的工作計畫文件 WTR-HSW-002-OGSM.md,儲存在 Waterson AI Growth System 的私有 repo 中。
如果你正在考慮為自己的 AI 團隊建立類似的 OGSM 結構,文章中分享了一個可以直接 fork 的 starter kit 模板。