Door Hinge Knowledge Hub by Watersonusa

OGSM AI Agent 團隊 SOP — 標準作業流程

內部參考文件 • 版本 1.0 • 建立:2026-04-16
來源:HSW-002 v5.2(19-agent fleet)、Blog Writer Fleet v2(9-agent fleet)、4-Robot Factory、12 條 feedback rules。 本文件定義從「新任務進來」到「團隊交付成果」的完整標準作業流程。
Part讀者內容
Part A OGSM 顧問 / 講師 OGSM 品質指南(無 AI 術語)
Part B AI 操作者 技術流程(8 個 Phase)
Part C 兩者 連接點:顧問建議如何落地
本段落專為 OGSM 專家設計,不包含任何 AI 技術術語。
目的:讓 OGSM 顧問能獨立閱讀此段落,針對「團隊角色的 OGSM 該怎麼寫」給出建議。
點擊各區塊標題可展開或收合
O(Objective)怎麼寫
O 是整個團隊的最終目的地

O 是整個團隊的最終目的地。所有角色的工作最終都要匯入這個目標。

原則

  1. 以受眾為主語:O 的主詞是「讀者 / 使用者 / 客戶」,不是「我們的團隊」
  2. 包含情感結果:不只是「完成什麼」,而是受眾「感受到什麼」
  3. 可想像的成功畫面:讀完 O,腦中能浮現一個具體場景

好的寫法 vs 壞的寫法

❌ 「製作一份高品質的線上課程」
問題:主詞是團隊、沒有受眾、沒有情感
❌ 「產出 12 張投影片和 10 題測驗」
問題:這是交付物清單,不是目標
✅ 「建築師讀完這門課程後,能獨立判斷任何門五金規範的合規性和適用性,不需要再查資料。他會覺得這門課值得花時間,甚至想推薦給同事。」
說明:主詞是建築師、有情感(值得花時間)、有能力變化(獨立判斷)、有場景(推薦給同事)

O 的常見錯誤

  • 太抽象:「提升品牌影響力」→ 對誰的影響力?怎樣算提升?
  • 太具體:「SEO 排名進前 3」→ 這是 M(衡量標準),不是 O
  • 缺少受眾:「建立最完整的門五金知識庫」→ 誰會用?他用完之後能做什麼?

顧問檢查點

G(Goal)怎麼寫
每個角色對 O 的貢獻

每個角色有自己的 G。G 是該角色對 O 的貢獻——「如果這個角色的 G 達成了,O 就往前推進了一步」。

原則

  1. G 必須串回 O:每個 G 都要能回答「這如何幫助受眾達到 O?」
  2. G 不是任務清單:G 描述的是「狀態改變」,不是「要做的事」
  3. G 要讓人感受到受眾的存在:讀 G 的時候,腦中應該浮現受眾的臉

好的寫法 vs 壞的寫法

❌ 研究員:「交付 5 個案例研究,每個 3 個來源」
問題:這是 M,不是 G
❌ 寫手:「完成前半段的投影片撰寫」
問題:沒有受眾、沒有串回 O
✅ 研究員:「建築師讀到這些案例時,感覺是『這就是我的專案會遇到的風險』,而不只是一個故事」
說明:有受眾感、串回 O 的情感目標
✅ 寫手:「建築師讀完前 6 張投影片後,已經理解問題的嚴重性,並且開始想知道解決方案——這個好奇心驅動他繼續往下讀」
說明:描述受眾的狀態變化、有情感弧線

G 的常見錯誤

  • G 變成 M:寫成「交付 N 個東西」→ 應改為「受眾因為這 N 個東西而⋯⋯」
  • G 跟 O 斷裂:角色的 G 很好,但看不出來跟整體 O 有什麼關係
  • G 太獨立:只看自己的角色,沒考慮跟其他角色的銜接

顧問檢查點

S(Strategy)怎麼寫
達成 G 的路徑選擇

S 是達成 G 的路徑選擇——「用什麼方法、為什麼選這條路」。

原則

  1. S 要有「為什麼」:不只是「做什麼」,而是「為什麼用這個方法而不是其他方法」
  2. S 要為受眾量身打造:方法的選擇要基於受眾的知識背景和工作情境
  3. S 要包含資源承諾:用什麼工具、參考什麼資料、走什麼流程

好的寫法 vs 壞的寫法

❌ 「使用 markdown 格式,加入互動檢查點」
問題:通用方法,任何專案都能套用
✅ 「使用 MasterFormat 章節編號和 AIA 合約語言,因為建築師認得這些參考體系——這讓他們在讀的時候覺得『這是為我寫的』,而不是通用教材」
說明:為受眾(建築師)量身打造、有為什麼

S 的常見錯誤

  • S 太通用:可以套用在任何專案 → 加上「for [受眾], because [原因]」
  • S 沒有資源承諾:只說「要研究」但沒說「用什麼資料庫、查什麼來源」
  • S 跟 G 脫節:路徑選擇看起來合理,但其實不是在解決 G 的問題

顧問檢查點

M(Measure)怎麼寫
驗收標準與可驗證性

M 是驗收標準——「怎麼確認 S 真的被執行了、G 真的達成了」。

原則

  1. M 對準 S,不是對準 G:M 驗證的是「S 的資源承諾有沒有兌現」
  2. M 必須可驗證:能回答「是 / 否」或「數字是多少」
  3. M 不能自評:不能讓執行者自己判斷自己有沒有達標

好的寫法 vs 壞的寫法

❌ S 說「交叉比對 ICC 和 NFPA 兩個來源」,M 寫「完成交叉比對」
問題:無法驗證(怎麼知道真的比對了?)
✅ M 寫「每個引用是否有 ICC + NFPA 雙來源記錄?更正了幾處?查詢記錄是否存在?」
說明:可驗證、追蹤 S 的資源承諾

M 的常見錯誤

  • M 只數量不管質:「交付 10 題測驗」→ 應加上「80% 通過率校準」
  • M 跟 S 脫節:S 說用某個工具,M 完全沒提到那個工具有沒有被使用
  • M 是自我宣告:「品質良好」→ 誰判斷?用什麼標準?

顧問檢查點

團隊 OGSM 的特殊注意事項
多角色團隊的額外品質要求

當 OGSM 用在「多角色團隊」而不是「單一個人」時,有幾個額外的品質要求:

1. 角色間的銜接

每個角色的 G 不能獨立存在。角色 A 的產出是角色 B 的輸入——這個銜接必須在兩邊的 S/M 中都有體現。

2. 波次(Wave)邏輯

團隊的角色分波次執行。同一波次的角色可以並行,不同波次之間有先後順序。波次之間需要「關卡條件」(Gate)——只有前一波的 M 全部通過,才能啟動下一波。

3. 角色 vs 流程的邊界

  • 角色:需要判斷力的持續性工作(例:研究員、寫手、審稿人)
  • 流程:可重複執行的規則性工作(例:格式檢查、字數統計、翻譯)

如果一個「角色」的工作完全是規則性的,它應該被降格為「流程」,不需要佔一個角色的位置。

4. 防止「確認偏誤」

如果所有審核角色都是內部團隊成員,容易產生確認偏誤。好的團隊設計會包含至少一個「外部視角」的角色——用不同的評審標準、站在不同的立場來檢查。

OGSM 顧問專用 — 總檢查清單

本段落為 AI 操作者設計。假設讀者已理解 Part A 的 OGSM 品質要求。
點擊各 Phase 標題可展開或收合
1
Phase 1:載入領域知識 + 定義 O
分析任務 → 載入知識 → 定義目標

步驟

  1. 分析任務:這個任務屬於什麼領域?需要什麼專業知識?
  2. 載入知識
    • 已有 Skill → 載入(例:/ogsm-framework/writing-guide
    • 沒有 Skill 但會重複使用 → 先建 Skill,存到 references/
    • 一次性知識 → 直接當 context 提供
  3. 定義 O:用領域知識 + Part A 的品質要求寫 O

完成條件

2
Phase 2:AI 自動設計 Agent 團隊
分析複雜度 → 決定角色 → 設計波次

步驟

1. 分析任務複雜度

  • 簡單(1-3 步)→ 不需要團隊,直接執行
  • 中型(4-10 步、多個面向)→ 3-7 個 agent
  • 大型(跨領域、多波次)→ 8-20+ 個 agent

2. 決定角色類型

  • 研究型(Investigator):收集資料、驗證事實
  • 寫作型(Writer):產出內容
  • 審核型(Reviewer):品質把關
  • 工程型(Engineer):技術實作
  • 協調型(Commander):統籌派遣

3. 設計波次

  • 研究 → 產出 → 審核 → 工程 → 發布
  • 同波次的獨立角色可並行
  • 波次之間設定 Gate 條件

4. 決定每個角色是 Agent 還是 Skill

  • 需要判斷力 → Agent
  • 純規則執行、可被任何 agent 呼叫 → Skill

完成條件

3
Phase 3:撰寫每個 Agent 的 G/S/M
套用 Part A 品質要求撰寫每個 Agent 規格

步驟

  1. 套用 Part A 的品質要求撰寫 G/S/M
  2. S 必須包含
    • 使用的 Skill 命令(完整格式)
    • 使用的 Model 命令(見 Phase 4)
    • 資源承諾(資料來源、工具、流程)
  3. M 必須包含
    • 每個 S 資源承諾的對應驗證
    • 可測試的通過/失敗標準
  4. 撰寫 Tier 1 摘要(≤150 字)+ Tier 2 完整版

完成條件

4
Phase 4:Model Routing(模型路由)
按任務類型指派正確的 AI 模型

決策規則

任務類型首選 ModelFallback
研究(搜尋、事實查證)Gemini Pro / FlashWebSearch → Claude
驗證(第二意見)Gemini FlashClaude
人物模擬(外部視角)Gemini ProClaude
SEO / 搜尋分析Gemini FlashClaude
程式碼 / HTMLCodexClaude
系統性審查CodexClaude
寫作(創意、判斷)Claude
中文寫作Claude
統籌決策Claude Opus

實作方式

  • 每個 Agent 的 S 段落必須寫明 Model 命令
  • 使用 /ai-collab --task <type> 自動路由
  • 使用 /ai-fallback 處理配額耗盡的降級

完成條件

5
Phase 5:Direction Seed + 派遣
9 欄位模板 + Pilot 先行策略

Direction Seed 9 欄位模板

每個子 Agent 的派遣簡報必須包含:

#欄位說明
1Project ID + 角色名稱明確身份
2目標受眾 Persona具體描述,不只是標籤
3O(全文引用)讓子 Agent 知道最終目標
4該 Agent 的 G/S/M(Tier 1 摘要)≤150 字
5Skill + Model 命令(完整格式)子 Agent 在隔離環境,看不到父層記憶
6硬性限制字數、格式、禁止事項
7語氣 + 風格專業 / 口語 / 學術
8交付物格式 + 檔案路徑明確的輸出位置
9反模式清單用「NOT: X — INSTEAD: Y」格式

派遣模式

  • Pilot Dispatch:先派 1 個 Agent 試跑,確認簡報無誤後再 fan-out 全部
  • 並行派遣:同波次的獨立 Agent 一次全派,用背景模式
  • 前景 vs 背景:需要結果才能繼續 → 前景;獨立任務 → 背景

完成條件

6
Phase 6:驗證
4-Robot Factory + Gate Review + Script-First

4-Robot Factory 模式

用於打磨已有的 Agent 規格:

Robot角色工作
Spec Verifier品規員寫 BDD 場景,驗證 Agent 規格完整性
Dispatch Harness測試員用測試輸入派遣 Agent,收集產出
Iterator優化員分析失敗項,提出修改,回歸測試
Quality Auditor稽核員獨立審計產出品質,防止 scope creep

Gate Review

每個波次結束後,Commander 檢查:

  1. 該波次所有 Agent 的 M 是否通過?
  2. 產出是否足夠讓下一波次開始?
  3. 受眾是否「在場」?(讀產出時能感受到受眾的存在)

Script-First 原則

機械性工作(格式檢查、字數統計、schema 驗證)用腳本執行,不消耗 AI token。只有需要判斷力的工作才用 AI。

v3.2 決定性腳本驗證器(Deterministic Validators)

v3.2 新增三支 Python 腳本,取代純 LLM 事實查核,對規則執行 100% 機械判斷。LLM 負責判斷力工作,腳本負責規則執行,兩者不可互換。

腳本用途Pass 條件
citation_backcheck.py 驗證每個 (waterson-product-facts.md:L…) 引用的行號確實包含主張的事實 0 mismatches(≥40% 關鍵詞命中率)
causal_inference_scan.py 偵測含因果語言(because / 因此…)但同段落無引用的句子 0 INFERENCE / SPECULATIVE 判定
trend_claim_scan.py 偵測產業趨勢主張(increasingly / 近年來…)但缺乏外部權威引用 0 REJECT 判定

注意:Waterson 自身素材(waterson-product-facts.md)不算外部權威來源。趨勢主張必須引用 ASHE、FGI、NFPA、AIA、peer-reviewed study 等外部機構。

腳本位置:tools/validators/。執行方式:

python3 tools/validators/citation_backcheck.py blog/{slug}/index.html --gt docs/waterson-product-facts.md
python3 tools/validators/causal_inference_scan.py blog/{slug}/index.html
python3 tools/validators/trend_claim_scan.py blog/{slug}/index.html

完成條件

7
Phase 7:生產執行
Commander 統籌 → 並行派遣 → 部署

執行原則

  1. Commander 不自己做事:只負責派遣、監控、決策
  2. 所有獨立任務並行派遣:不人為分批
  3. 錯誤處理:Agent 失敗 → 診斷原因 → 修改 Direction Seed → 重派
  4. 基礎設施同步更新:sitemap、llms.txt、blog index 等

完成條件

8
Phase 8:回顧與迭代
記錄反模式 + 更新知識庫 + 版本管理

該存的

類型存到哪範例
流程改進feedback memory「並行派遣比分批快 3 倍」
反模式OGSM spec 的反模式段落「Commander 自己寫文章」
領域知識Skill references/新發現的法規解釋

不該存的

  • 可以從 code 或 git log 推導出來的東西
  • 一次性的任務細節
  • 已經寫在 CLAUDE.md 的東西

版本升級時機

  • 發現 3+ 個新反模式 → minor version(v5.1 → v5.2)
  • 新增/刪除角色 → major version(v5 → v6)
  • 純文字修正 → 不升版

完成條件

附錄一:反模式清單

#名稱描述預防方法
1Commander 自己做事統籌者直接寫內容,而不是派遣Commander 只負責派遣和決策
2G 變成 MGoal 寫成交付物清單用「受眾感受到⋯⋯」重寫
3S 太通用策略可以套用在任何專案加上「for [受眾], because [原因]」
4不確認就選題高影響決策沒有先問人高風險決策(課程主題)必須確認;低風險(blog 選題)可自行決定
5人為分批可以並行的任務卻分 Wave 1→2→3沒有真正的 blocker 就全部並行
61 個 Agent 偷懶該派全部 Agent 卻只派 1 個獨立任務 + N>3 → 全部並行
7沒指定 Model所有 Agent 都用預設 Model每個 Agent 的 S 必須寫明 Model
8自評作業團隊自己檢查自己的品質加入外部視角的 Reviewer
9用 AI 做機械工作格式檢查、字數統計用 AI 做Script-first:機械工作用腳本
10前景模式卡住對話長時間任務用前景模式執行獨立任務用背景模式
11LLM 為了滿足配額而捏造要求「找 5 個來源」,模型編造假來源允許不足額交付 + 要求可驗證來源
12Skill 寫了但沒驗證OGSM 引用了 Skill 但沒確認能用Skill Integration Verification Protocol(靜態+乾跑+生產稽核)

附錄二:原則清單

#原則說明
1受眾在場每個 G 都要讓人感受到受眾的存在
2M 對準 SM 驗證的是 S 的資源承諾,不只是計數交付物
3Script-First機械工作用腳本,AI 只做需要判斷力的事
4按任務類型路由 Model不是按角色,而是按任務性質選 Model
5Pilot 先行先派 1 個試跑,確認無誤再 fan-out
6Base Layer產出留空間給人類補充,不做到「完美」
7嵌入式命令子 Agent 在隔離環境,Skill/Model 命令必須寫在 Direction Seed 裡
8背景優先獨立任務用背景模式,不卡主對話
9先理解再動手確認目標、範圍、受眾後才開始
10允許不足額交付寧可少交但真實,不要多交但捏造
11外部視角至少一個 Reviewer 用不同標準 / 不同模型
12版本管理每次重大變更升版,反模式寫入 spec

OGSM 顧問如何參與

  1. 顧問只看 Part A — 不需要理解 AI 技術
  2. 顧問的反饋進入 Phase 3 — 修改 G/S/M 的寫法
  3. 操作者負責翻譯 — 把顧問的 OGSM 建議轉化為技術實作

工作流程

顧問審閱 Part A 的檢查清單
顧問指出 O/G/S/M 的問題
操作者修改 Phase 3 的 Agent 規格
操作者重跑 Phase 4-7
產出改善 → 回報顧問

迭代循環

顧問的每次反饋 → 更新 Part A 的檢查清單
操作者的每次踩坑 → 更新 Part B 的反模式
兩邊的更新互相獨立,但通過 Part C 連接
角色閱讀輸出更新目標
OGSM 顧問 Part A 檢查清單 O/G/S/M 問題反饋 Part A 的品質準則
AI 操作者 Part B Phase 1-8 修改後的 Agent 規格 Part B 的反模式清單
兩者 Part C(本段落) 協同改善產出 Part C 的工作流程

💬 講師回饋 / Instructor Feedback

歡迎 OGSM 講師在此留下對 Part A 品質指南的建議。

載入留言中...