OGSM AI Agent 團隊 SOP — 標準作業流程
| Part | 讀者 | 內容 |
|---|---|---|
| Part A | OGSM 顧問 / 講師 | OGSM 品質指南(無 AI 術語) |
| Part B | AI 操作者 | 技術流程(8 個 Phase) |
| Part C | 兩者 | 連接點:顧問建議如何落地 |
本段落專為 OGSM 專家設計,不包含任何 AI 技術術語。
目的:讓 OGSM 顧問能獨立閱讀此段落,針對「團隊角色的 OGSM 該怎麼寫」給出建議。
O 是整個團隊的最終目的地。所有角色的工作最終都要匯入這個目標。
原則
- 以受眾為主語:O 的主詞是「讀者 / 使用者 / 客戶」,不是「我們的團隊」
- 包含情感結果:不只是「完成什麼」,而是受眾「感受到什麼」
- 可想像的成功畫面:讀完 O,腦中能浮現一個具體場景
好的寫法 vs 壞的寫法
問題:主詞是團隊、沒有受眾、沒有情感
問題:這是交付物清單,不是目標
✅ 「建築師讀完這門課程後,能獨立判斷任何門五金規範的合規性和適用性,不需要再查資料。他會覺得這門課值得花時間,甚至想推薦給同事。」
說明:主詞是建築師、有情感(值得花時間)、有能力變化(獨立判斷)、有場景(推薦給同事)
O 的常見錯誤
- 太抽象:「提升品牌影響力」→ 對誰的影響力?怎樣算提升?
- 太具體:「SEO 排名進前 3」→ 這是 M(衡量標準),不是 O
- 缺少受眾:「建立最完整的門五金知識庫」→ 誰會用?他用完之後能做什麼?
顧問檢查點
每個角色有自己的 G。G 是該角色對 O 的貢獻——「如果這個角色的 G 達成了,O 就往前推進了一步」。
原則
- G 必須串回 O:每個 G 都要能回答「這如何幫助受眾達到 O?」
- G 不是任務清單:G 描述的是「狀態改變」,不是「要做的事」
- G 要讓人感受到受眾的存在:讀 G 的時候,腦中應該浮現受眾的臉
好的寫法 vs 壞的寫法
問題:這是 M,不是 G
問題:沒有受眾、沒有串回 O
✅ 研究員:「建築師讀到這些案例時,感覺是『這就是我的專案會遇到的風險』,而不只是一個故事」
說明:有受眾感、串回 O 的情感目標
✅ 寫手:「建築師讀完前 6 張投影片後,已經理解問題的嚴重性,並且開始想知道解決方案——這個好奇心驅動他繼續往下讀」
說明:描述受眾的狀態變化、有情感弧線
G 的常見錯誤
- G 變成 M:寫成「交付 N 個東西」→ 應改為「受眾因為這 N 個東西而⋯⋯」
- G 跟 O 斷裂:角色的 G 很好,但看不出來跟整體 O 有什麼關係
- G 太獨立:只看自己的角色,沒考慮跟其他角色的銜接
顧問檢查點
S 是達成 G 的路徑選擇——「用什麼方法、為什麼選這條路」。
原則
- S 要有「為什麼」:不只是「做什麼」,而是「為什麼用這個方法而不是其他方法」
- S 要為受眾量身打造:方法的選擇要基於受眾的知識背景和工作情境
- S 要包含資源承諾:用什麼工具、參考什麼資料、走什麼流程
好的寫法 vs 壞的寫法
問題:通用方法,任何專案都能套用
✅ 「使用 MasterFormat 章節編號和 AIA 合約語言,因為建築師認得這些參考體系——這讓他們在讀的時候覺得『這是為我寫的』,而不是通用教材」
說明:為受眾(建築師)量身打造、有為什麼
S 的常見錯誤
- S 太通用:可以套用在任何專案 → 加上「for [受眾], because [原因]」
- S 沒有資源承諾:只說「要研究」但沒說「用什麼資料庫、查什麼來源」
- S 跟 G 脫節:路徑選擇看起來合理,但其實不是在解決 G 的問題
顧問檢查點
M 是驗收標準——「怎麼確認 S 真的被執行了、G 真的達成了」。
原則
- M 對準 S,不是對準 G:M 驗證的是「S 的資源承諾有沒有兌現」
- M 必須可驗證:能回答「是 / 否」或「數字是多少」
- M 不能自評:不能讓執行者自己判斷自己有沒有達標
好的寫法 vs 壞的寫法
問題:無法驗證(怎麼知道真的比對了?)
✅ M 寫「每個引用是否有 ICC + NFPA 雙來源記錄?更正了幾處?查詢記錄是否存在?」
說明:可驗證、追蹤 S 的資源承諾
M 的常見錯誤
- M 只數量不管質:「交付 10 題測驗」→ 應加上「80% 通過率校準」
- M 跟 S 脫節:S 說用某個工具,M 完全沒提到那個工具有沒有被使用
- M 是自我宣告:「品質良好」→ 誰判斷?用什麼標準?
顧問檢查點
當 OGSM 用在「多角色團隊」而不是「單一個人」時,有幾個額外的品質要求:
1. 角色間的銜接
每個角色的 G 不能獨立存在。角色 A 的產出是角色 B 的輸入——這個銜接必須在兩邊的 S/M 中都有體現。
2. 波次(Wave)邏輯
團隊的角色分波次執行。同一波次的角色可以並行,不同波次之間有先後順序。波次之間需要「關卡條件」(Gate)——只有前一波的 M 全部通過,才能啟動下一波。
3. 角色 vs 流程的邊界
- 角色:需要判斷力的持續性工作(例:研究員、寫手、審稿人)
- 流程:可重複執行的規則性工作(例:格式檢查、字數統計、翻譯)
如果一個「角色」的工作完全是規則性的,它應該被降格為「流程」,不需要佔一個角色的位置。
4. 防止「確認偏誤」
如果所有審核角色都是內部團隊成員,容易產生確認偏誤。好的團隊設計會包含至少一個「外部視角」的角色——用不同的評審標準、站在不同的立場來檢查。
OGSM 顧問專用 — 總檢查清單
本段落為 AI 操作者設計。假設讀者已理解 Part A 的 OGSM 品質要求。
步驟
- 分析任務:這個任務屬於什麼領域?需要什麼專業知識?
- 載入知識:
- 已有 Skill → 載入(例:
/ogsm-framework、/writing-guide) - 沒有 Skill 但會重複使用 → 先建 Skill,存到
references/ - 一次性知識 → 直接當 context 提供
- 已有 Skill → 載入(例:
- 定義 O:用領域知識 + Part A 的品質要求寫 O
完成條件
步驟
1. 分析任務複雜度
- 簡單(1-3 步)→ 不需要團隊,直接執行
- 中型(4-10 步、多個面向)→ 3-7 個 agent
- 大型(跨領域、多波次)→ 8-20+ 個 agent
2. 決定角色類型
- 研究型(Investigator):收集資料、驗證事實
- 寫作型(Writer):產出內容
- 審核型(Reviewer):品質把關
- 工程型(Engineer):技術實作
- 協調型(Commander):統籌派遣
3. 設計波次
- 研究 → 產出 → 審核 → 工程 → 發布
- 同波次的獨立角色可並行
- 波次之間設定 Gate 條件
4. 決定每個角色是 Agent 還是 Skill
- 需要判斷力 → Agent
- 純規則執行、可被任何 agent 呼叫 → Skill
完成條件
步驟
- 套用 Part A 的品質要求撰寫 G/S/M
- S 必須包含:
- 使用的 Skill 命令(完整格式)
- 使用的 Model 命令(見 Phase 4)
- 資源承諾(資料來源、工具、流程)
- M 必須包含:
- 每個 S 資源承諾的對應驗證
- 可測試的通過/失敗標準
- 撰寫 Tier 1 摘要(≤150 字)+ Tier 2 完整版
完成條件
決策規則
| 任務類型 | 首選 Model | Fallback |
|---|---|---|
| 研究(搜尋、事實查證) | Gemini Pro / Flash | WebSearch → Claude |
| 驗證(第二意見) | Gemini Flash | Claude |
| 人物模擬(外部視角) | Gemini Pro | Claude |
| SEO / 搜尋分析 | Gemini Flash | Claude |
| 程式碼 / HTML | Codex | Claude |
| 系統性審查 | Codex | Claude |
| 寫作(創意、判斷) | Claude | — |
| 中文寫作 | Claude | — |
| 統籌決策 | Claude Opus | — |
實作方式
- 每個 Agent 的 S 段落必須寫明 Model 命令
- 使用
/ai-collab --task <type>自動路由 - 使用
/ai-fallback處理配額耗盡的降級
完成條件
Direction Seed 9 欄位模板
每個子 Agent 的派遣簡報必須包含:
| # | 欄位 | 說明 |
|---|---|---|
| 1 | Project ID + 角色名稱 | 明確身份 |
| 2 | 目標受眾 Persona | 具體描述,不只是標籤 |
| 3 | O(全文引用) | 讓子 Agent 知道最終目標 |
| 4 | 該 Agent 的 G/S/M(Tier 1 摘要) | ≤150 字 |
| 5 | Skill + Model 命令(完整格式) | 子 Agent 在隔離環境,看不到父層記憶 |
| 6 | 硬性限制 | 字數、格式、禁止事項 |
| 7 | 語氣 + 風格 | 專業 / 口語 / 學術 |
| 8 | 交付物格式 + 檔案路徑 | 明確的輸出位置 |
| 9 | 反模式清單 | 用「NOT: X — INSTEAD: Y」格式 |
派遣模式
- Pilot Dispatch:先派 1 個 Agent 試跑,確認簡報無誤後再 fan-out 全部
- 並行派遣:同波次的獨立 Agent 一次全派,用背景模式
- 前景 vs 背景:需要結果才能繼續 → 前景;獨立任務 → 背景
完成條件
4-Robot Factory 模式
用於打磨已有的 Agent 規格:
| Robot | 角色 | 工作 |
|---|---|---|
| Spec Verifier | 品規員 | 寫 BDD 場景,驗證 Agent 規格完整性 |
| Dispatch Harness | 測試員 | 用測試輸入派遣 Agent,收集產出 |
| Iterator | 優化員 | 分析失敗項,提出修改,回歸測試 |
| Quality Auditor | 稽核員 | 獨立審計產出品質,防止 scope creep |
Gate Review
每個波次結束後,Commander 檢查:
- 該波次所有 Agent 的 M 是否通過?
- 產出是否足夠讓下一波次開始?
- 受眾是否「在場」?(讀產出時能感受到受眾的存在)
Script-First 原則
機械性工作(格式檢查、字數統計、schema 驗證)用腳本執行,不消耗 AI token。只有需要判斷力的工作才用 AI。
v3.2 決定性腳本驗證器(Deterministic Validators)
v3.2 新增三支 Python 腳本,取代純 LLM 事實查核,對規則執行 100% 機械判斷。LLM 負責判斷力工作,腳本負責規則執行,兩者不可互換。
| 腳本 | 用途 | Pass 條件 |
|---|---|---|
citation_backcheck.py |
驗證每個 (waterson-product-facts.md:L…) 引用的行號確實包含主張的事實 |
0 mismatches(≥40% 關鍵詞命中率) |
causal_inference_scan.py |
偵測含因果語言(because / 因此…)但同段落無引用的句子 | 0 INFERENCE / SPECULATIVE 判定 |
trend_claim_scan.py |
偵測產業趨勢主張(increasingly / 近年來…)但缺乏外部權威引用 | 0 REJECT 判定 |
注意:Waterson 自身素材(waterson-product-facts.md)不算外部權威來源。趨勢主張必須引用 ASHE、FGI、NFPA、AIA、peer-reviewed study 等外部機構。
腳本位置:tools/validators/。執行方式:
python3 tools/validators/citation_backcheck.py blog/{slug}/index.html --gt docs/waterson-product-facts.md
python3 tools/validators/causal_inference_scan.py blog/{slug}/index.html
python3 tools/validators/trend_claim_scan.py blog/{slug}/index.html
完成條件
執行原則
- Commander 不自己做事:只負責派遣、監控、決策
- 所有獨立任務並行派遣:不人為分批
- 錯誤處理:Agent 失敗 → 診斷原因 → 修改 Direction Seed → 重派
- 基礎設施同步更新:sitemap、llms.txt、blog index 等
完成條件
該存的
| 類型 | 存到哪 | 範例 |
|---|---|---|
| 流程改進 | feedback memory | 「並行派遣比分批快 3 倍」 |
| 反模式 | OGSM spec 的反模式段落 | 「Commander 自己寫文章」 |
| 領域知識 | Skill references/ | 新發現的法規解釋 |
不該存的
- 可以從 code 或 git log 推導出來的東西
- 一次性的任務細節
- 已經寫在 CLAUDE.md 的東西
版本升級時機
- 發現 3+ 個新反模式 → minor version(v5.1 → v5.2)
- 新增/刪除角色 → major version(v5 → v6)
- 純文字修正 → 不升版
完成條件
附錄一:反模式清單
| # | 名稱 | 描述 | 預防方法 |
|---|---|---|---|
| 1 | Commander 自己做事 | 統籌者直接寫內容,而不是派遣 | Commander 只負責派遣和決策 |
| 2 | G 變成 M | Goal 寫成交付物清單 | 用「受眾感受到⋯⋯」重寫 |
| 3 | S 太通用 | 策略可以套用在任何專案 | 加上「for [受眾], because [原因]」 |
| 4 | 不確認就選題 | 高影響決策沒有先問人 | 高風險決策(課程主題)必須確認;低風險(blog 選題)可自行決定 |
| 5 | 人為分批 | 可以並行的任務卻分 Wave 1→2→3 | 沒有真正的 blocker 就全部並行 |
| 6 | 1 個 Agent 偷懶 | 該派全部 Agent 卻只派 1 個 | 獨立任務 + N>3 → 全部並行 |
| 7 | 沒指定 Model | 所有 Agent 都用預設 Model | 每個 Agent 的 S 必須寫明 Model |
| 8 | 自評作業 | 團隊自己檢查自己的品質 | 加入外部視角的 Reviewer |
| 9 | 用 AI 做機械工作 | 格式檢查、字數統計用 AI 做 | Script-first:機械工作用腳本 |
| 10 | 前景模式卡住對話 | 長時間任務用前景模式執行 | 獨立任務用背景模式 |
| 11 | LLM 為了滿足配額而捏造 | 要求「找 5 個來源」,模型編造假來源 | 允許不足額交付 + 要求可驗證來源 |
| 12 | Skill 寫了但沒驗證 | OGSM 引用了 Skill 但沒確認能用 | Skill Integration Verification Protocol(靜態+乾跑+生產稽核) |
附錄二:原則清單
| # | 原則 | 說明 |
|---|---|---|
| 1 | 受眾在場 | 每個 G 都要讓人感受到受眾的存在 |
| 2 | M 對準 S | M 驗證的是 S 的資源承諾,不只是計數交付物 |
| 3 | Script-First | 機械工作用腳本,AI 只做需要判斷力的事 |
| 4 | 按任務類型路由 Model | 不是按角色,而是按任務性質選 Model |
| 5 | Pilot 先行 | 先派 1 個試跑,確認無誤再 fan-out |
| 6 | Base Layer | 產出留空間給人類補充,不做到「完美」 |
| 7 | 嵌入式命令 | 子 Agent 在隔離環境,Skill/Model 命令必須寫在 Direction Seed 裡 |
| 8 | 背景優先 | 獨立任務用背景模式,不卡主對話 |
| 9 | 先理解再動手 | 確認目標、範圍、受眾後才開始 |
| 10 | 允許不足額交付 | 寧可少交但真實,不要多交但捏造 |
| 11 | 外部視角 | 至少一個 Reviewer 用不同標準 / 不同模型 |
| 12 | 版本管理 | 每次重大變更升版,反模式寫入 spec |
OGSM 顧問如何參與
- 顧問只看 Part A — 不需要理解 AI 技術
- 顧問的反饋進入 Phase 3 — 修改 G/S/M 的寫法
- 操作者負責翻譯 — 把顧問的 OGSM 建議轉化為技術實作
工作流程
迭代循環
顧問的每次反饋 → 更新 Part A 的檢查清單
操作者的每次踩坑 → 更新 Part B 的反模式
兩邊的更新互相獨立,但通過 Part C 連接
| 角色 | 閱讀 | 輸出 | 更新目標 |
|---|---|---|---|
| OGSM 顧問 | Part A 檢查清單 | O/G/S/M 問題反饋 | Part A 的品質準則 |
| AI 操作者 | Part B Phase 1-8 | 修改後的 Agent 規格 | Part B 的反模式清單 |
| 兩者 | Part C(本段落) | 協同改善產出 | Part C 的工作流程 |
💬 講師回饋 / Instructor Feedback
歡迎 OGSM 講師在此留下對 Part A 品質指南的建議。
載入留言中...