English

三：行動中的勝任力

覺察力和負責力必須與勝任的系統攜手並進。「照顧給予」意味著兌現承諾的可運作程式碼——經過審計、可解釋且安全失敗。勝任的系統將在人們心中建立對技術的信任。

快速版

小規模出貨，經常證明。 影子模式、金絲雀發布、可逆預設值。
獎勵搭橋，而非點擊。 使用基於搭橋的排名和來自社群反饋的強化學習（RLCF）。
認真審計。 可重現的評估、公開追蹤和事件演練。

我們想要的結果

在負載和審查下安全交付承諾關懷的系統。
親社會激勵：代理透過增加跨群體認可獲得獎勵。
失敗被控制、可逆並教導我們。

為何是勝任力？

沒有可運作程式碼的良好意圖會侵蝕信任。勝任力將契約轉化為行為——且可以被證明行為——的系統。

一個簡單的圖景：橋樑不是因為藍圖優雅就勝任；它是因為能承載——並在卡車經過、風起、檢查員檢查螺栓時繼續承載而勝任。

本篇背後的簡單理念

安全是實踐的屬性。 勝任力在運作中被證明，而非從設計中假設。
推廣前先證明。 特性只有在經過影子 → 金絲雀 → 帶防護措施的通用後才畢業。
社群塑造的獎勵。 用 RLCF 訓練代理：優化跨群體認可和失利下的信任，而非原始參與度。
可觀察性勝於不透明性。 透過追蹤、資料集和與決策相關的可解釋摘要「展示你的工作」。
最小權力。 使用滿足需求的最簡單機制；複雜性增加攻擊面。

良好的「勝任力」是什麼樣子

基於搭橋的排名。 推薦系統根據內容和代理行動如何好地搭橋連貫的群集來評分，而非激怒它們。
RLCF 訓練循環。 當多個群體認可結果為公平/有用時獎勵模型；當失利下的信任下降時懲罰。
分級發布。 新政策在影子模式下運行，然後對隨機、有代表性的切片進行金絲雀測試，然後帶著準備好的回溯進行通用推出。
評估工具。 品質、安全、偏見、隱私的開放測試套件；社區貢獻的本地化評估（見第 4 篇）。
可重現構建。 配置已版本化；一鍵重播重新創建結果。
程式碼形式的防護措施。 權利和紅線表達為機器可檢查的規則（模糊時預設拒絕）。
資料最小化。 只收集補救需要的；交接時刪除；在每個階段尊重同意。

從理念到日常實踐（循序漸進）

從契約推導規格。 將第 2 篇的契約轉化為驗收測試。
為可觀察性設置儀器。 發出附有來源和收據連結（來自第 1 篇）的決策追蹤。
用 RLCF 訓練。 從多樣化群組收集反饋；計算搭橋分數；將它們用作獎勵。
運行影子模式。 新政策看到輸入並提議行動但不行動。與人類/先前系統比較。
安全金絲雀。 發布給小型、有代表性的群組，如果漂移超出界限則自動回溯。
通用前審計。 評估、日誌和防護措施的獨立審計；公布經證明的報告。
通用化與監控。 為所有啟用；觀察漂移監控器；保持暫停連線。
事件後學習。 無責備審查；修復變成測試。

你現在可以採用的工具

搭橋分數函數。基於 PCA/嵌入的重疊指標。
RLCF 管道。人類和社群反饋到獎勵塑造。
評估登記處。版本化測試；來源；本地化套件。
影子/金絲雀編排器附回溯開關。
決策追蹤模式。輸入、觸發的規則、來源、不確定性。
防護措施引擎。權利/同意的政策即程式碼。
漂移監控器。資料、性能、公平性。
可重現筆記本。播種、容器化構建。

洪水聊天機器人故事——第三部：交付關懷

搭橋排名。 當存在多個救援管道時，機器人的推薦系統優先採取增加跨社區認可的行動（例如，租房者和房主都投票支持為公平的訊息）。
RLCF。 支付政策經過訓練，以在任何群集中不激增申訴的情況下獎勵準時交付。
影子 → 金絲雀。 新的「醫療收據豁免」在影子模式下運行一週；然後對 10% 的 S1 索賠進行金絲雀測試；回溯界限：申訴 >15%。
可觀察性。 每個拒絕都有一個追蹤：哪條規則、哪些來源、不確定性分數，以及索賠人的收據連結。

可能出錯的地方（以及快速解決方案）

遊戲搭橋。 行為者製作看起來「搭橋」的訊息。解決： 混合人類審計；要求隨時間推移的持久跨群體認可。
訓練/測試洩漏。 評估看起來很好；現實失敗。解決： 保留資料集、隨機抽查、帶回溯的即時 A/B。
不透明的「黑盒子」。 「相信我們」的解釋。解決： 可追蹤的摘要 + 公開範例；審計員可以重建決策。
金絲雀偏見。 金絲雀切片不具代表性。解決： 分層抽樣；公布金絲雀人口統計。

我們如何保持誠信（我們衡量的事物）

傷害的 MTTD/MTTR。 檢測/修復回歸的平均時間。
搭橋指數。 與基線相比的跨群體認可。
回溯紀律。 帶測試回溯的推出 %；回溯時間。
漂移警報。 頻率和分類時間。
失利下的信任增量。 對不同意者的之前/之後。

與其他關懷的介面

來自「負責力」： 規格、SLA、煞車。
對「回應力」： 事件循環和評估登記處（第 4 篇）。
對「團結力」： 搭橋分數餵養公民堆疊激勵（第 5 篇）。
對「共生力」： 勝任力證明一個地神準備好留在當地。

← 上一章下一章 →