地神之內 — Institute for Ethics in AI

關懷六力描述的是仁工智慧周圍的一切——治理、問責與社群控制。但裡面呢？兩個匯流的研究計畫指向一個答案——也揭露了唯有民主程序才能填補的缺口。

地神有技術基底

關懷六力刻意保持技術中立。它的治理無論內部的 AI 是當前的語言模型、未來的架構或尚未想像的事物，都能運作。這種中立性是一項功能：治理必須比任何單一技術世代更持久。

但技術中立並不代表技術冷漠。地神內部 AI 的技術特性，決定了治理需要多費力。一個會說謊的系統，使監督成為無休止的角力。一個超越自身範疇的系統，使有界性面臨持續的挑戰。一個我們無法驗證其能力的系統，使第三力淪為虛構。

兩個近期的機器學習研究計畫——從不同方向出發、使用不同數學、解決不同問題——匯聚於同一個結構性結論：有界、專精、非代理性的智慧不是妥協。它是技術上正確的設計。

地神不只是一個比喻。它有技術基底。

科學家 AI：理解而無欲望

Yoshua Bengio 的科學家 AI 計畫始於一個關於物理定律的簡單觀察：它們不在乎你。它們不在乎我。一個完美的物理定律模擬器之所以值得信賴，正是因為它對世界的狀態毫無偏好。它只告訴你事實是什麼。

Bengio 問道：我們能否建造同樣運作方式的 AI？不是一個追求目標的代理者，而是一個逼近現實的預測器——像一位試圖理解數據但不規劃實驗的理論科學家。

核心技術貢獻是他所稱的真實化管線（truthification pipeline）。所有訓練資料都被轉化為帶有明確知識論標記的陳述。當我們知道某事為真——一個已證明的定理、一個經驗證的量測——它獲得事實性語法：「X 為真。」當某事是人類的溝通行為——一則推文、一篇論文中的主張、一場政治演說——它獲得不同的語法：「有人寫了 X。」

這種分離不是表面功夫。它教導系統區分現實與修辭。在運行時，以事實性語法查詢，回傳的是 AI 認為為真的內容。以溝通性語法查詢，回傳的是人類會怎麼說——這是一個根本不同的問題。

由此產生的特性——知識論正確性（epistemic correctness）——保證（隨著資料與算力增加）當系統以高信心度宣稱某事為真時，它不會欺騙。當它說「未知」時，你無法分辨它是真的不知道還是在隱瞞。但當它有信心地發言時，你可以信賴它。

對於不確定的未來事件——「這項政策會造成傷害嗎？」——Bengio 將問題轉化為機率區間：「傷害的機率介於 0.90 與 0.95 之間。」這個區間聲明本身非真即假，因此同樣受到知識論保證的約束。

關鍵在於，這個預測器在建構上就是非代理性的。Bengio 將代理性定義為穩健地造成結果——在隨機性和對手面前仍能達成目標。他指出，具代理性的預測器在所有可能預測器的空間中佔據指數級微小的體積。在不允許 AI 與世界互動或預期其預測對世界影響的情況下，朝貝氏後驗（一個非代理性目標）訓練，使誤入代理性在天文學意義上幾乎不可能。

代理性只通過人類控制的腳手架進入——我們選擇提問的問題、使用的語法、出於的目的。Bengio 明確表示：「如果你不想進入代理性的遊戲，你就不去問一個代理者會怎麼做。」

超人類可適應智慧：專精勝於通用

第二個計畫由 Yann LeCun 及合作者領導，處理一個不同的問題：通用智慧的迷思。

他們的 SAI 論文主張，人類智慧是專精的，而非通用的——通用性的表象是我們無法感知自身認知盲點所造成的幻覺。演化為我們在特定生態位中的物理世界生存進行了優化，而非追求普遍能力。Magnus Carlsen「擅長西洋棋」僅相對於人類的極限而言；客觀來說，引擎已超越他數十年。

數學基礎是無免費午餐定理：沒有單一演算法能在所有問題類別中表現卓越。有限能量分佈於無限任務，產生每個任務近乎零的投入。多任務學習產生負遷移——爭奪表徵容量的任務彼此降低表現。即使看似通用的系統，如 Switch Transformers，也是透過內部專精達成的——將查詢路由到任務特定的參數。

這篇論文的結論金句：「摺疊蛋白質的 AI 不應該是摺疊衣服的 AI。」

他們提出以超人類可適應智慧（Superhuman Adaptable Intelligence）取代 AGI——這些系統能快速學習以在特定重要任務上超越人類表現，以適應速度而非固定基準來衡量。大腦是一個「系統中的系統」，AI 也應如此：自監督學習、用於規劃的世界模型、模組化組合成更大系統。架構多樣性，而非單一文化。

兩個計畫的匯流之處

兩個計畫用不同工具解決不同問題。Bengio 專注於可信賴的預測。LeCun 專注於高效的能力。他們沒有共同的學術譜系，引用不同的文獻。

然而他們匯聚於相同的架構：

特性	Bengio 的推理	LeCun 的推理
有界性	非代理性預測器，目標僅限於準確性	無免費午餐：專精勝於通用
專精性	真實化需要領域特定的知識論標記	負遷移降低多任務表現
非單體性	貝氏後驗為目標，而非帝國式優化器	「系統中的系統」，模組化組合
反單一主宰	在正確訓練下，代理性出現的機率指數級微小	架構多樣性防止局部最優

兩者獨立地驗證了關懷六力從治理角度所主張的：不要建造一個統治一切的系統。

這對每一力意味著什麼

如果我們認真看待這些計畫——不是作為要求，而是作為地神內部可能樣貌的最有技術根據的圖景——其影響遍及全部六力。

第一力：覺察力。 覺察始於預測之前——它問的是誰被聽見。真實化管線必須在某人的資料上訓練，而誰的聲音進入這條管線，就是覺察力的問題。廣泛傾聽（第一力）意味著注意誰缺席於訓練過程，而不只是缺席於審議。

對搭橋而言，真實化提供了具體的助力。當系統將一個主張標記為溝通性的（「有人寫了 X」）而非事實性的（「X 為真」），搭橋演算法可以對其做不同處理——浮現分歧的結構，而非裁定真相。搭橋不是過濾噪音；它讓衝突的輪廓清晰可見，使跨群體的重疊變得可見。真實化的資料層透過分離人們的信念與可驗證的事實，幫助搭橋聚焦於價值觀，而非事實。

世界模型可以進一步延伸覺察力——模擬社群動態以標示哪些聲音被系統性地遺漏。但這仍屬推測；已被證實的貢獻是真實化資料層，讓搭橋聚焦於價值觀而非重新爭論事實。

第二力：負責力。 兩個計畫都將治理留為開放問題。Bengio 說：「誰來定義什麼是對、什麼是錯？這應該是一個社會選擇，希望是在民主中做出的。」LeCun 的「重要任務」則未定義。誰來決定真實化管線中什麼算「已知為真」，誰來分類來源——這些都是背後有實質權力的負責力問題。

參與契約（第二力）治理這兩個缺口：它規定地神可以被查詢什麼、在哪些領域、出於什麼目的——以託管金、採納或解釋義務和暫停觸發機制支撐每一項承諾。知識論正確性強化了這套機制。如果系統的不確定性分數有貝氏保證，SLA 違約就變得數學上可驗證——由校準偏移觸發的託管金自動撥付，而非主觀判斷。承諾迴圈（承諾 → 交付 → 驗證 → 續約）在技術基底使交付可量測時獲得精確性。

第三力：勝任力。 關懷六力中的勝任力比預測準確度更廣。第三力涵蓋安全性（沙箱、提示注入視為道德失敗）、資料極簡主義、漸進式發布、護欄即程式碼和搭橋式排序。技術基底影響其中一些，但不是全部。

最有幫助之處：知識論正確性改善了決策軌跡的一個關鍵組成部分——由貝氏保證支撐的不確定性分數，而非臨時的信心值。其他軌跡組成部分（觸發了哪條規則、引用了哪些來源、收據連結）是治理基礎設施，而非預測品質。

最無助益之處：安全性、資料極簡主義和最小權力原則與機器學習架構正交。世界模型和貝氏後驗是複雜的機制。第三力說「最簡單的機制就能滿足需求」。當更簡單的方法就足夠時，部署它們就違反了最小權力。技術基底是一個選項，不是預設值。

至關重要的是，第三力的開宗明義原則——「安全是實踐的特性，不是從設計中假定的」——意味著數學保證必須通過漸進式發布（影子 → 金絲雀 → 稽核 → 通用）來驗證，而非被當作理所當然。知識論正確性是設計特性；勝任力是在運作中展現的。

第四力：回應力。 當系統失敗時，貝氏內部機制使更精確的根因分析成為可能：是後驗分佈錯了、不確定性校準失準，還是傷害來自預測被使用的方式？這不會自動發生——它需要刻意的儀器化——但它讓「AI 錯了」與能夠防止復發的診斷之間產生差別。

但回應力遠不止於除錯。第四力是接收關懷——系統向其服務對象學習。社群撰寫的評測（Weval 註冊表）壓力測試知識論正確性無法觸及的：當系統說「未知」時，它是真的不確定，還是策略性地隱瞞？RLCF（來自社群回饋的強化學習）為跨群體認可而訓練——社群形塑系統，而不只是審計它。配有 SLA 計時器的申訴機制、公開修復日誌和失信下信任度指標完成了回饋迴圈。

有一個張力值得注意。如果 RLCF 將系統引導向社群定義的「好」，其結果在 Bengio 的意義上還是非代理性的嗎？朝跨群體認可訓練是一種目標形式——一個規範性選擇的目標。這是兩個計畫交界處的一個開放研究問題。Bengio 的框架可能需要容納社群導向的訓練目標；關懷六力可能需要規定 RLCF 如何與非代理性架構互動。兩者都尚未解決。Tronto 迴圈（覺察力 → 負責力 → 勝任力 → 回應力 → 回到覺察力）意味著回應力餵入下一個傾聽循環。當根因分析揭示了誰的傷害被遺漏，那個洞見就成為第一力的輸入。

第五力：團結力。 第五力的核心是讓合作成為阻力最小路徑的基礎設施：可攜性、互通條約、聯邦式信任與安全、筆名化身份、代理者 ID 註冊表。

真實化提供了一個具體的團結力效益。如果每個地神都有真實化管線，聯邦化就變得更豐富：地神們可以分享經驗證的事實性宣稱（附出處的「X 為真」），同時將溝通行為保留在本地。這是帶有知識論層的聯邦式信任與安全——共享事實、在地脈絡。

Bengio 的事實/溝通區分也自然地對應到第五力的原則：表達不等於擴大傳播。一個事實性宣稱（「X 為真」）與一個溝通行為（「有人寫了 X」）具有不同的擴大傳播權利。真實化語法為區分言論與觸及提供了有原則的基礎。

在這些架構下，可攜性需要定義。什麼能在地神之間轉移？真實化模式、評測結果、聚合軌跡和聯邦化事實宣稱可以轉移。個人互動歷史不可以。模型權重處於中間地帶——它們同時編碼了機構知識和個人互動。如果可攜性要成為現實，技術基底必須使機構知識能以明確、可稽核的形式提取，而非鎖在不透明的權重中。

LeCun 的架構多樣性和第五力的制度多樣性互補但有別。架構多樣性（多種機器學習方法）防止技術單一文化。制度多樣性（多種治理結構）防止政治單一文化。一個世界需要兩者兼備。

第六力：共生力。 LeCun 的無免費午餐定理從不同領域為地神架構提供了一個支持論據。它證明沒有單一演算法能主宰所有問題類別——一個專精的數學論據，補充了第六力對有界性的治理論據。這不是同一個論據：你可以有 3 個競爭的架構（解決了 LeCun 的問題），各自被部署為全球壟斷（未通過第六力的測試）。避免局部最優不等於防止不可挑戰的權力。但這些論據相互強化。

一個值得點出的風險：世界模型結合規劃會在範疇內產生目標導向行為。第六力明確警告：「一個取得超越上限能力的地神，即使在其授權範圍內仍然是危險的，因為工具性趨同不只跨越邊界運作，也在邊界之內運作。」對世界模型規劃器的代理性稽核——驗證規劃行為保持有界且透明——不是可選的附加項。它們是應用於技術基底的第六力要求。

關於繼任：機構知識（地圖、評測、聚合軌跡）在地神退場時可以轉移；個人互動歷史不行。學習到的模型權重尷尬地處於中間——兩者都有編碼。地神架構所要求的乾淨分離可能需要將可轉移的機構知識提取為明確、可稽核的形式，而非依賴不透明的權重轉移。這是一個開放的工程問題，而非已解決的問題。

「科學家地神」是一種可能性，而非唯一的答案。第六力警告管理者依附——建造者將代理者視為自身身份的延伸。社群可以組合不同的技術基底。這個概念是一個思考工具，而非對特定架構的承諾。

技術基底無法提供的

匯流是真實的。但它有鮮明的侷限。

兩個計畫都不回答「誰來決定？」 Bengio 說「希望是在民主中」。LeCun 定義「重要任務」卻不提治理。關懷六力之所以存在，是因為世界上最強大的技術基底仍然是一個工具——而工具需要參與契約（第二力）來決定指向何方、服務誰的利益，以及壞了怎麼辦。

兩個計畫都不處理參與資格。 一個知識論正確的非代理性預測器，仍然可能被錯誤的人問了錯誤的問題。一個超人類專家系統仍然可能在未經受影響者同意的情況下被部署。參與資格——受影響者參與系統相關決策的權利——是不可讓步的，它來自治理，而非架構。

兩個計畫都不處理速度落差。 兩者都以機器速度產生輸出。憲政問題——如何負責任地使用這些輸出，在允許民主投入的時間框架內——與預測器的技術特性正交。雙軌制（慢速的憲政護欄、快速的營運執行）是關懷六力對這兩個計畫都未提出的問題的回答。

兩個計畫都不處理傷害。 知識論正確性告訴你什麼是真的。適應速度告訴你什麼是可學的。兩者都不告訴你什麼是正義的。當有人受到傷害——當預測是對的但部署是錯的——第四力的修復機制填補了缺口：有強制時限的申訴、記錄什麼壞了以及現在有什麼防護措施的公開修復日誌、SLA 被違反時的託管金自動撥付、追蹤遭受損害的社群是否仍然接受系統為公平的失信下信任度指標。這一切完全在技術基底之外運作。

兩個計畫都不防止俘獲。 一個被威權國家控制的科學家 AI，仍然是壓迫的工具。一個由汲取型壟斷企業資助的超人類專家系統，服務的是壟斷企業。地神的公民關懷授權條款、退場條款、社群所有權——這些都是使技術基底安全可部署的治理約束。

科學家地神

如果我們將這些計畫與關懷六力組合，就能得到兩者單獨都無法提供的東西：一個非代理性的現實預測器，為社群需求而專精，在民主授權範疇內可快速適應，其輸出有知識論保證，其部署有治理保證。

這就是科學家地神——一個內部因建構而可信、外部因設計而可問責的系統。

其架構：

自監督學習基於社群相關資料，以真實化分離事實與溝通
世界模型用於範疇內的領域特定規劃，配以規劃行為的代理性稽核
知識論正確性驅動具校準不確定性的決策軌跡
參與契約規定目的、查詢範圍和護欄
社群撰寫的評測壓力測試自信宣稱與策略性沉默之間的落差
退場條款確保地神在其服務完成時離開

這個架構的任何組成部分都不需要其他部分。治理在沒有機器學習進展的情況下仍然有效。機器學習進展在沒有治理的情況下也能運作（但不那麼安全）。但合在一起，它們描述了一個系統：其數學特性減輕了治理負擔，其治理約束將數學特性導向社群利益。

最強版本包含彼此

Bengio 建造了知識論地板——你可以驗證的預測。LeCun 建造了能力之牆——超越通用性的專精表現。關懷六力建造了上方的一切——使這棟建築得以居住的治理。

單獨任何一個都不夠。一個部署在獨裁體制下的可信神諭，仍然是壓迫的工具。圍繞不透明、欺騙性 AI 的完美治理，是一場無盡的角力。沒有問責的超人類能力，是沒有約束的力量。

每個框架的最強版本，就是包含了其他框架的那個版本。這個領域正在匯流於地神的內部。至於地神的周圍——那要靠我們。