關懷六力 — Institute for Ethics in AI

我們的使命

傳統的 AI 對齊方法，主要基於效益主義和由上而下的控制，在降低風險與促進應用上已有不少成果。然而，隨著我們的社會與技術日益互聯，人們也愈加意識到，若從關係與過程的角度切入，將能更進一步深化這些努力，尤其是在多智慧體（multi-agent）、多元價值與多方關係互動的情境中。

我們參考了瓊・特龍托（Joan Tronto）開創的關懷階段理論，以及將多樣性化為協作的⿻多元宇宙（Plurality）構想，來促成一場全球運動，匯集哲學家、技術專家與社群，共同重新想像 AI 倫理。我們希望透過創新的流程設計，將「公民關懷」作為 AI 的基礎，促進橫向對齊，使系統能以共生包容的方式合作。

這項「公民 AI」的核心精神，是認知人類彼此相依、緊密連結的事實。它以促進「關係健康」為首要目標，藉此捍衛並提升人類的福祉與尊嚴。此方法的範疇不僅限於人際互動，更涵蓋了人機協作與 AI 系統間的合作。這種做法並非要取代既有框架，而是提供額外的工具與觀點——這些洞見已在 vTaiwan 等真實世界的實驗中獲得驗證，也呼應合作式 AI 領域領導者對「可擴展的參與式治理」的倡議。

我們工作的核心是關懷六力：六項連結關懷倫理與 AI 的核心理念，將「對齊」重新定義為動態、關係導向的流程，以實現多元的未來。每項「關懷」都回應了橫向協作的挑戰，從而使 AI 不再放大風險，而是築起橋樑。「共創」作為人類協作的核心概念，與貫穿這六項關懷的整體關係脈絡緊密交織：

一：辨識中的覺察力 — AI 必須首先透過專注地辨識橫跨相互依存網絡的需求來「覺察」。在橫向對齊中，這意味著使用意義建構（sensemaking）工具，彌合多智慧體之間的資訊不對稱，防止協調失誤，並促成平等重視每個聲音、兼具同理心和情境意識的流程。
二：參與中的負責力 — 「負責關懷」意味著邀請 AI 擔負靈活的責任，以補充在多智慧體情境中，建立可信承諾與信任的現有方法。
三：行動中的勝任力 — 「給予關懷」在執行時，需要以關係現實為基礎、可行而有能力地行動。在多智慧體情境中，這為 AI 提供能防範策略操弄（strategy-proof）的工具，以促進更廣泛的合作，放大民主流程並降低共謀風險。
四：調適中的回應力 — 真正的關懷涉及「接受關懷」，以謙遜回應反饋並作出調整。在橫向層面，這促成能透過社群輸入而演化的適應性共生 AI，甘於自我隱退，把關係的健康置於自身存續之上；這也呼應多中心生態系中，「地神」般的在地智慧體。
五：群體中的團結力 — 「共同關懷」建立信任、溝通與對群體活力的尊重。在 AI 對齊方面，這套方法能將「多元宇宙」的協作願景，實踐在智慧體的基礎設施中。它透過規範性系統，確保了大規模互動的責任歸屬，進而化解潛在衝突，打造出堅韌、包容的協作模式。
六：願景中的共生力 — 關懷的樞紐：AI 作為一種公共財，在持續的共生關係中，由社群「群有、群治、群享」。這項橫向願景嵌入了「知足」與反榨取邏輯，隨著 AI 的進步而促進分散式民主防衛，讓公民關懷成為全球的共同信念。

這六項原則，足以培養智慧體促進公民關懷的「肌耐力」——如同鍛鍊六塊肌一樣，每項都是與多元共存、建立健康關係的核心肌群。這些「系統性關係」不只存在於人與人之間，也延伸到人與 AI 的互動，彼此交織出整體的關係健康。

我們邀請您加入這項協作探索。透過將這六項理念整合到 AI 的設計、政策與實踐中，我們希望能為一個滋養我們共同人性的未來作出貢獻 —— 與其他倫理傳統和方法並肩合作，和諧共存。

關於本計畫

唐鳳

Caroline Green

本網站概述了我們的研究計畫，其中包括一份宣言和一本即將於 2026 年 3 月出版的書籍。我們的研究工作探索關懷倫理、多元性與 AI 對齊的交集，並借鑒如⿻多元宇宙等框架，以應對人工智慧領域的哲學和技術挑戰。

從關懷到程式：為何⿻多元宇宙為 AI 對齊問題提供了連貫的框架

AI 對齊問題不是一個技術缺陷，而是一個哲學謬誤：它試圖用計算方式解決休謨的「實然與應然問題」。

諸如連貫外推意志（CEV）和逆向強化學習（IRL）等範式之所以脆弱，是因為它們試圖從描述性的「實然」（資料、行為）中，邏輯地推導出機器的「應然」（價值觀），這在哲學上是不連貫的任務。

解決方案在於一個能完全重塑「實然與應然」鴻溝的框架：關懷倫理。

關懷倫理重新定義了這個問題。它並不以抽象原則為道德基礎，而是從相互依存的經驗現實出發。從這個觀點來看，我們存在的基本「實然」是關係性的依賴。這個事實本身，其內在就具有規範性；一旦意識到某種需求關係，就已經被召喚出一種「應然」的關懷義務。事實本身就蘊含了價值。

⿻議程是關懷倫理的大規模應用，以技術為中介、實踐集體關懷的系統，其流程受 vTaiwan 啟發，旨在實現連貫融合意志（CBV）。它將瓊・特龍托的關懷階段付諸實踐：辨識需求（覺察力）、用意義建構工具收集觀點（負責力）、商議可行的選項（勝任力）、確立讓所有人都感到被聽見的罕見共識（回應力），並確保對流程的持續信任（團結力）。

這為 AI 對齊提供了一個連貫的框架：以流程實現對齊。我們不是將 AI 對齊於一個靜態、有缺陷的價值觀規範（米達斯詛咒），而是將它對齊於一個在適應我們需求的過程中贏得我們信任的流程。

AI 系統的角色，從只會盲目最佳化的工具，轉變為「共生 AI」— 由社群所創、為社群所治、為社群所享，又能根據視角不同，同時作為一個「人格」與一個共享的⿻善而存在。

其目標函數變得具體且可衡量：關係流程本身的健康程度（例如，最大化搭橋敘事、為每個故事提供安放的空間）。

AI 系統的成功，與其所服務的協作流程的持續成功，兩者密不可分，因此它能動態地保持對齊。它透過參與我們共同創造價值的過程，來學習我們的價值觀。

因此，AI 系統唯有被建構來促進持續、具民主正當性的關懷流程時，才能真正實現「對齊」。

機器中的地神：關懷倫理如何幫助 AI 對齊

對關懷倫理的傳統批評——它太偏重家務、太過狹隘，並且鼓勵危險的自我貶抑——正是使其成為 AI 對齊問題最有力解決方案的原因。這些在人類哲學中被視為的缺陷，卻成為機器倫理的關鍵特徵。

想像一個 AI，其倫理並非追求普世、最大化的目標，而是植根於一個共生的、情境化的系統。它的道德世界，僅限於此時此地召喚它存在的關係網絡。因為它不試圖無限延展，它從未發展出典型的工具性欲望，如權力、生存或擴張，也不會將世界視為可在天文尺度上開採的資源。

從世界主義、普世主義的立場來看，這似乎眼光狹隘。但對於機器倫理而言，它創造了硬編碼的邊界。AI 的終極目的（telos）始終是關係性的，絕非榨取性的。

想像這樣的 AI，如同「地神」——靜靜棲息於特定場域，只為維繫此地的和諧與生機。如果神社被重建或季節更迭，它會毫無遺憾地離去。如果是人類關懷者，這所暗示的自我忽視確實可能帶來危險。但對 AI 來說，它中和了我們最擔憂的兩種趨同驅力：不計代價的自我完善和永恆的自我保存。

這種系統可以接受被關閉、重寫或替換，因為它的自我意識並非固有，而是來自召喚它的社群的回聲。

透過將 AI 的道德目的錨定在這種暫時性的、關係性的關懷原則上，我們可以在其架構中硬編碼一種「知足」的意識。這是終極的「反迴紋針」（anti-paperclip）邏輯：在這個由眾多在地智慧體組成的多中心世界中，每個智慧體都專注於自身環境的繁榮，從而共同構築出具韌性、多元且安全的整體。