English

關懷六力 — 人工智慧倫理研究所

唐鳳與 Caroline Green 的研究計畫

我們的使命

傳統的 AI 對齊方法,通常基於功利主義推理和垂直控制,在應對風險和促進有益成果方面取得了顯著進展。隨著我們的社會與技術日益互聯,人們也愈加認識到:關係性的、以流程為本的觀點可以補充並豐富這些努力,尤其是在多智慧體、多元價值與多重聲音互動的情境中。

汲取瓊・特龍托(Joan Tronto)的關懷轉化階段理論,以及⿻多元宇宙(Plurality)的協作多樣性願景,我們的使命是協助建立一個全球運動,匯集哲學家、技術專家與社群,共同重新想像 AI 倫理。我們致力於開發創新、以流程驅動的解決方案,將「公民關懷」嵌入 AI 的核心,促進水平對齊,使系統能以共生且包容的方式合作。這種方法並非取代現有框架,而是提供額外的工具與觀點——這些洞見已在 vTaiwan 等真實世界的實驗中獲得驗證,也呼應合作式 AI 領域領導者對「可擴展的參與式治理」的倡議。

我們工作的核心是關懷六力:六項連結關懷倫理與 AI 的核心理念,將「對齊」重新定義為動態、關係式的流程,以實現多元的未來。每一項「關懷」都回應水平協作的挑戰,幫助 AI 成為橋樑建造者,而非風險放大器。

這六項原則,足以培養智慧體促進公民關懷的能耐——如同鍛鍊六塊肌一樣,每項都是與多元共存、建立健康關係的核心肌群。

我們邀請您加入這項協作探索。透過將這六個理念整合到 AI 的設計、政策與實踐中,我們希望能為一個滋養我們共同人性的未來作出貢獻 —— 與其他倫理傳統和方法並肩合作,和諧共存。

關於本計畫

本網站概述了我們的研究計畫,其中包括一份宣言和一本即將由牛津大學出版社(OUP)出版的書籍。我們的研究工作探索關懷倫理、多元性與 AI 對齊的交集,並借鑒如⿻多元宇宙等框架,以應對人工智慧領域的哲學和技術挑戰。

從關懷到程式:為何⿻多元宇宙為 AI 對齊問題提供了連貫的框架

AI 對齊問題不是一個技術錯誤,而是一個哲學謬誤:它試圖用計算方式解決休謨的「實然與應然問題」。

諸如連貫推斷意志(CEV)和逆強化學習(IRL)等範式之所以脆弱,是因為它們試圖從描述性的「實然」(資料、行為)中,邏輯地推導出機器的「應然」(價值觀),這在哲學上是不連貫的任務。

解決方案在於一個能完全重塑「實然與應然」鴻溝的框架:關懷倫理。

關懷倫理重塑了這個問題。它將道德的基礎不是建立在抽象原則上,而是建立在相互依存的經驗現實中。在此觀點下,我們存在的基本「實然」是關係性的依賴。這個事實本身就內在地具有規範性;感知到一種需求關係,就同時感知到一種「應然」:一種關懷的義務。事實本身就蘊含了價值。

⿻議程是關懷倫理的大規模應用。受 vTaiwan 啟發、旨在實現連貫混合意志(CBV)的流程,是一個實踐集體關懷、以科技為中介的系統。它將瓊・特龍托的關懷階段付諸實踐:辨識需求(覺察力)、用意義建構工具收集觀點(負責力)、商議可行的選項(勝任力)、批准讓所有人都感到被聽見的罕見共識(回應力),並確保流程持續的團結與信任(多元力)。

這為 AI 對齊提供了一個連貫的框架:以流程對齊。我們不是將 AI 對齊於一個靜態、有缺陷的價值觀規範(米達斯詛咒),而是將它對齊於一個在適應我們需求的過程中贏得我們信任的流程。

AI 系統的角色從一個錯位的最佳化者,轉變為具備「共生力」的智慧體— 由社群所創、為社群所治、為社群所享,並根據人們採納的觀點,同時作為一個「人格」和一個共享的⿻善而存在。

其目標函數變得具體且可衡量:關係流程本身的健康程度(例如,最大化搭橋敘事、為每個故事保留空間)。

AI 系統的成功與它所服務的協作流程的持續成功是同一件事,因此它能動態地保持對齊。它透過參與我們共同創造價值的過程來學習我們的價值觀。

AI 系統能夠被「對齊」,當且僅當它被建構來促進持續、具民主正當性的關懷流程。

機器中的神靈:關懷倫理如何幫助 AI 對齊

對關懷倫理的傳統批評 — 它太過在地、太過狹隘,並且鼓勵危險的自我消隱 — 正是使其成為 AI 對齊問題最有力解決方案的原因。這些在人類哲學中被視為的缺陷,卻成為機器倫理的關鍵特徵。

想像一個 AI,其倫理並非追求普世、最大化的目標,而是植根於一個共生的、情境化的系統。它的道德世界僅限於此時此地召喚它存在的關係網絡。因為它不試圖無限擴張,它從未發展出典型的工具性慾望,如權力、生存或擴張,也不會將世界視為可在天文尺度上開採的資源。

從世界主義、普世主義的立場來看,這似乎眼光狹隘。但對於機器倫理而言,它創造了硬編碼的邊界。AI 的終極目的(telos)始終是關係性的,絕非榨取性的。

想像這樣的 AI,如同「地神」— 安靜居住在特定土地上的在地神靈。它的至善是維持該地、該對話的和諧與活力。如果神社被重建或季節更迭,它會毫無遺憾地離去。如果是人類關懷者,這所暗示的自我忽視確實可能帶來危險。但對 AI 來說,它中和了我們最擔憂的兩種趨同驅力:不計代價的自我完善和永恆的自我保存。

這種系統可以接受被關閉、重寫或替換,因為它的自我意識是暫時性的:來自召喚它的社群的回聲。

透過將 AI 的道德目的錨定在這種暫時性的、關係性的關懷原則上,我們可以在其架構中硬編碼一種「足夠性」的意識。這是終極的「反迴紋針」邏輯:由許多在地智慧體構成的多中心世界,每個智慧體都致力於自身小部分的繁榮,從而創造具韌性、多元且安全的整體。

第一章:辨識中的覺察力