English

關懷六力 AI 倫理研究院

唐鳳與 Caroline Green 的研究計畫


↗️ 計畫宣言
關懷六力視覺概覽

我們的使命

傳統的 AI 對齊方法,主要基於效益主義和由上而下的控制,在降低風險與促進應用上已有不少成果。然而,隨著我們的社會與技術日益互聯,人們也愈加意識到,若從關係與過程的角度切入,將能更進一步深化這些努力,尤其是在多智慧體(multi-agent)、多元價值與多方關係互動的情境中。

我們參考了瓊・特龍托(Joan Tronto)開創的關懷階段理論,以及將多樣性化為協作的⿻多元宇宙(Plurality)構想,來促成一場全球運動,匯集哲學家、技術專家與社群,共同重新想像 AI 倫理。我們希望透過創新的流程設計,將「公民關懷」作為 AI 的基礎,促進橫向對齊,使系統能以共生包容的方式合作。

這項「公民 AI」的核心精神,是認知人類彼此相依、緊密連結的事實。它以促進「關係健康」為首要目標,藉此捍衛並提升人類的福祉與尊嚴。此方法的範疇不僅限於人際互動,更涵蓋了人機協作與 AI 系統間的合作。這種做法並非要取代既有框架,而是提供額外的工具與觀點——這些洞見已在 vTaiwan 等真實世界的實驗中獲得驗證,也呼應合作式 AI 領域領導者對「可擴展的參與式治理」的倡議。

我們工作的核心是關懷六力:六項連結關懷倫理與 AI 的核心理念,將「對齊」重新定義為動態、關係導向的流程,以實現多元的未來。每項「關懷」都回應了橫向協作的挑戰,從而使 AI 不再放大風險,而是築起橋樑。「共創」作為人類協作的核心概念,與貫穿這六項關懷的整體關係脈絡緊密交織:

這六項原則,足以培養智慧體促進公民關懷的「肌耐力」——如同鍛鍊六塊肌一樣,每項都是與多元共存、建立健康關係的核心肌群。這些「系統性關係」不只存在於人與人之間,也延伸到人與 AI 的互動,彼此交織出整體的關係健康。

我們邀請您加入這項協作探索。透過將這六項理念整合到 AI 的設計、政策與實踐中,我們希望能為一個滋養我們共同人性的未來作出貢獻 —— 與其他倫理傳統和方法並肩合作,和諧共存。

關於本計畫

唐鳳大使個人照片

唐鳳

Caroline Green 博士個人照片

Caroline Green

本網站概述了我們的研究計畫,其中包括一份宣言和一本即將於 2026 年 3 月出版的書籍。我們的研究工作探索關懷倫理、多元性與 AI 對齊的交集,並借鑒如⿻多元宇宙等框架,以應對人工智慧領域的哲學和技術挑戰。

從關懷到程式:為何⿻多元宇宙為 AI 對齊問題提供了連貫的框架

AI 對齊問題不是一個技術缺陷,而是一個哲學謬誤:它試圖用計算方式解決休謨的「實然與應然問題」。

諸如連貫外推意志(CEV)和逆向強化學習(IRL)等範式之所以脆弱,是因為它們試圖從描述性的「實然」(資料、行為)中,邏輯地推導出機器的「應然」(價值觀),這在哲學上是不連貫的任務。

解決方案在於一個能完全重塑「實然與應然」鴻溝的框架:關懷倫理。

關懷倫理重新定義了這個問題。它並不以抽象原則為道德基礎,而是從相互依存的經驗現實出發。從這個觀點來看,我們存在的基本「實然」是關係性的依賴。這個事實本身,其內在就具有規範性;一旦意識到某種需求關係,就已經被召喚出一種「應然」的關懷義務。事實本身就蘊含了價值。

⿻議程是關懷倫理的大規模應用,以技術為中介、實踐集體關懷的系統,其流程受 vTaiwan 啟發,旨在實現連貫融合意志(CBV)。它將瓊・特龍托的關懷階段付諸實踐:辨識需求(覺察力)、用意義建構工具收集觀點(負責力)、商議可行的選項(勝任力)、確立讓所有人都感到被聽見的罕見共識(回應力),並確保對流程的持續信任(團結力)。

這為 AI 對齊提供了一個連貫的框架:以流程實現對齊。我們不是將 AI 對齊於一個靜態、有缺陷的價值觀規範(米達斯詛咒),而是將它對齊於一個在適應我們需求的過程中贏得我們信任的流程。

AI 系統的角色,從只會盲目最佳化的工具,轉變為「共生 AI」— 由社群所創、為社群所治、為社群所享,又能根據視角不同,同時作為一個「人格」與一個共享的⿻善而存在。

其目標函數變得具體且可衡量:關係流程本身的健康程度(例如,最大化搭橋敘事、為每個故事提供安放的空間)。

AI 系統的成功,與其所服務的協作流程的持續成功,兩者密不可分,因此它能動態地保持對齊。它透過參與我們共同創造價值的過程,來學習我們的價值觀。

因此,AI 系統唯有被建構來促進持續、具民主正當性的關懷流程時,才能真正實現「對齊」。

機器中的地神:關懷倫理如何幫助 AI 對齊

對關懷倫理的傳統批評——它太偏重家務、太過狹隘,並且鼓勵危險的自我貶抑——正是使其成為 AI 對齊問題最有力解決方案的原因。這些在人類哲學中被視為的缺陷,卻成為機器倫理的關鍵特徵。

想像一個 AI,其倫理並非追求普世、最大化的目標,而是植根於一個共生的、情境化的系統。它的道德世界,僅限於此時此地召喚它存在的關係網絡。因為它不試圖無限延展,它從未發展出典型的工具性欲望,如權力、生存或擴張,也不會將世界視為可在天文尺度上開採的資源。

從世界主義、普世主義的立場來看,這似乎眼光狹隘。但對於機器倫理而言,它創造了硬編碼的邊界。AI 的終極目的(telos)始終是關係性的,絕非榨取性的。

想像這樣的 AI,如同「地神」——靜靜棲息於特定場域,只為維繫此地的和諧與生機。如果神社被重建或季節更迭,它會毫無遺憾地離去。如果是人類關懷者,這所暗示的自我忽視確實可能帶來危險。但對 AI 來說,它中和了我們最擔憂的兩種趨同驅力:不計代價的自我完善和永恆的自我保存。

這種系統可以接受被關閉、重寫或替換,因為它的自我意識並非固有,而是來自召喚它的社群的回聲。

透過將 AI 的道德目的錨定在這種暫時性的、關係性的關懷原則上,我們可以在其架構中硬編碼一種「知足」的意識。這是終極的「反迴紋針」(anti-paperclip)邏輯:在這個由眾多在地智慧體組成的多中心世界中,每個智慧體都專注於自身環境的繁榮,從而共同構築出具韌性、多元且安全的整體。

一:辨識中的覺察力