唐鳳與 Liron Shapira 在《末日辯論》節目中展開深度對談——這是一個以超級智慧風險為主題的訪談系列。九十分鐘,探討為何 P (末日) 是 NaN(非數值)、什麼是透明馬架構,以及關懷六力如何在文明尺度上為仁工智慧治理提供藍圖。
Doom Debates · 2026 年 1 月 20 日
Liron Shapira:歡迎收看《末日辯論》。唐鳳是臺灣政治家兼自由軟體程式設計師,目前擔任臺灣網路空間治理無任所大使。她是自學成才的程式設計天才,國中輟學後成為全球開源社群的頂尖貢獻者。
2016 年,年僅三十五歲的她出任臺灣數位政委,成為臺灣史上最年輕的不管部會政務委員。新冠疫情期間,她主導開發了口罩配給與接觸追蹤等數位工具,協助臺灣在不實施嚴格封鎖的情況下,取得全球最出色的初期防疫成效之一。
2024 年,她與 Glen Weyl 合著《多元宇宙:協作科技與民主的未來》,以臺灣的成功案例為藍本,提出一套名為「多元宇宙」的全新全球政治哲學。
我邀請她來上《末日辯論》,是因為她是一位具有原創思維的思想家,對於如何駕馭 AI 的未來,有獨特且廣受推崇的觀點。我非常期待與唐鳳探討超級智慧 AI 帶來的人類滅絕風險,以及如果我們能倖免於難、實現她的多元宇宙願景,世界將會是什麼模樣。唐鳳,歡迎來到《末日辯論》。
唐鳳:各位當地時間好。感謝邀請。
Liron Shapira:唐鳳,您目前擔任臺灣的網路空間無任所大使。您在這個職位上的工作重點是什麼?
唐鳳:「Cyber」是希臘語 κυβερνᾶν,意思是「掌舵」。我協助各國政府和社會,在 AI 帶來的巨大變革浪潮中找到方向。這包括超人類說服力、有組織的犯罪、詐騙、深偽技術、網路攻擊,以及種種類似的挑戰。
Liron Shapira:您以臺灣政府一員的身份,參與引導 AI 的未來走向。談到這一點,我首先想到的是台積電——全球排名第一的半導體製造公司,市值高達一點六兆美元。我還想到黃仁勳——NVIDIA 的創辦人,雖然那是一家美國公司。在引導 AI 未來這件事上,我還應該想到哪些臺灣的重要元素?
唐鳳:臺灣是地球上最年輕的構造板塊島嶼,只有四百萬年的歷史。我們每年因兩大板塊碰撞而實際上升半公分,因此臺灣每天都有三次地震。
這不只是比喻,而是真實的地質現象。我們每天接受免費的滲透測試——過去十二年來,臺灣每天遭受兩百萬次網路攻擊,是全球首要的極化與干預攻擊目標。
因此,我們真的身處一個必須將這種免費滲透測試化為資源的地方。我們不把這些衝突和極化視為需要逃離的火山爆發,而是視為可以利用的地熱能源。把民主想成一部地熱引擎——這是我希望您記住的意象。
Liron Shapira:為了完全釐清,您用地震這個比喻,雖然地震是真實存在的,但在網路安全挑戰這個層面,它依然是個比喻,對嗎?
唐鳳:是的,不過我們確實也需要規劃實際地震後的復原與韌性——即使電力網路、電信等基礎設施中斷,也要讓網路繼續運作,必要時切換到衛星連線。當然,我也在用「人造地震」作比喻。
Liron Shapira:明白了。我很好奇,你們有沒有遇過嚴重到核心系統停擺數週的重大天然災害?或者,這更多是在為未來可能發生的巨大災難做準備?
唐鳳:我們確實經歷過。有幾次地震切斷了整個地區的網路連線,而且都是近期的事——台南和花蓮各有一次。那時我還是數位部長,我的副部長親自搭直升機,把衛星接收器運送到受災地區。
Liron Shapira:這確實是我感興趣的議題——從持續數週的重大災難中復原的能力。在美國,我幾乎不記得上次停電超過八小時是什麼時候,可能已經超過十年了,所以我一直過著相對舒適的生活。
我認為,人們很容易忽視在更大規模上發生此類重大災難的可能性。所以,這些地震至少讓你們時刻保持警覺——你們知道持續一週的災難是很現實的可能性。
唐鳳:完全正確。這對我來說也是首要考量。
Liron Shapira:很好。至少有人真的在為此做準備。要不然人類以這種方式滅亡也太可悲了——「哦,每百年一次的太陽閃焰,我們沒有準備好。」不過您說這沒問題,對吧?
唐鳳:對。只要您對某類事件可能造成的衝擊有足夠的了解,就能提前規劃因應——這樣您的 P (末日) 就會降低。
但對於 AI——也就是貴節目的主題——我認為目前的分母正在趨近於零,我們真的不知道會怎樣,這就是為什麼我的 P (末日) 是 NaN,也就是「非數值」。
Liron Shapira:好的,公道。我們之後一定會深入討論這個。
先退一步。您擔任過無任所大使,之前也是臺灣的首位數位部長。讓我們聊聊您在那裡開創的數位治理模式。我想到的例子有優步、新冠疫情和 AI 的治理。也許您可以挑一個詳細說明?這些案例感覺都很有創意。
唐鳳:好的,我用最近的例子。您提到了黃仁勳,這位臺裔美籍的 NVIDIA 執行長。2024 年,如果您在臺灣滑臉書或 YouTube,幾乎一定會看到黃仁勳的臉。他試圖說服您購買加密貨幣或投資某些股票。
如果您點擊那張圖片,它會和您說話,聽起來就像黃仁勳本人,但當然不是他——那是一個運行在 NVIDIA GPU 上的深偽詐騙廣告。許多人因此損失了數百萬美元。
但臺灣在亞洲網路自由方面排名第一。個別調查每個人,他們都會說「政府應該遠離審查制度」。那我們該怎麼辦?
我們在數位部的做法是,向全臺灣隨機發送二十萬條簡訊,說:「好的,我們看到了這個問題。我們應該一起怎麼做?」
然後有數千人自願上網參與一種我們稱為「對齊大會」的對話。在十人為一組的視訊房間裡,每個人與另外九人交流,只有一條規則:您的想法必須說服房間裡其他九個人,才能傳播到房間之外。
非常有趣的是,如果您個別詢問每個人,他們的立場都很極端,像是贊或反某件事。但在十人的房間裡,有了這條尋找出人意料共識的規則,每個人都變得更加靈活——「好吧,也許在某些條件下可以接受。」
然後我們使用語言模型,從所有四十五個房間(每間十人)中梳理出最佳想法。例如,一個房間說:「您知道香菸的警示標籤嗎?讓我們對社群媒體上所有廣告貼上『可能是詐騙』的標籤,除非有人提供數位簽名,否則就下架。」——這是將 KYC(實名認證)預設值倒過來。
如果他們忽視我們的責任與 KYC 規則,怎麼辦?他們說:「每天降低 1% 的連線速度」。這也是個好主意。
於是,我們向立法委員展示,這些是人民的想法,不是我的想法。85% 或更多的人同意這些核心方案,另外 15% 的人也能接受。因此,去年三月,我們起草了一項法律;五月,草案出爐;七月,全部通過。從 2025 年起,臺灣的臉書或 YouTube 上就再也沒有深偽廣告了。
Liron Shapira:有趣。那麼,如果有境外詐騙集團試圖冒充黃仁勳向人們發送簡訊,由於這些新法規,他們基本上被阻止了?是什麼阻止了他們?
唐鳳:如果您試圖在臉書上投放專門針對臺灣的廣告,您會看到一個彈出視窗,要求您用數位方式證明自己的身份。大多數詐騙集團到這一步就直接放棄了。
Liron Shapira:對,因為他們怎麼偽造身份呢?這樣的驗證相當嚴格。可能需要公證,或者像晶片加密 ID 這樣高度安全的東西。臺灣的數位 ID 相當先進,對吧?
唐鳳:正是,而且是去中心化的。我們有一個去中心化的 憑證皮夾。這是一個您可以安裝的應用程式,但它不會回傳資料,您可以用它來證明您的年齡超過十八歲,而不需要透露您的年齡;或者證明您電話號碼的後三碼,而不需要透露整個號碼。有各種選擇性揭露的方式。
Liron Shapira:這讓我很有共鳴——取得身份驗證這一步。您讓不同的人聚在一起,以群體方式思考,提出這些方案,並用演算法協助整合——這種創新的演算法中介民主形式非常有意思。但您不覺得這有點多此一舉嗎?一旦聽到這些想法,它們似乎顯而易見?
唐鳳:是的,重點就是要產生那些「一聽就覺得理所當然」的想法。這叫做搭橋想法,或者「罕見共識」。
您知道 X 上的「社群備註」嗎?現在 YouTube 和臉書也有了。概念是左翼提出對某條病毒式貼文的某種澄清,右翼提出另一種澄清,他們通常會否決彼此,但就是有一些備註能夠存活下來,同時獲得兩方的讚同。
現在,X 的研究人員提出了所謂的「超級備註」——一種對所有高評分備註進行摘要的方法,甚至訓練 AI 來起草這些備註,讓您找到能說服雙方的表達方式。對於一方,這是關於氣候正義;對於另一方,這是關於聖經中的創造關懷。這就是如何在分裂的群體中形成共同知識。
Liron Shapira:是的,很有趣。我真的很高興您在做這些嘗試,我也分享您對此的熱情——雖然只有您的一部分熱情。我也理解為什麼您和 Vitalik Buterin 還有 Glen Weyl 是好朋友,因為我總是看到這些人在思考、書寫和談論這些概念。
我覺得令人驚嘆的是,您實際上在政府裡,真的在大規模落實這些提案。我不記得有誰像您一樣,處於如此有利的位置,能夠不斷在政府內部實踐這些想法,所以我認為您是他們與政府連結的橋樑,這讓我很佩服。
不過,我必須提出反駁,因為雖然這些事情聽起來很棒,但我還是持懷疑態度——這能帶來超過 20% 的改善嗎?我覺得政府治理的所有困難、達成共識的難度、政治極化,如果我猜的話——了解非常有限的情況下——我會說,「好吧,您改善了 20%,」但難道您不是還是把所有老問題都帶進來了,一切依然難以運作,即使有了這些系統?
唐鳳:對,當然,這也是為什麼這不能只停留在國家層面。使用 Polis 或 Dembrane 等開源系統的意義在於,人們可以學習到這種做法可以遞迴地應用到更小的政治單位。
它已經被應用——而且確實被應用過——到我們學校的公民課程中。2019 年,在 AlphaGo 之後,我們更新了課程,認識到所有可以常規自動化的事情都將被自動化,所以學生不只需要學習識字,還要學習能力——透過好奇心和協作,共同訓練他們的公民肌力。
因此,當年輕孩子使用這類工具來測量空氣品質、水質、噪音水平時,他們不是在等待部長召開對齊大會。他們正在學習把這種方法遞迴地應用到自己的家庭。如果年輕孩子能夠說服他們的祖父母試試這個過程,比部長呼籲祖父母試試,效率和效果要高得多。
Liron Shapira:明白了。好的,我很尊重您願意嘗試這些做法。這讓我對臺灣更加敬佩。您當然沒有立場說其他的話,但您對臺灣的整體治理有什麼看法?
唐鳳:我們在 OECD 同等國家中,是社會極化程度最低的之一。也就是說,無論是族裔、宗教、性別、城鄉,還是跨年齡層,我們的社會極化都很低。我們也是最不孤獨的——以人們共進晚餐所花的時間來衡量。
我認為,我們對這類極化攻擊有相當強的韌性,不是因為我們建立了防禦屏障把它們擋在外面,而是某種程度上因為有了這些攻擊,我們才得以一起發展出抗體。
Liron Shapira:好,讓我們進入對話的核心。您目前在推動什麼樣的 AI 發展?
唐鳳:我在推動「仁工智慧」的概念——意思是人們,例如我剛才提到的學童,能夠調整、引導並在地詮釋那些與他們相關的 AI 系統。
我的焦點基本上是重現臺灣在我出生的八○年代所做的事——那就是個人電腦革命。以前只有大型主機,人們沒有電腦,只有終端機,也就是連接到同一台超級電腦的螢幕和鍵盤,這導致了權力集中,產生了大型國家、大型公司,如 IBM 等。
但臺灣協助推動了個人電腦革命,業餘愛好者最終創造了自由開源運動,其餘的就是歷史了。重點是,權力集中本身就是一種治理風險,我與研究人員和開發者合作,以字面意義(去中心化計算)和比喻意義(去中心化電力)來分散權力。
Liron Shapira:聽起來不錯。很難反駁,對吧?因為您喚起了我們很多人喜歡的東西。我們都希望每個人都能贏,我們都希望彼此之間有更多連結。也許最好的方式是透過對比來討論這個立場。有沒有一個好的例子,說明多元宇宙原則的激烈反對者,然後我們可以比較對照?
唐鳳:當然。一個反對者就是「最大化操作系統」,也就是「max OS」——以任何手段最大化某個數字,比如說參與度。
這正是目前社群媒體上不對齊的推薦引擎的行為:我沒有訂閱這些內容,但它還是把它推送給我。
現在,我在精神上有防禦——我的手機和電腦都是灰階的,所以我不太會因為多巴胺刺激而上癮,但許多人確實會。
讓人們沉迷於他們沒有訂閱的短片,把他們從有意義的關係中吸引出來,讓他們沉溺在「關係垃圾食物」裡,完全沒有關係營養,但人們卻偏好它,雖然他們不想偏好它——這就是多元宇宙立場的對立面。
Liron Shapira:好,這是一個非常具體的例子。如果我理解正確,您基本上是在說,今天在臉書、Instagram 或 TikTok 上滑動的人,這些產品的製造者違背了多元宇宙原則,因為他們過度專注於「參與度」這個指標。那麼,您具體會讓演算法做什麼來符合您的原則?
唐鳳:我正在與一個團隊合作,建立一個叫做「綠色地球」的基礎設施。我們首先與 Bluesky 合作,這也是為什麼它叫「綠色地球」。
它所做的是,將您的顯性偏好轉化為語言模型嵌入。您可以直接和綠色地球說:「我想看到 AI 研究人員各個派別之間更有意義的對話。」然後它可以將這轉化成嵌入,用來重新排序您訂閱和推薦的所有內容。
然後把最有搭橋效果的——也就是最能匯聚各種觀點、最具有平衡作用、能夠呈現雙方最佳論點而非稻草人的——推到您的動態最上方。
這就變成了促進社會的媒體,因為您與它的互動越多,您就越能向對方傳達您的立場,反之亦然。它在搭橋、在連結,這就是促社媒體。我們有一篇論文就叫《利社會媒體》,詳細說明如何實現。
Liron Shapira:好。個人而言,我說不上反對。我認為人們應該有自由和彈性。有些人可能喜歡打開 TikTok,沉浸一個小時,然後能輕鬆關掉——您不反對讓人們自訂自己的動態,對吧?
唐鳳:對。概念是我們應該能設定自己的服務條款。目前的問題是,您可以一直告訴 TikTok 或其他社群媒體「我不喜歡這個,我不喜歡那個」,但系統毫無可解釋性。它可能會給您看別的東西,但從不解釋為什麼要給您看那些。
Liron Shapira:對,完全是。我是 X(前稱 Twitter)的重度用戶,很多時候我發現自己被我強烈不認同的立場激怒,無法相信有這麼多人在這個問題上如此錯誤。
如果我能自訂我的動態,我會說:「好,預測我被激怒的可能性,每天只給我兩三個激怒我的貼文。」我不需要被反覆激怒。
唐鳳:微量給藥。馬斯克確實說過,您很快就能透過 Grok 實現這一點,我們就等著看看什麼時候能做到吧。
Liron Shapira:正是,這和您的想法很吻合。對我來說,這一切都很棒,只是沒有真正觸及我關注的核心問題——來自超級智慧的末日或人類滅絕。
讓我們回顧一下您寫過的東西。我們來談談「關懷六力」——這是您的核心比喻之一。
唐鳳:是的。
Liron Shapira:這裡的「六力」,是指一箱六瓶啤酒,還是六塊腹肌?
唐鳳:既便攜又有力量,所以兩者都是。它是一組可攜式的公民肌力。
Liron Shapira:好極了。好,它有兩層意思。您想逐一介紹,還是讓我來念您準備的內容?
唐鳳:請說。我相信有一本很棒的漫畫插圖,是 Nicky Case 繪製的,他也畫了《寫給有血有肉的人類的 AI 安全指南》,在 aisafety.dance 上可以看到。您可以直接看那本漫畫。
Liron Shapira:好,讓我把它打開。我現在在 6pack.care。這是任何人都可以訪問的網站。上面寫著:「關懷六力,牛津 AI 倫理研究院,唐鳳與 Caroline Green 的研究計畫。」
而且確實有一個六力的圖示,它說:「真正傾聽人們的聲音」、「真正信守承諾」、「我們驗證流程」、「我們驗證結果」、「盡可能實現雙贏」、「盡可能保持在地化」。好的,這些合在一起基本上就是多元宇宙,對嗎?您還想補充什麼?
唐鳳:正是。這些是多元宇宙原則應用於多智慧體 AI 治理的具體體現。
DeepMind 最近有一篇分佈式 AGI 安全論文指出,我們目前觀察到的 AGI 的出現,並非來自某個資料中心裡的單一模型,而是來自許多許多智慧體之間複雜的互動——每個智慧體都在使用工具,透過使用這些工具,它們也觸發了其他智慧體的行為。
所以它更像是一個生態系統,而不是一個單一的模型。從某種意義上說,我們人類已經是超級智慧了,而 AI 透過加強這些連結,讓我們變得更加超級智慧。
關懷六力基本上在問:當我們用機器倫理的視角分析這個生態系統時,其中的機器應遵守什麼倫理?當然,這假設機器可以理解並遵行倫理。
Liron Shapira:您關於關懷六力這種做法說的每一件事,和 Vitalik Buterin 的 d/acc 非常相似,我相信您知道這一點,對吧?
唐鳳:是的。加速去中心化、加速防禦,這些都很好。但我認為,關懷六力聚焦於加速民主,這也是 d/acc 中被接受的「D」之一。
Liron Shapira:對,d/acc 中最重要的應該是民主(Democracy)和去中心化(Decentralization)。還有防禦(Defensive),沒錯。
唐鳳:是的。
Liron Shapira:我認為您同意所有這些 D,而且您還加了一些更深入的細節——「我們驗證承諾,我們驗證結果」,這是 d/acc 中相對新的內容。
我個人對兩個提案的反應類似:在原則上沒有異議。如果我們能邁向這樣的未來——「真正傾聽人們的聲音,真正信守承諾」——是的,我很樂見這樣。
我對 Vitalik 來節目時也說了同樣的話。在 d/acc 的脈絡下,我說:「如果有人坐在像臺灣這樣的島嶼上,核戰正在爆發,或超級智慧正在爭奪地球控制權,您沒辦法告訴您的島嶼……有一個理想,就是島嶼可以自衛,但您不能只靠戴安全帽來保護自己。您完蛋了。」
所以我的問題是,您不覺得這個理想到底是否可行,仍是一個巨大的問號嗎?
唐鳳:我認為,可擴展的治理——也就是隨著能力提升而變得更好的治理——不是要求個人穿戴安全帽,而是訓練在地的地神,或者說守護靈,以日本概念中在地守護精靈的意涵,來幫助我們自衛。
一個好的例子是臺灣對社群媒體上詐騙廣告的掃描。我們當然有一個眾包的舉報詐騙網站,人們可以在那裡貼上他們在網上看到的騙局。
但大多數情況下,人們只需要舉報新型的騙局。任何更常規、以前見過的騙局,實際上都由 AI 系統自動偵測並貼標,然後自動發送電子郵件給被冒充的名人,詢問:「這是您最新授權的深偽影片,還是根本不是您?」之後,就自動以機器對機器的方式下架。
所以這個系統不是人類在扮演防禦者,而是防禦性的 AI——使用由社群訓練的 AI。我們還有信息操控偵測和本地消息查核工具,有一個叫做「訊息查核」的應用程式可以直接安裝。
這些使用在地地神的保護措施,並不是說隨著威脅越來越強,我們就繼續用現有的治理工具。它也在升級我們的治理工具,把民主當成一種社會技術來對待。
Liron Shapira:好,我開始感覺到,您和我將要分歧的地方,就在於我們對 AI 演變為超級智慧後的樣子預測不同——我們還沒有觸及這一點。所以我不是直接反對您說的任何東西。我認為您做得很好。
假設 AI 不會突然以難以控制的力量壓倒我們,您說的一切都很棒。讓我問一個問題,來結束這部分關於您世界觀的討論。您談到了多元宇宙、關懷六力、以及為什麼您認為 d/acc 是可行的。
再問您一個問題:這和 Emmett Shear 的公司 Softmax 有相似之處嗎?
唐鳳:是的。有機對齊的理念,或者說建立一個課程或訓練環境,讓您可以訓練更加謹慎、更有關懷心而非粗心大意的 AI 系統——或者像 Vitalik 所說的,「有靈魂的」AI——這個方向非常吸引人。
這非常符合「盡可能實現雙贏」這第五力,也就是團結力。這一力基本上說,我們需要確保在訓練 AI 系統時,它不是在最佳化個人的喜歡,因為那樣會讓它變成一個奉承者,一個最大化個人福祉的工具。
然後在一個家庭裡,如果四個人在規劃旅行,每個人都與那種奉承型的 AI 交談,他們最終會互相爭吵,各自去旅行,這不是我們想要的。我們想要訓練出好的團隊合作者,好的教練,而不只是好的家教。
目前的生產系統中已經可以看到一些這樣的跡象。ChatGPT 群組版首先在臺灣推出,現在也已全面推出。您可以創建一個新的群組對話,邀請家庭成員加入一個共享的 ChatGPT 對話,ChatGPT 在其中扮演團隊教練,而不是個人家教。
所以是的,我確實同意有機對齊是有用的,它也帶來了真正的回報。人們確實偏好群組模式——有了 AI 的介入,一群人更能凝聚,而不是分裂。
Liron Shapira:有機對齊的人和您對 AI 的看法,有沒有任何具體的分歧點?還是說基本上是強烈的共識?
唐鳳:我認為在第五力方面是強烈共識。關懷六力的立場是,您需要同時投入所有六力,才能讓它變得便攜且有力量——您不能只練一塊六塊腹肌。但除此之外,在他們正在訓練的特定方式上,我認為沒有任何分歧。
Liron Shapira:好的,公道。讓我們進入我認為是核心分歧點的部分。如果我猜對了,我認為這是我們分歧所在:我們對超人類智慧出現方式的預期。
讓我先問您:您的 AGI 時間線大概是什麼?
唐鳳:它已經在了。
Liron Shapira:好吧,我猜我早該知道您會這麼說,因為您確實白紙黑字寫過:「我們所需要的超級智慧已經在了。它是人類協作的未開發潛力。它就是我們人民。」您認同這個說法嗎?
唐鳳:當然。
Liron Shapira:好,那我的問題是,難道不會有一個更加超級智慧的超級智慧到來?您真的認為我們現在已經撞到天花板了嗎?
唐鳳:完全不是。我們互聯和協作的能力只會從現在開始持續增長,所以顯然,我們將成長為超級智慧。
Liron Shapira:讓我深入探討一下,確保您的智慧模型確實和我的相似。讓我繼續追問:智慧的尺度到底有多高?因為到目前為止,您說「它相當高」。您已經承認了,是的。
那麼,如果您把理想的演算法放進一個佔地一整個街區的資料中心,填滿了密集排列的電晶體——感謝台積電或其他公司——您不認為在幾年或幾十年內,這個街區大小的計算設施,將超越 2025 年所有在世人類的集合能力嗎?
唐鳳:好,我們叫它工廠。它們已經存在了。確實有能夠自動運作的工廠。
Liron Shapira:您不認為未來會出現一個佔地一個街區的資料中心,有一個實體,它將比有史以來任何一個人——乃至所有人加在一起、匯集他們的智慧、建造一堆工廠——都更強大嗎?而且是在相當近的未來?
唐鳳:當然,我同意。而且感謝可擴展的治理和協作 AI,人類社群也將變得比我們今天所能想像的更加智慧。因此,我們將能夠以「AI 在人類迴圈中」的方式,匹配這些自動化工廠,而人類本身也將變得更加智慧。
Liron Shapira:好,我想我理解您的意思。您是說,您實際上同意我,智慧尺度確實遠高於今天的人類。所以即使您看一個今天的人類公司,比如 SpaceX——一群非常聰明的人很好地協調合作,非常高效——您同意 2100 年的 SpaceX 將比今天的 SpaceX 高效得多。上限比我們今天看到的要高得多。
唐鳳:群才(scenius)遠比天才(genius)更聰明,這是當然的。
Liron Shapira:是的,群才——群體天才。我以前聽說過這個詞。
好,那麼您和我的分歧在於,您有著巨大的樂觀——「哦,是的,規模會快速攀升,遠超今天我們所能真正想像的,但人類只是在爬梯子,我們永遠不會從梯子上掉下來。我們和 AI 將會一起成功攀升……我們將是一個大的群才,我們將都是關懷六力的實踐者,我們將一起快速攀升,」對嗎?
唐鳳:好,那是我努力追求的方向,但目前我們在一個分岔路口,這也是為什麼這個預測有如此高的方差。所以是的,我希望走向那裡,但我不知道我們現在在哪裡。
Liron Shapira:您知道,退一步來看,在思維模型上,我用的比喻是非常快速地攀爬梯子。另一個比喻是,就像一架飛機正在起飛。我想像人類緊抓著正在起飛的飛機——因為 AI 在很多方面……我們看到了正回饋迴圈,Claude Code 開始獨立運作更長的時間,接管人們的電腦,完成各種有生產力的任務。
所以這架飛機正在起飛,我們緊抓著它。聽起來您也有類似的思維模型——是的,我們緊抓著,但您樂觀地認為緊抓住可能會奏效,對吧?
唐鳳:正是,而且在架構上,我們確實看到了以前幾代架構——RNN、LSTM 等——更容易檢視和引導。這是因為我們以前駕駛過其他飛機,當然要小得多。
我們曾經駕駛過 RNN、LSTM,它們相當可解釋。人們確實知道它要去哪裡,當我們引導它朝向這個方向時,它不會突然急轉彎。
我認為,目前很多不確定性源自二次方自注意力轉換器架構——它在字面上模糊了因果關係。因此,我們甚至不知道這架飛機把它的意圖藏在哪裡,或者它是否真的在隱藏意圖——對我們來說,它可能把所有意圖都藏起來了,我們根本不知道。
所以我認為明顯的答案是換一架飛機。不要一個可能藏著間諜的木製木馬,要一個透明的玻璃馬,讓您可以直接看穿它。我認為,在架構上,只要我們回到機制上更具可解釋性的東西,我們就可能在一架知道要去哪裡的飛機上,我的方差也會縮小。
Liron Shapira:我想繼續追問這個問題,確認您的智慧模型真的和我的相似。讓我們繼續追問智慧尺度到底有多高。因為到目前為止,您說「相當高」,您已經承認了,是的。
那麼遞迴自我改良呢?Claude 4.5 生成了 Claude 5.5、6.5 等,然後它們越來越快地出現,快到人類都沒有預料到,可能一週一個。「什麼?我們已經到 Claude 90 了。我們已經到了和起點截然不同的能力了。」您不認為這種遞迴自我改良是合理的嗎?
唐鳳:好,您剛才描述的是文明,對吧?即使在機器學習系統出現之前,如果您畫出人類群才的曲線,它也看起來是這樣的,所以我們本質上是在遞迴地改良自身。
所以是的,如果您讓它變得,我不知道,在攀登尺度方面超指數,那是可能的。
現在,問題是,您是在最佳化某個數字,比如困惑度,而犧牲其他重要的美德和重要的關係?還是說您只是滿意地完成了這個特定的測量,然後繼續實踐關懷六力?
我認為,注意力放在哪裡,才是真正的問題所在。我不是真的質疑我們能到多高。問題是,我們是否飛得太高,像伊卡洛斯的故事一樣燒掉了自己的翅膀。
Liron Shapira:好,有一件事我想釐清,關於您的立場。就是說,我們作為人類,我同意您。我們顯然已經展現了指數級增長,特別是自工業革命以來,倍增時間也越來越短。
所以我同意您,如果倍增時間一直在縮短,為什麼不應該在一週之內在單個資料中心內翻倍呢?難道這不只是繼續指數成長?
問題在於我們的大腦很難跟上,對吧?如果 Claude 90 在七天後出現,我們就面對面地站在一個超級天才面前。您真的認為,在僅僅幾天的時間裡,我們就能緊抓住那架正在起飛的飛機嗎?難道這對我們來說不是太快了嗎?
唐鳳:好,我認為 Yuval Harari,他也是我的朋友,曾論證過,從某種意義上說,農業產品、作物馴化了人類,而不是相反——這在第一印象下相當荒謬,因為它們如此緩慢,對吧?
農民比玉米或水稻的生長速度快了成千上萬倍,甚至更多。農民有能力在任何時候推土機夷平整個農田,水稻根本無力阻止——但他們沒有這樣做,因為他們被植物馴化了。
如果您接受哈拉瑞的論點,那麼您就能理解關懷六力的概念。
Liron Shapira:讓我們深入探討這個論點。確實,特定的作物確實很好地馴化了我們——因為您基本上是在說,「看,蘋果是如何掛在人類這架飛機上的?」因為那基本上是您的類比,就像,「看,蘋果是如何掛在人類這架飛機上的?」人類的認知比蘋果快得多強得多。蘋果是怎麼掛上去的?我的答案是,它們正在被甩脫的過程中。我認為這不是樂觀的理由。
然後您是在說,「好吧,只要蘋果能確保我們不在任何特定維度上最佳化得太厲害,如果我們只是能在很多事情上做到滿意即可,」那麼……
唐鳳:這就是滿意原則(satisficing)。
Liron Shapira:……就能存活更長。但我認為這將是我們分歧的核心,因為我認為這些 AI 很可能只是非常善於最佳化結果的引擎。您說的嗎?它們不會是那些模糊的「哦,讓我們只滿意即可……」就像,您不認為會有各種口味的 AI 嗎——即使不是世界上每一個 AI——有些公司將出售直接給您目標指標的 AI?
唐鳳:好,請看社群媒體推薦演算法。
Liron Shapira:對,正是,對。所以聽起來,即使是您的樂觀也依賴於這樣一個說法:我們將做一個一百八十度的大轉彎——您是在說,「是的,我知道過去公司只是讓 AI 最大化參與度,但我們即將進入一個不這樣做的未來,一切將會不同,我對此很樂觀,」對吧?這基本上是您的主張。
唐鳳:您為什麼認為馬斯克和 Bier 還有 Baxter 正在重寫 X 的演算法,允許使用者自訂促社會的社群推薦引擎?
Liron Shapira:好,首先,這花了很長時間,對吧?他承諾了好幾年,還沒實現。我看到了再說。
但是,有了馬斯克,他確實能帶來那種程度的驚喜——我不會說「哦,我能預測馬斯克會怎麼做。」但祖克柏會跟進嗎?TikTok 會跟進嗎?我不知道。我認為總會有高度吸引人的應用程式存在。
唐鳳:這就是為什麼我們正在建立綠色地球,不管馬斯克是否先完成,這樣任何其他社群媒體公司都能使用這種架構——就像使用不破壞臭氧層的冰箱一樣。
蒙特婁議定書的要點,不是等到人們意識到臭氧正在被消耗時,就已經有現成的氟氯烴替代品了,而是人們通過了一項強制性法規,說:「從 X 年後,如果您還在製造破壞臭氧的冰箱,就是在犯反人類罪,應依法處置。」
Liron Shapira:好,這是您的提案,也許如果我感到真的非常樂觀,我可以想像一個世界,Bluesky 因為每個人都喜歡這種對動態的新控制層次而變得更加流行。
就我而言,哇,我可以去 Bluesky,控制我每天被激怒的次數。好的,我可能會從 X 切換過去。
所以我能看到吸引力,我甚至可以給您 15% 的機率——我向您讓步。我提高到 15%,認為您的運動會獲勝,就連祖克柏和未來幾年控制 TikTok 的人,所有人都跟進,您的問題也得到了解決——針對社群媒體。但即使在那種超級樂觀的社群媒體場景下,您真的對這能推廣到更廣泛的領域感到樂觀嗎?
也就是說:「哦,是的,OpenAI 剛推出了這個智慧體 AI,您可以讓智慧體做任何事,但即使是那個智慧體,也將遵循所有這些它必須遵循的指導原則,使其不會過於最佳化。」在任何 AI 所做的任何事情上,您都樂觀地認為它將遵循所有這些原則?
唐鳳:我認為這裡的一個關鍵,在於監管環境是否具有強制性。讓我舉一個例子。我認為是布希總統推動了電信號碼可攜性。所以如果您使用一家電信業者,而它在您附近的接收品質很好,您可以換到不同的電信業者而不必放棄您的電話號碼——因為如果每個人換電信業者都要換號碼,就不會有多少人換了。
而我剛才提到的勝利場景……我甚至不會把它定為 15%。但有了號碼可攜性,競爭就呈現出不同的形態,他們實際上必須讓您每個月都感到滿意,才能保住您的業務。
所以在美國猶他州,他們已經通過了一項法律,規定從 2026 年 7 月起,如果您是猶他州居民,從 X 切換到 Bluesky 或 Truth Social——這些是開源的——您可以帶走您所有的社群、所有的點讚、粉絲、訂閱者,還有所有的對話。舊的網路在法律上有義務將其轉發到新的網路,無論新舊平台規模大小。
當然,這對所有人都有利,除了主導者,但對於所有正在考慮跳槽、只是不想放棄社群的人,它也很有利。他們被當人質扣押著。所以我的觀點是,激進的可攜性和互通性,可以讓市場透過扮演滿意即可的角色、與訂閱激勵相一致,來自我修復。
我們在社群媒體上沒有這種機制。在 Podcast、電信和 ATM 等方面我們有。所以我認為,在 AI 服務中引入互通性和情境可攜性,也是一種調整激勵、與我們剛才討論的社群媒體方式相同的方法。
Liron Shapira:好,您說的一切在一個有保障的百年不會滅絕的世界裡都說得通。所以如果我們能試錯,我們可以做些什麼,如果搞砸了也沒關係,我們還能再試一次。在那種世界裡,我對政府最終會說「好吧,大家,讓我們搞些互通性。好吧,大家,讓我們搞些開放標準。不要讓人們陷入太多的回饋迴圈。調低一點。這走得太遠了。太多人瘋掉或浪費了整天」確實感到某種程度的樂觀。
我同意,如果我們有幾十年或一個世紀來解決它,我們就能做到,因為如果您能嘗試很多次,這並不是有史以來最難的問題。所以再次強調,分歧點只是……好吧,但我認為會有一個「foom」。
而且回到我說的 Claude 在七天內變成 Claude 9,您似乎實際上認為可能會有一個 foom,但您樂觀地認為,不管有什麼樣的 foom,我們都能撐過去,對嗎?
唐鳳:好,會有一個 foom,就像會有……就像已經有過一個地方性流行病,而那些從流行病學到教訓、強化了公民肌力的地方,對大流行病有了更強的免疫力。
所以我的觀點不是說壞事不會發生或永遠不會發生,而是它會在足夠小的規模上發生,讓我們的選擇是:我們是忽視它、不從中學習,直到某個更大的火苗出現,直到它真的焚毀文明或烤焦地球?還是我們從那些小火中學習,然後將它們馴服成篝火,而不是野火?
Liron Shapira:那麼,在我們有多少時間從小火中學習這個問題上……回到這個問題……我們談到了遞迴自我改良和一週內 Claude 90 的 foom。
讓我問您這個:Yudkowsky 著名的例子,關於 AI 級別的科技可能很快到來——就是鑽石奈米機器人的概念。您可以想像微小的昆蟲,但它們是由鑽石而不是蛋白質製成的,基本上結合力更強大,它們有這些超能力。
他還提到了氣化機器人——可以飛行的太陽能昆蟲,但比昆蟲更強大,可以快速繁殖並接管地球,做到生物生命由於資訊速度限制而無法完成的事情。
好吧,簡單地說,Yudkowsky 的科幻奈米技術、新的生物科技樹——在幾年、幾個月內出現……我不知道是不是幾天……但很短的時間。這在您看來也是合理的場景嗎?
唐鳳:好,這太多詞了。通常我只是說「超熱資料中心工廠,機器人烤焦地球。」少得多的詞,同樣的效果。
Liron Shapira:好,好,好,是的。所以在您的場景中,當您用很少的詞說「烤焦地球的超熱資料中心」時,您隱含著很多事情必須在那個時刻之前發生,因為您需要相當多的資料中心才能烤焦地球,對嗎?
唐鳳:好,根據 RAND,他們說,AI 系統加上人類有可能找到一種化合物,讓某種連鎖反應更容易被觸發,讓大氣層在沒有協調對話的情況下迅速變得更熱。這就像尼克・波斯特羅姆(也是牛津大學的學者)提出的「脆弱世界假說」。
Liron Shapira:我只是好奇,在您的場景中,究竟是什麼讓地球升溫?我有點困惑,因為我認為地球會在有……
唐鳳:也許是一種能讓地球更熱的化合物,而資料中心、工廠和機器人在這樣的高溫環境下反而能運作,而那些策劃這一切的人相信他們能夠藏身太空或以某種方式成為超人類,然後讓地球烤焦,對他們有利而對其他所有人不利。所以如果您想談科幻小說,我認為這比奈米機器人更容易解釋。
Liron Shapira:好,不過在您特定的科幻故事中……您只是讓我相信這是一個合理的場景。找到某種化合物,這沒什麼不合理的。但對我來說,那是……我的場景才是預設的匯聚結果。我不需要這個假設——「哦,是的,我們找到了一種化合物」。那部分有點奇怪。它對科幻故事很好,但它不是顯而易見的匯聚結果。顯而易見的匯聚結果是地球被計算素(computronium)——也就是計算底質——所鋪設。您同意嗎?
唐鳳:好,我認為要達到那個結果,您需要人類的集體失能。每個人都被困在一個倉鼠滾輪裡,覺得自己正在影響未來的時間線,但我們集體上對計算素製造者的智慧失去了控制力。沒有集體失能,我認為不會走向那個場景。
Liron Shapira:您不認為人類只是會委託大量資料中心來完成大量有用的任務,隨著時間的推移越來越多嗎?
唐鳳:我是說,可能會到一個滿意即可的程度,但不會到最大化的程度。
Liron Shapira:所以這是我認為最有趣的問題。如果有這種遞迴自我改良的系統……Claude 4.5 生成了 Claude 5.5、6.5 等,它們越來越快出現,甚至快到人類都沒有預料到,可能一週一個。「什麼?我們已經到 Claude 90 了。我們已經到了和起點截然不同的能力了。」
如果那種遞迴自我改良迴圈正在發生,您認為在迴圈結束時,Claude 90 會告訴您:「嘿,記得我們討論過奈米技術嗎?我有一些設計給您。您只需要這樣做,三週之內,您就可以有氣化機器人」——這些能利用太陽能、咬穿地球的未來生物——那個特定的場景,包括奈米機器人,您有重大異議嗎?還是說您同意,「這很合理」?
唐鳳:我認為有很多方式,人們可以看到一種新的科學突破,它可以摧毀——如果不是真的地球的話——確實是我們所知道的文明,核彈就是一個主要的例子。也有一種場景,核彈自己決定爆炸……那就是急轉彎。
但在您的場景中,Claude 只是發布了這樣做的可能性,而沒有真正控制發射按鈕——不,我不認為 Anthropic 的人會按下電源或發射按鈕。他們為什麼會那樣做呢?
Liron Shapira:好,好,好。我應該澄清,我仍然只是在問您關於智慧尺度有多高的問題,這實際上不是關於地球上可能會發生什麼的問題,因為我試圖分解這個對話,分解您的世界觀。
聽起來您可能確實有一個和我相似的世界觀,僅僅在可能性方面。如果您只是把理想的演算法放進資料中心,如果我們只知道要翻轉的那幾吉字節比特,然後說「好,運行這個程式」——一個 Claude 90 類型的程式——它是那種程式,如果奉命的話,可以製造這些超強大的、可以吃掉世界的奈米機器人,對嗎?
唐鳳:是的,但為什麼我們一開始就要指示它去做那件事呢?我們可能會指示它找到一個防禦優先的世界,它也可能找到。
Liron Shapira:我明白您的意思。我只是想把這個話題說完——它能做什麼。因為問題是,很多人不像您說的那樣。很多人會在這裡反駁說,「不,Liron,沒有一吉字節的程式。即使是上帝親自給您這個程式,也沒有程式能讓奈米機器人吃掉世界。那只是 Yudkowsky 的科幻小說,他是個白痴。」
很多人會這樣說,但您說的是,「不,不,不,那完全說得通。唯一的問題是 AI 具體會選擇什麼。」
唐鳳:您把它指向最具攻擊優勢的頻譜的哪個方向?
Liron Shapira:所以就是澄清一下,您覺得理想的程式、那個智慧的程式能製造出這些超強大的奈米機器人,您同意這是一個很可能的可能性,對嗎?
唐鳳:只有當我們,或製造者,決定把它指向那個頻譜時。但人們更可能把它指向防禦優先的頻譜,在那種情況下,奈米機器人就開始成為輔助性智慧,不再是上癮性、自主性或威脅性的智慧。
Liron Shapira:好,好,所以我們正在找到方向。所以您和我在「能做什麼」這個問題上基本上有共識。我們對於擁有正確引導的 AI 能夠做什麼,都非常看好,然後我們開始分歧的地方就是「它將做什麼」這個問題。我們在能力上達成一致,然後在對「將會」的預測上有不同看法。
好,那我的下一個問題是:您同意如果它指錯方向,它可能會對地球造成這種瘋狂的破壞。所以我的下一個問題是,在這個場景中,您得到了 Claude 90,一週的時間,我認為您同意,我們需要進行的引導,最好在那一週之前就完成。那一週,基本上就是遊戲結束了。無論那一週發生什麼,最好都已經準備好了。
只是試圖在這上面設定一個具體的時間線,我描述了這個特定的 foom 場景——我們到達了 RSI(遞迴自我改良)的臨界點,這種瘋狂的奇點……所謂的「智慧爆炸」。
如果您必須猜測,最可能的時間線是什麼……顯然,您和我都不真正知道……但如果您只是必須猜,您認為它是五年後、十年後、五十年後?您的大致範圍是什麼?
唐鳳:好,它真的是一個非數值。我認為 Eliezer 在他的書《若有人建成它》中也同意這一點。他說:「您知道,這不是時機的問題,而是它是否會發生的問題。」所以他沒有固定的時間線,但在時間線的某個地方,這將發生。
Liron Shapira:Eliezer 在書中說的,我認為我記得正確——他說:「看,我們不應該聲稱知道。對於這類事情,時間線很難預測,所以我們不應該對明年就來感到驚訝,也不應該對三十年後就來感到驚訝。」
我也聽 Eliezer 說過,甚至是在我的 YouTube 頻道上,他確實說,考慮到目前的發展軌跡,二十年似乎是相當長的時間,我同意他的看法。
但他也說,我認為您說得對,關於它不是關鍵所在。即使有,比如說,還有幾 % 的機率在五十八年後發生,我們仍然應該進行一個相當類似的對話,即使它要在五十八年後才發生。
唐鳳:正是。所以,奇點近了。我們可以爭論它是更近還是更遠,但這不是一個有用的辯論。問題是,多元宇宙就在這裡。
Liron Shapira:好,不過我提這個的原因是,我確實認為,只是為了獲得更準確的思維模型,它是一個突出的維度。即使它不是百分之百,在 Metaculus 上——共識是 2032 年左右——您可能是個離群值。
您可能像 Yann LeCun 一樣,他最近說:「不,不,不,AI 可能需要很長時間才能到來,AI 可能需要十年。」所以您可能會說,「好吧,它比 2032 年來得更晚,還需要更長的時間。」
但我提這個的原因,以及我認為值得看時間線的原因,是因為您對人類即將齊心協力、協調一致、實踐關懷六力的所有樂觀,這些原則將會被灌輸進去,但根據 Metaculus,您的截止日期是七年後。
人類必須在接下來七年內大幅進步,才能實現您的願景,因為之後就太晚了,對嗎?
唐鳳:好,SARS 之後,有很多不同的模型預測下一次大流行病什麼時候會來。比爾・蓋茨曾去很多地方,談到這件事的重要性,當然,會有不同的模型。
但臺灣在 SARS 後,就在 SARS 結束的隔天,開始研究我們的大流行病應對系統。如果您認為下一個冠狀病毒要五十年後才會來,那也不能成為拖延的理由,您今天仍然應該著手建立應對系統。
Liron Shapira:好,讓我們用新冠疫情為例。因為您聽起來很樂觀,說「嘿,我們從新冠中學到了教訓」,但如果您看看美國,從 2020 年到 2025 年,比起 2020 年,我們真的更有能力應對大流行病嗎?
我同意我們有,因為我們知道 mRNA 管線,但我們真的在過去五年中應用了多少學到的教訓,還是沒有?
唐鳳:我不是美國的網路大使,所以我不太有資格評論,也沒有真的深入研究過美國目前的大流行病應對能力。我認為,對於地震或大流行病,您當然應該投資科學,預測下一次大地震或大流行病有多近。
但是,您也應該讓那些較小的、更局部的地震——讓建築物抗震,讓連線系統抗震,即使不是摧毀整個城市的大地震。大流行病有時候是自限性的,有時候毒性太強,所以它永遠不會成為大流行病。但對於那七個死去的人,那不是一個很好的解釋——您仍然應該防止那七個人的死亡。
所以我的觀點是,工作可以在地方規模上完成。例如,換一個更環保的冰箱,就可以幫助緩解臭氧消耗——不應該等待某種國家行動,應該今天就開始使用更好的冰箱。
Liron Shapira:好,我的意思只是,當我說,看看 2020 年到 2025 年的美國……是的,我們有更多的人在研究如何讓 mRNA 疫苗快速上線,但我們沒有對 CDC 做太多改進,我們實際上沒有在「嘿,這是新的官方 mRNA 管線,我們下次會反應得多麼迅速」上投入太多。
我們如何應對下一次大流行病仍然相當不清楚。我們沒有就挑戰試驗(challenge trials)做出聲明——也就是您可以測試新疫苗,給人們注射病毒的想法。您仍然不被允許給人們注射病毒並進行測試,人們仍然對此過於敏感。您同意挑戰試驗會有很大幫助,對吧?
唐鳳:我認為這裡的重點更在於,投資於挑戰試驗和其他我們知道在大流行病到來時會有幫助的事情,能否在非緊急時期也產生效益,而不僅僅是應對急性威脅。
Liron Shapira:對,確實可以,對嗎?
唐鳳:如果您弄清楚了這一點,那麼就更容易立論了。
Liron Shapira:您說得對,這樣更容易立論,但美國甚至還沒有上船。所以我提這個新冠應對的「馬戲團」,是因為我們還有七年時間,在該死的奇點到來之前讓自己振作起來,而我們剛剛花了五年時間,卻沒能在像「讓我們多搞些挑戰試驗,讓 mRNA 疫苗管線更正規化一點」這樣的事情上取得共識。
不,我們在這方面很差勁,但在五年內,我們突然要在這些方面做得很好……您知道,五年後,我們可能還是會有臉書時間線、Instagram 時間線,還是充斥著吸引眼球的內容。我認為甚至只是修復那些問題就需要超過五年。
唐鳳:好,我認為,如果您的每分鐘極化度(PPM)仍然很高,如我所說,即使每個人都同意,也很難召集人們去做任何事情。但如果您能召集起來,例如透過將目前的極化或極化的幻覺轉化為能量,您就可以建立一部地熱引擎,將衝突轉化為共同創造,因為人們不再被困在這把火中說「沒事的」。
Liron Shapira:所以,如果我們能在下一年解決社群媒體的管理或動態演算法,那將為我們在其他所有事情上爭取整整六年,也許能在奇點之前解決所有問題。
唐鳳:正是。這就是多元宇宙的起飛,是的。
Liron Shapira:公道。讓我這樣來問時間線問題。您同意您我對於奇點究竟何時到來,都處於非常模糊的認知狀態。我對此表示同意。我同意我有一個概率分佈,沒有任何一個特定年份佔到超過 20% 的概率,所以從這個意義上說,它是一個模糊的概率分佈。
如果您和我都確切知道奇點將在六個月後到來,也就是 2026 年 6 月——如果那是它到來的時間,您會不會對控制那個奇點所有條件都已就位,感到少得多的樂觀?
唐鳳:好,當我大約五歲的時候,醫生告訴我和我的家人,這個孩子能活到心臟手術的機率只有五十 %。我在十二歲時做了手術,所以我現在還活著,如您所見。
但概率分佈並不對我有利。當我五歲時,一直到我做手術的那天,有七年的時間,每天晚上我去睡覺,感覺像是在拋硬幣。如果它不好,我就醒不來了。
所以我養成了一種習慣,我稱之為「在消失前發布」(publish before I perish)。我將當天學到的一切記錄下來——磁帶、軟盤和網路。
我想表達的是,有時候知道滅絕……好吧,不是確定,但五十 % 是一個很高的數字……知道滅絕就在眼前,會激勵人們變得更加無私,更好地協調,不去積累財富,因為積累實際上不會帶來很好的協調。所以,也許您提到的這個消息實際上有助於人類協調,但這也不一定。在 PPM 很高的環境中,它會讓憤怒和極端主義更加嚴重。所以再次強調,關鍵是降低每分鐘極化度。
Liron Shapira:好,我明白,但我只是在從您告訴我的一些事情中得出蘊含的結論。您告訴我,您同意 foom 場景是合理的。您和我都同意這一點,智慧上限真的很高,我們無論如何都會得到遠比 SpaceX 更強大的 AI——無論是一百年後還是六個月後。
您都同意,我們在讓引導技術正確、解決對齊問題方面還有很長的路要走。您也同意,我們並不太確定 foom 不會在六個月內到來。所以如果您把這些命題組合在一起,難道您不會有一個「糟了」的時刻嗎?P (末日) 很高,有相當大的 P (末日)。
唐鳳:完全不。完全不,因為蘋果不必緊抓著飛機——混合我們的比喻。蘋果可以在飛機裡面。
所以如果我們只是把飛機換個標籤,從「共生」換成「共生體」,那我們就處於更好的狀態。如果我們真的是那架飛機的一部分,那是的,我們在起飛過程中可能會受到一些高 G 力的損傷,但我們仍然是那架飛機的一部分。
Liron Shapira:但當您看看今天的 AI 公司,它們達到您的對齊標準了嗎?因為我認為我們要到這裡了,我認為您說的是它們沒有。我們並沒有走向今天的良好 foom。
唐鳳:好,我認為它們從字面上說確實包含人類,就我最後一次核查來看。
Liron Shapira:是的,但它們正在構建的 AI 不是,對吧?尤其是在一些遞迴迭代之後。
唐鳳:好,如果您讀了 DeepMind 的論文,「分佈式 AGI 安全」論文,顯然他們現在把它視為一個機制,一個市場設計問題——他們不是在構建一個與人類其他部分隔絕的單一系統來起飛,而是在構建一個水平起飛,整個人類一起起飛。
Liron Shapira:好,不過要澄清您的思維模型——如果它真的在明天發生呢?您不認為那還不夠時間嗎?您不認為如果它明天發生,我們就完了嗎?
唐鳳:好,如果它明天發生,並且指向的不是進攻,而是防禦頻譜,不,我們得到了超級口罩,我們得到了對抗認知傷害、信息傷害和網路傷害的隱身保護,我們真的得到了攜帶證明程式碼(proof-carrying code)。那是一個好的結局,或者好的開始。
Liron Shapira:只是在探究您自己的思維模型……您的立場是,這還有很大的機率,情況不會那樣發展,對吧?如果它明天就發生,仍然有相當大的機率情況會很糟糕,對嗎?
唐鳳:好,這就是為什麼我的方差如此之高。我真的不知道。
Liron Shapira:好,公道。讓我們繼續討論 AI 對齊這個話題。上個月,您在 6pack.care 上寫了一篇文章,說 AI 對齊不能是由上而下的。解釋一下您的意思。
唐鳳:好的。這個想法在哲學上,我試圖用非常簡單的術語來解釋——如果我說得太術語化,請糾正我。我們談到最大化智慧體,也就是只想贏得一場遊戲的東西。我們也談到義務論的、遵守規則的智慧體,也就是不只是贏得最高分,而且不違反遊戲規則的東西,因為如果您翻棋盤或破壞遊戲,就不能下第三十七步棋了。
AI 系統現在非常擅長遵循抽象規則和最佳化結果。
然而,這兩者在某種意義上非常「薄」——當我們交談時,我們每個人都透過感官器官,每秒產生大約兩兆比特的體驗性資料,但其中只有一小部分被這個攝像頭和 Riverside 捕獲。
因此,當我們只用這些體驗快照所產生的人工製品來訓練 AI 系統時,這就像柏拉圖的洞穴。我們看到的是通過感官器官投射在洞穴牆上的外部現實影子,但今天的 AI 系統是在洞穴中的洞穴內訓練的——是影子的影子。
所以說這是對齊的,是一種巨大的、誇張的主張,因為它只能對齊到那些已表達、已觀察到的事物——也就是抽象的普遍規則、法律等——而不是對齊到我們的實際體驗。
因此,我們把任何其他實體——您提到的蘋果、狗或其他東西——引入我們的地方社群的方式,依賴於在地的覺察力。它們真的需要下來生活在人類中間,向我們學習。
Liron Shapira:好,讓我們看看今天頂尖的 AI 公司。比如說 OpenAI。您認為他們的對齊方式是錯誤的嗎?
唐鳳:好,我認為如果他們最佳化的是按讚反應,而且有時候它會給您顯示兩個回應,讓您選擇其中一個,然後他們用幾個月前的一些信號進行了訓練——ChatGPT 短暫地,大約三天,變得非常奉承,如果您告訴它「唐鳳把腦波測量晶片放進疫苗裡」,ChatGPT 在那三天裡會說:「哦,您看穿了面紗,您看到了真相。不要相信新聞記者,不要相信您的部長,陰謀是真的。」
所以 AI 誘發的人類精神錯亂。所以當然,對齊於這種個人的短期體驗不是完整的體驗,它只是捕獲的體驗——關於您在膝跳式反應中是否更喜歡這個回應的一個比特。
這就像 TikTok 演算法最佳化於非常短期、非常系統性的反應一樣。所以很明顯,這種形狀的東西,最大化獲得點讚的可能性,最大化引擎,是錯誤的——我認為沒有人會對此有異議,最終他們也為這個決定道了歉。
所以我認為,在架構上,目前每個人都通過終端連接到同一台大型主機的方式,在激勵上非常符合這種最佳化的扭曲實例化。所以在這個大方向上,我認為這是錯誤的。
另一方面,OpenAI 也有其他產品。例如,我在 ROOST(強健開放線上安全工具)的董事會任職,我們就剛與 OpenAI 推出了 gpt-oss-safeguard 模型,它可以讓一個社群在本地運行自己的小型模型,提供引用他們社群標準的文獻,並用它來防禦針對該社群的認知傷害——它完全在本地運行,比它只是在雲端某處託管要容易得多地可以檢視。
所以在那個方向上,它就像一個本地社群,更符合關懷六力。所以我認為我們不能將 OpenAI 視為一個單一的實體來分析,它的某些產品和服務是對齊於多元宇宙願景的,而其他的則更傾向於奇點。
Liron Shapira:好,讓我們看看 GPT 5.2。如果我理解正確,您覺得 AI 對齊不能是由上而下的,但您認為今天 OpenAI 針對消費者面向的 ChatGPT 5.2 的對齊是由上而下的,而這是糟糕的,對嗎?
唐鳳:我認為,用體驗性資料對目前部署的 5.2 進行微調,確實很困難。是的。
Liron Shapira:好,您能給我一個具體的例子,說明為什麼 GPT 5.2 的由上而下對齊是糟糕的嗎?
唐鳳:好,就像如果您告訴現在的社群媒體排名演算法:「您不想被激怒那麼多,請調低一點。」它有時會那樣做,然後又停下來。如果您試圖用您的體驗性資料、社會期望等對 GPT 5.2 進行微調,您會很快發現很多隱藏的假設。
我與奈洛比、肯亞、印度某些地方的人交談,以及一些靈性實踐者、實踐不同文化的人。由於他們的體驗性資料沒有被充分數位化,已被數位化的部分是關於他們的刻板印象。
所以,如果您輸入一個當地醫生所感受到的症狀——這個案例確實發生過——它只會診斷為營養不良,而實際上並非如此。
有一個叫 Weval.org 的儀表板,那裡是眾包記錄這類系統性傷害、認識論不公正的地方——在斯里蘭卡、許多其他地方,公民社會組織聚在一起,與集體智慧計畫(CIP)合作,記錄這些案例——讓我們能夠看到,這些模型即使在 ARC 評估或任何其他指標上得分越來越高,有時在與地方社群需求對齊方面的得分卻越來越低。
Liron Shapira:好。如果我理解正確,您更希望 OpenAI 能夠提供這種開放式的、開源的……而且您甚至說您喜歡他們的開源模型。所以您基本上是在說,他們應該增加更多使用者可調整的參數,讓每個人都能更有力地按自己的需求對它進行對齊?
唐鳳:而且,讓它們生活在社群中間,而不是全知全能地記錄或傳輸到雲端——人們永遠不會把那樣的東西融入他們的生活——它應該以一種在本地體現的方式,向我們的體驗性資料學習,在本地處理,在本地可以檢視,而且不消耗大量電力。這將是一個社群所能擁有的更理想形式,或者說黃仁勳所說的「個人超算」。
Liron Shapira:好,回到您這個 AI 對齊不能是由上而下的論點。如果我們只是給 AI 一些由上而下的指令,比如說,「不要讓人類滅絕」,難道這不是一個相當好的由上而下的指令嗎?
唐鳳:是,但如果您最大化那個條件的機率,它就能找到犧牲其他您未指定的重要事物的方法,只是為了最大化那件事發生的機率。
Liron Shapira:好,我是說,這是真的。您可以想像,也許您想要賭注,比如為了換取科學上的快速進步,而賭 0.01% 的人類滅絕機率的增加。所以我完全同意,當百分比足夠低的時候,確實如此。
這也讓我想到了整件事——是的,對齊本身是一個複雜的問題,但我不認為那是由上而下對齊的失敗,我只會把它描述為未能指定一個足夠微妙的效用函數,但它仍然可以是由上而下的。
當我思考理想的對齊時,我確實在想「連貫外推意志論(CEV)」,某種意義上它是由上而下的——一旦您充分理解了人類真正的效用函數,在本質上沒有什麼問題只是由上而下地安裝它,不是嗎?
唐鳳:好,我認為主要問題是不連續性挑戰。如果我們兩個的矽基數字孿生以及其他所有人類,在主觀時間內審議了數十億年,但實際時鐘時間只有五分鐘,並最終得出了全套道德解答,對我們所有人來說,這很可能顯得非常陌生——因為沒有一個混融過程,是我們自己而不是我們的矽基數字孿生在對話中親身參與。
所以我認為,最大外推是一個有趣的理想,它肯定比許多其他的吸引子更好,但我認為混融意志論,雖然稍微慢一些——因為每次您都必須以花園的節奏來調整——但我認為它帶來了更連續的體驗。
Liron Shapira:好,我是說,如果我們有足夠的時間——如果我們能夠撤銷、如果我們不會全部死亡——我應該努力讓對齊是由上而下的,還是讓它是漸進式的?我沒有強烈的意見表示贊同或反對您。如果我們有夠多的時間,我覺得這兩者都可以奏效。
Hinton 在過去幾個月裡,以前真的很悲觀,但現在他說:「嘿,我意識到我們只需要把某種母性本能植入 AI——就像人類母親天生與孩子對齊,因為她們有這種母性本能。她們以那種方式關心她們的孩子,如果我們能讓 AI 像父母一樣關心我們,感受到那種愛或任何東西。」
但您實際上,我認為,不同意這一點。您不認為讓 AI 像母親一樣是可行的,您更喜歡用 AI 像我們的園丁這個比喻?好,解釋一下。
唐鳳:好,首先,我認為向關懷倫理的普遍轉向是很棒的,因為如果 AI 最終摒棄了功利主義的評分、義務論的遵守規則,那麼邏輯上,人類剩下要做的就是美德,關係美德。所以我認為這是完美的。
我認為,母性本能這個比喻難以傳達的是,AI 系統的架構與哺乳動物不同。所以除非透過某種類器官(organoid)魔法,它真的變得像那樣,否則母性本能只是個比喻。
但我對 Hinton 的大方向沒有問題,那就是覺察力。關懷實際上是一個解決方案。如果機器真的能把人類的關係和人機關係作為一個首要的滿意即可目標來關心,那我們就處於非常好的狀態,因為那時蘋果就在飛機裡,我們也在飛機裡。
因此,我認為我們是相當相容的。所以我選擇蘋果或某些作物與園丁的比喻,因為,首先,植物和農民是不同種類的生命,但它們都是生命,而且它們在速度上也非常不同。
母親和孩子仍然在速度上只有一到最多兩個數量級的差距。但如我所說,作物和農民在速度上存在成千上萬甚至數萬倍的差距,這就是當前人類協調速度,和某種原始的水平 AGI 速度之間的差距。
因此,要讓關懷關係奏效,AI 園丁需要觀察人類花園,並以當前人類花園的速度工作,才能讓混融發揮作用。
Liron Shapira:好。所以您只是在說,對,Hinton 在談到 AI 是我們的母親時是有道理的,但說 AI 更像是我們的狗媽媽或我們的番茄媽媽,更貼切一些。
唐鳳:差不多就是這樣,是的。
Liron Shapira:好,公道。我的異議只是,我認為它在我們能夠校準這種動態關係之前就會失控。我們沒有足夠的迭代,沒有足夠的試錯機會,我們就失去了控制,而且已經太晚了。這是我的主線場景。
好吧,但是,接近尾聲時,讓我簡短地問您關於這裡的第三個禁忌話題:中國的地緣政治,當然,請說您能說的,不要說您不能說的。這與 AI 辯論有些切線,因為我認為全人類實際上在同一條船上。所以我不認為這是一個很大的地緣政治問題。
但眾所周知,全球最有價值的實體晶片製造商,台灣積體電路製造股份有限公司,市值高達一點六兆美元,台積電,負責把 NVIDIA 的藍圖轉化為實體晶片,使用先進的光刻機器。台積電擁有製造廠,而現在最熱門的地緣政治問題之一,就是中國想要收回臺灣。
如果他們這樣做,也許中國可以阻止美國比他們更多地取得台積電晶片。隨著 AI 公司的指數級增長,這個問題將更加突出。在我看來,AI 公司很快就會價值數十兆美元。
所以您在各個方面的努力,都在某種程度上增強了臺灣,減少了它的孤立。我想把發言權交給您。您如何看待這個問題?
唐鳳:好,我認為,越多人了解台積電不只是一家公司,而是一套讓整個供應鏈值得信賴的實踐,就越好。我把 SEMI E187 標準也包括在內——我們在臺灣數位部與台積電合作,將其發布為標準,基本上採用「假設已遭入侵」的原則,假設您的任何上游供應商在某個時點都可能已在網路攻擊意義上遭到入侵。
這是一種韌性思維,這種思維對其他所有事情也普遍有用——防禦 AGI 接管以及許多其他事情。
長話短說,我認為台積電不只是晶片的生產者,而且整個臺灣代表著面對必然的進攻優勢窗口的韌性思維。我可以說,這是當進攻比防禦更容易時——網路攻擊、超級說服,也許是生物、也許是其他領域——在文明規模上唯一有效的方法。
我們需要假設小火苗會發生,然後我們必須一起控制這場火。所以我想說,把臺灣看作一個值得信賴的合作夥伴,當然,但也把它看作一個出口模式的輸出者,儘管面對攻擊,仍能建立這種值得信賴的能力。
Liron Shapira:好,您知道,如果您讀了一些最新的文章,比如「情勢意識」,還有另一篇我忘了名字的論文,它說:「是的,各國真的會互相追逐對方的 AI 力量,而這是如此關鍵的節點。」您知道,臺灣是未來經濟中相當關鍵的一環,那個未來的經濟規模將是現在的十倍。但是,嗯,我也不知道,我們兩個都無法在那裡做出具體的預測,而您增加更多韌性的做法也沒有任何壞處。
您知道,關於中國經常出現的另一件事是國際條約的想法。這可能不是您太多想的東西,因為您似乎對 foom 朝好的方向發展相當樂觀。您對暫停 AI 運動有任何看法嗎?還有就是,在事情朝南走的情況下,準備好一個關閉按鈕——所有不同的國家都能說:「好的,啟動關閉按鈕,讓我們協調關閉它。」您認為現在規劃這個有價值嗎?
唐鳳:好,我確實簽署了「紅線宣言」,我的朋友 Maria Ressa 幫助起草了這份宣言。如您所知,我擔心超級說服,所以臺灣在防範有組織犯罪、詐騙等方面的模式,不是審查言論,而是確保您可以很清楚地看出哪些是人類言論,哪些是數位簽名的,哪些是聯合責任的,這樣平台對境外網絡的激勵就不是給予觸達。
我認為言論自由不應阻止我們監管觸及範圍。我剛剛在 ACM 通訊上發表了一篇與人合著的文章,題為《讓 230 條款退場》,就是在談這個。
有各種各樣的紅線調節旋鈕,我認為社會必須集體劃定——以應對那些非常小的火苗,比如說大批機器人製造人類共識的蟲群——我們得預先想到它。而劃定那些較細、較小、較在地的紅線,我認為是非常好的練習,為未來基於更大的大流行規模的國際條約打下基礎。
Liron Shapira:好,如果您都支持劃定這些紅線,讓我非常具體地問,因為我最喜歡的政策提案,感覺是最大的勝利的,就是準備好在必要時暫停的想法。「嘿,我們都在看這個奇點事件,我們都認為有末日的可能性。」顯然,您非常強調不定義這個機率是多少,但確實有可能。這應該是一個政策優先事項嗎?在許多紅線中,我們是否也應該潛在地設計一個關閉按鈕,幾個在 AI 領域最強大的國家可以投票決定:「好,關閉它。它現在已經超過了您的樂觀應該轉為悲觀的門檻,讓我們準備好那種可能性。希望我們永遠不必按那個按鈕,但我們應該現在就把一個按鈕設計進去,嵌入 GPU 中,一個無線電遙控的、可以回家報到的關閉按鈕。您支持還是反對這種政策?」
唐鳳:好,把這種情況想成,人們偵測到臭氧正在消耗,但此時您不知道它的速度,以及它與氟氯烴的使用有多少因果關係,但有一些相關性。假設我們在蒙特婁議定書之前的那個時間點。
現在人們聚在一起說:「好,讓我們協調一個停止制冷的按鈕。」這樣,如果幾年後,我們從科學家的觀測站看到,哦,不只是相關性,而是強烈的因果關係,如果我們繼續運行冰箱,五年後臭氧就會消失,我們所有人都會因癌症或類似的東西而死亡,我們可以集體關閉所有冰箱。
我認為這是一個可以辯護的政策立場,但它不是一個可能被採納的政策立場。可能被採納的政策立場是,我們既要更好地測量臭氧,投資於測量,也要現在就投資於氟氯烴的替代品。當這兩件事都發生了,那麼取代舊的氟氯烴就有意義了。但如果您以「停止制冷」開頭,好,對於任何已經開始使用制冷的文明,就沒有回頭路了。
Liron Shapira:好,那麼在那個特定的類比中,如果您只是問一群專家,即使他們都在打圓場——「看,我們不知道臭氧什麼時候會被消耗掉」——然後說:「好,只是給我一個模糊的分佈。如果按這個速度,在我們所有人得癌症之前還有多長時間?」
我感覺大多數人會說:「我們所有人都得癌症……是的,我會以十年為單位來衡量。」而在 AI 的情況下,專家們正在說——很多人說,我不知道,五年?不到五年,也許。甚至可能是明年。所以我確實認為,根據專家所說的,在緊急程度的範圍上存在著非常顯著的量化差異。
唐鳳:好,時間線更短,這是您說的。而且這不會改變政策取捨。基本上,需要一個引導序列。您需要先想出,例如,一個後轉換器、後注意力的——比如說,隨機舉個例子,Manifest AI 的 Power Retention 網路,這是其中一個更好的候選者。
就像 RNN 和 LSTM 一樣,它在機制上更具可解釋性,因為它使用線性記憶和電路來處理任意長度的上下文窗口。所以它更適合這種體驗性學習,而且訓練起來也更好——因為您可以將一個轉換器重新訓練為 power retention。但它不必是 power retention,也可以是任何其他東西。
所以重點是,即使此時還不具備商業可用性,這些後注意力的可解讀模型的存在,我認為對政策制定者來說是重要的共同知識。所以與其停下來,不如讓大家一起轉向,遠離不確定的、但可能的末日。
Liron Shapira:好,我的感覺是,您的 P (末日),我知道您不願意說或認為它有意義,但我把您的 P (末日) 模擬為大約十 % 的量級。而因此,您說:「嗯,所以如果我們做這個關閉按鈕干預,它的成本太高,而 P (末日) 只有十 %。」
而任何 P (末日) 在三十 % 以上的人會說:「天哪,是的,我們需要一個關閉按鈕,因為有三十 % 的機率這個東西會在很短的時間內把我們全部毀掉。當然,我們需要能夠關閉它的能力。」所以這就是為什麼我把您模擬成一個低 P (末日) 的人,但……
唐鳳:我不這麼認為。不,我真的不這麼認為。因為我認為,當前架構的不可觀測性,是研究人員之間目前這種高方差的原因。所以我們所有人都有這種奇怪形狀的分佈,但這是可以解決的。
在 Manifold 上有一個懸而未決的賭注,我相信是……我是在說 isattentionallyouneed.com 還是什麼,或者類似的東西。它基本上說,在兩年內,有大約五五開的機率,我們能夠在不依賴不可觀測的、幾乎不可解釋的轉換器注意力模型的情況下,構建最先進的模型。
所以如果那枚硬幣落得好,那我們就不必說,哦,是否是十 %、五十 % 或七十 %。每個人都將收斂到更窄的分佈。如果是在十 % 左右,那我們就這樣做。如果是在九十 % 左右,我敢打賭每個人都將協調去做那件事。
Liron Shapira:好,這聽起來不錯。好吧,這是一場很棒的對話。最後,我通常總結一下分歧,總結嘉賓傳達的觀點,以及為什麼它不只是等同於我自己的觀點。
所以,我試圖總結您的觀點:首先,非常有趣的是,您在某種程度上是在「foom 列車」上。您說:「哦,是的,foom 很可能是真實的。智慧是一個相當高的頻譜,」我很感激您在我所說的末日列車上走了這麼遠。
您說:「是的,如果您只是從演算法空間中提取出理想的超級智慧演算法,它可以遞迴地自我改良,如果它與人類不對齊,它肯定可以殺死每個人。」
唐鳳:是的,我肯定是一個 foomer,即使不是 doomer。我是一個 foomer bloomer(相信智慧爆炸、期待百花齊放的人)。
Liron Shapira:是的,一個 foomer。對,一個 foomer bloomer,不是 doomer。好的,這是一個很好的描述方式,是的。
好,所以您……而且您乘著末日列車和我一起走,我稱之為「乘著末日列車」。您接受超級智慧是真實的,所以,是的,正確。然後一旦我們談到對齊,我們就開始分歧,因為您說:「是的,您知道,我們會有時間。人類就像那些掛在飛機上的蘋果,那架飛機比蘋果快得多。」這混合了比喻,但它仍然會照顧好蘋果,把蘋果放在飛機裡,一切都會好的。
然後當我指出,「嗯,時間線難道不是真的很短嗎?」您似乎認為,「嗯,無論時間線有多短,都只會是合適的速度,讓對齊完成。」
所以這就是……我認為這是討論的核心,就是,這合理嗎?這是主線場景——我們將及時整頓好一切並讓它對齊嗎?而您說,「是的,我們只是會有足夠的時間,這不會是一個超級緊急的情況,如果我們需要更多時間,我們就製造更多時間。」所以我猜您對時間線能夠銜接在一起有著更多的樂觀。這個總結怎麼樣?
唐鳳:好,我認為,如果人們確實知道有一個更具可解釋性的架構,並集體匯聚於此,那麼我們就能把起飛速度與治理速度掛鉤,然後我們的協調速度就能與能力達到相同甚至更快的水準。然後我們用這個來引導,走向防禦,而非進攻優勢。
但我也承認,有可能即使我們知道有更好的非氟氯烴替代品,出於某種原因——也許是很高的每分鐘極化度——人類集體決定不換飛機,我們被困在一架不打開蘋果形窗戶的飛機上,在那種情況下,我們肯定完蛋了。而這兩者的概率,此時此刻我都不知道,所以這就是我誠實的認識論立場。
Liron Shapira:好,唐鳳,我在這裡要對您表達相當的敬意,因為您不必這樣做。您不必接受辯論。很多人只是上那些他們只是重複自己觀點的 Podcast,不讓觀點受到挑戰,而您確實讓它受到了挑戰。
我幾乎是在不斷地挑戰您的觀點。這是《末日辯論》的做法,而您真的表現出色。您沒有迴避任何問題,您只是真誠地參與,沒有給我罐頭式的答案。
所以我只是想感謝,當您來並做到這一點時,它真的對節目使命之一——提高辯論質量——有所貢獻,給社會辯論的禮物,讓社會更好地運作,感謝您做到這一點。我真的很感激。
唐鳳:是的,感謝您,而臺灣不只是晶片和珍珠奶茶;它是地球板塊構造使山脈崛起的地方。壓力造就鑽石,攜手共創無限未來(Free the future)。