在最佳化任何事物之前,我們會選擇要覺察什麼。這第一眼決定了之後的每個模型、指標和政策。覺察不僅僅是「收集資料」,它更是一個承諾,承諾要看見需求,並像人們和地方真有其事般地行動。
快速版
- 重要的事物在一開始就決定了。做出公平且可重審的選擇。
- 有些情況自帶明顯的義務(例如在斑馬線上哭泣的孩子)。關懷從這裡開始。
- 我們可以打造出能良好察覺、對人們負責,並且能夠輕易關閉的 AI。
我們想要的結果:
- 服務社群並接受交接或關閉的 AI。
- 因可受質疑和修正而贏得信任的機構。
- 減少遺漏、減少後悔、更快修復的社群。
為何要從覺察力開始?
一個簡單的例子
在斑馬線前,駕駛會為孩子減速。沒有人停下來解方程式。一個需求出現了,隨之而來的是義務。這就是覺察力。
現在擴大來看。一個 AI 面對一個充滿「斑馬線」的世界 — 工人、河流、語言、習俗。它可以把這些視為障礙,也可以視為需要關懷的關係。兩者的區別始於這第一眼。
在全球規模下,注意力備受爭奪且容易被操縱。因此,我們保留斑馬線例子的清晰性,並加入在複雜和壓力下仍能成立的簡單規則。
本章背後的簡單理念
- 關係優先。 有些情況會因為角色和依賴關係而使義務變得可見。關係是關懷的基本單位。
- 權力必須回答問題。 決策應該可以解釋和挑戰。如果沒有人能質疑你,這就不公平。
- 只在有助益時才精確。 從故事和人開始。當數字和細節能讓事物更清晰時才加入,並在現實改變時更新它們。
- 足夠性。 一個好的系統知道它的範圍,並能夠放手。想想一個關懷某處的「地神」,在工作完成後便會離開。用世俗的話來說:明確的界線、沒有永久擴張的驅動力,以及易於關閉。
基本權利與公正監督
- 權利底線。 我們以聯合國《世界人權宣言》(UDHR)加上當地憲法權利為基礎。任何試圖抹滅他人基本地位的主張都會被記錄下來,但不會成為議程。
- 獨立監督。 一個由社區成員和專家組成的小型委員會,可以暫停或否決具有重大影響的變更。他們會公佈理由並註明任何利益衝突。
- 明確的申訴。 緊急案件在 48 小時內回覆,標準案件在 7 天內,複雜案件在 30 天內。補救措施包括修正、回溯或有時是賠償。
- 真正的獨立性。 受保護的預算、任期限制和透明的選拔。權力要對人民負責,而不是反過來。
為何這對「對齊」很重要
許多 AI 計畫試圖從舊資料中「學習目標」。但共同目標是變動生活中的協商。當被忽視的人們終於發聲時,目標會隨之轉變。猜測一個完美、固定的目標會失敗。
覺察力提供另一條路:與一個能傾聽、解釋、適應且可以被修正的可信任流程對齊。實務上這意味著:
- 顯示來源和版本歷史的摘要。
- 明確標示未知之處和有時間限制的決策。
- 當有新聲音出現時,隨時邀請修正。
經驗法則:如果一個決策受到質疑,其模糊的部分必須被釐清。每個人都應該能看到它是如何變得更清晰的。
三個簡單規則
- 沒有不受審查的權力。 決策可以被質疑,且需要有回應。
- 基本權利優先。 任何流程都不能投票剝奪他人的基本權利。
- 額外覺察被忽視者。 安靜和處於風險中的群體會得到公平的時間和關懷。
良好的覺察力是什麼樣子
- 先搭橋,再決策。 整理觀點,讓大家能用自己的話語互相理解。
- 尋找缺席者。「我們沒有聽到夜班照護者的聲音 — 去找到他們。」 缺失的聲音就是資料。
- 公開工作過程。 每個摘要都連結到來源並標示分歧。
- 公平分配注意力。 不要只追隨最響亮的聲音。給受影響最大的人時間。
- 內建修復機制。 日落條款、審查點、可逆轉的預設值,以及關閉或交接的謙卑。
從理念到日常實踐
循序漸進
- 1) 廣泛傾聽。 透過語音、文字和簡單的表格收集輸入。保留原始語言和翻譯。提供離線和無障礙選項。
- 2) 繪製觀點地圖。 製作一張「搭橋地圖」,顯示人們在哪裡意見一致、在哪裡有衝突,以及原因 — 不要強迫產生虛假的平均。
- 3) 寄送收據。 告知貢獻者他們的話語出現在哪裡。讓他們能修正錯誤。
- 4) 建立公平隊列。 在危害高且聲音微弱的地方投入更多時間。公開規則。不要讓任何群體被餓死。
- 5) 帶著煞車決策。 重大變更在上線前,需要這張地圖、收據和監督審查。
- 6) 保持申訴管道暢通。 人們可以要求修正,並在期限內得到回覆。
- 7) 學習與修復。 決策後,檢查哪裡出了問題並更新規則。
- 8) 交接或關閉。 如果工作完成或信任喪失,優雅地停止,並留下清晰記錄,將接力棒傳遞下去。
可行的簡單工具(今天就能建立)
- 廣泛傾聽。 多語言、多管道的輸入,保留來源、語言和不確定性標籤。
- 搭橋地圖。 顯示重疊和分歧的圖表,附上引文。
- 觀點收據。 讓每個人都能找到和修正他們被代表的方式。
- 電腦可檢查的規則。 將社群資料規則寫成軟體可自動執行。
- 公平隊列。 簡單的演算法,優先處理高風險議題和微弱的聲音。
- 申訴按鈕。 請求修正的標準方式,附帶計時器和審計追蹤。
洪水聊天機器人的故事(一個持續的例子)
一個中型城市遭遇洪水。城市啟動一個簡單的聊天機器人來幫助人們申請緊急現金。覺察力在此處的表現如下:
- 傾聽。 人們發送語音訊息、文字或拜訪服務站。訊息保留原始語言,並附上清晰的翻譯。每筆記錄都註明其來源和時間。
- 繪製地圖。 團隊(和機器人)將需求分為幾類:住房、工資損失和醫療照護。他們讓分歧保持可見 — 租房者和房主需要不同的證明。
- 收據。 每個貢獻者都會收到一個連結,查看他們的話語是如何被使用的,並附有一個「我不是這個意思」的按鈕。
- 公平隊列。 系統會為身體脆弱的人和網路連線差的地區提供額外的審查時間。它也為城市經常忽略的群體保留一部分時間。
- 帶著煞車決策。 一項新規則 —「30天內居住證明」 — 在夜班工人提出申訴後被暫停。一項可逆轉的預設值延長了資格,同時對案件進行審查。
- 申訴與修復。 申訴小組檢查來源,發現該規則傷害了租房者。他們回溯該規則,並在兩週內嘗試其他證明(雇主信函、鄰居證詞),然後檢查結果。
- 衡量與分享。 一個公開儀表板顯示了觸及了哪些人,以及隊列有多公平。它還提供了一個簡單的「失利下的信任」分數 — 那些不同意的人是否仍然認為結果公平?
- 關閉即成功。 當危機結束時,聊天機器人被關閉。所有的地圖、規則和決策都被存檔,以便下一個團隊可以快速接手。
可能出錯的地方(以及快速解決方案)
- 單一指標主導一切。 參與度上升,但信任度下降。解決: 使用一組平衡的指標並輪換它們。
- 聽取意見的表演。 報告光鮮亮麗,結果卻一成不變。解決: 建立真正的決策門檻、外部否決權、抽查和吹哨者保護。
- 大聲者主導。 資金充足的團體佔據了管道。解決: 節流、公平配額、懲罰濫用者和公開的注意力儀表板。
- 先發者鎖定框架。 早期的語言被固定下來。解決: 滾動式視窗,並提升較晚但重要的觀點。
- 虛假的平衡。 將有害言論視為等同。解決: 將事實與價值觀分開,維護基本權利,並拒絕虛假對等。
基本威脅模型
- 假群體。 大量複製貼上的評論。使用簡單的來源檢查和頻率限制。
- 資料污染。 惡意的輸入。運行異常檢查並隔離可疑的群集。
- 騷擾。 保護身份、支持版主並執行零容忍政策。
- 被權力劫持。 保持監督獨立、裁決公開和資金透明。
我們如何保持誠信(我們衡量的事物)
- 覆蓋率與平衡。 誰參與了、我們錯過了誰,以及有多少議程項目來自代表性不足的群體。
- 搭橋品質。 人們能否公平地解釋對方的觀點?我們在之前和之後詢問雙方參與者,並尋找穩定的進步。
- 可追溯性。 我們能否將每個決策追溯到其來源?貢獻者是否接受他們的收據?我們修復錯誤的速度有多快?
- 失利下的信任。 決策後,我們詢問那些不同意的人,他們是否能接受這個結果是公平的。如果很多人說「不」,我們就會審查流程。
- 不確定性紀律。 當我們不確定時,我們多久會帶著保障措施發布,以及我們的謹慎是否符合現實。
- 非榨取性。 我們遵守同意規則、分享利益、尊重撤銷請求,並保護尊嚴和隱私。
- 操縱抵抗力。 我們追蹤並減少協調行動的影響。
- 帶著信任退出。 人們可以離開,但仍相信他們可以重新進入並被聽見。
你現在可以採用的工具
- 廣泛傾聽。 多語言、多管道的輸入,保留來源和不確定性。
- 搭橋地圖,而非糊塗帳。 清晰的分歧與可行重疊圖表,附上引文。
- 觀點收據。 人們可以看到他們如何被代表,並要求修正。
- 具備同意感知能力的管道。 社群規則寫成軟體可以自動檢查和執行。
- 公平注意力預算。 一個公開的隊列,為高風險議題和微弱的聲音提供時間。
- 申訴管道。 附帶截止日期、原因和補救措施的標準按鈕和表格。
參與的感受
- 你能找到自己:你的話語在地圖上。
- 你能表達不同意見而不消失:你的觀點被保留,除非它侵犯了他人的基本權利。
- 你能改變結果:申訴經常起作用,這很重要。
- 你能帶著對流程的信任離開 — 即使你沒有贏 — 因為決策者對你負責。
與其他關懷的介面
- 對「負責力」:「覺察力」能交接「誰、做什麼、為何」 — 同時標註權利問題和風險或未知之處。
- 對「勝任力」:「覺察力」確保高謹慎區域變成小型、安全的試錯,而非大賭注。
- 對「回應力」:「覺察力」使修復循環和回溯成為常態,並附有明確的時間表和公開解釋。
- 對「團結力」:「覺察力」透過確保公平覺察和公開挑戰,促進跨越差異的信任(即使在規模化下)。
- 對「共生力」:「覺察力」使系統植根於特定的社群(地點和時間),在當地分享利益,並將關閉視為成功。
淺顯詞語彙編
- 注意力預算。 如何分配有限審查時間的簡單規則。
- 搭橋地圖。 一張顯示重疊與分歧並附有來源的地圖。
- 觀點收據。 一份通知,顯示你說的話是如何被使用的,並提供修正的方式。
- 電腦可檢查的規則。 社群規則寫成軟體可以自動執行。
- 申訴管道。 一個標準、可審核的方式,用於請求修正並準時得到回覆。
- 來源追蹤。 記錄資訊來源的紀錄。
- 失利下的信任。 那些不同意的人是否仍然接受流程是公平的。
- 足夠性(地神)。 一個知道自身極限並能夠放手的系統 — 建立的初衷就是優雅地被關閉。
一個結尾意象:能說「不」的好客門檻
想像有位主人,他能叫出每位客人的名字,替他們安放行李,還會示意他們的到來如何影響了座位安排。這就是「覺察力」。因為有些客人會試圖排擠或抹去別人,主人訂下了一條明確規則:這個家裡的待客之道,必須建立在尊重權利的基礎上。如果我們教 AI 系統,在追求最佳化之前先學會當一個好主人,我們就能保留更多珍貴的東西,並創造更多能分享的好事物。