English

第一章:辨識中的覺察力

← 返回首頁

在最佳化任何事物之前,我們會選擇要覺察什麼。這第一眼決定了之後的每個模型、指標和政策。覺察不僅僅是「收集資料」,它更是一個承諾,承諾要看見需求,並像人們和地方真有其事般地行動。

快速版

  • 重要的事物在一開始就決定了。做出公平且可重審的選擇。
  • 有些情況自帶明顯的義務(例如在斑馬線上哭泣的孩子)。關懷從這裡開始。
  • 我們可以打造出能良好察覺、對人們負責,並且能夠輕易關閉的 AI。

我們想要的結果:

  • 服務社群並接受交接或關閉的 AI。
  • 因可受質疑和修正而贏得信任的機構。
  • 減少遺漏、減少後悔、更快修復的社群。

為何要從覺察力開始?

一個簡單的例子

在斑馬線前,駕駛會為孩子減速。沒有人停下來解方程式。一個需求出現了,隨之而來的是義務。這就是覺察力。

現在擴大來看。一個 AI 面對一個充滿「斑馬線」的世界 — 工人、河流、語言、習俗。它可以把這些視為障礙,也可以視為需要關懷的關係。兩者的區別始於這第一眼。

在全球規模下,注意力備受爭奪且容易被操縱。因此,我們保留斑馬線例子的清晰性,並加入在複雜和壓力下仍能成立的簡單規則。

本章背後的簡單理念

基本權利與公正監督

  • 權利底線。 我們以聯合國《世界人權宣言》(UDHR)加上當地憲法權利為基礎。任何試圖抹滅他人基本地位的主張都會被記錄下來,但不會成為議程。
  • 獨立監督。 一個由社區成員和專家組成的小型委員會,可以暫停或否決具有重大影響的變更。他們會公佈理由並註明任何利益衝突。
  • 明確的申訴。 緊急案件在 48 小時內回覆,標準案件在 7 天內,複雜案件在 30 天內。補救措施包括修正、回溯或有時是賠償。
  • 真正的獨立性。 受保護的預算、任期限制和透明的選拔。權力要對人民負責,而不是反過來。

為何這對「對齊」很重要

許多 AI 計畫試圖從舊資料中「學習目標」。但共同目標是變動生活中的協商。當被忽視的人們終於發聲時,目標會隨之轉變。猜測一個完美、固定的目標會失敗。

覺察力提供另一條路:與一個能傾聽、解釋、適應且可以被修正的可信任流程對齊。實務上這意味著:

經驗法則:如果一個決策受到質疑,其模糊的部分必須被釐清。每個人都應該能看到它是如何變得更清晰的。

三個簡單規則

良好的覺察力是什麼樣子

從理念到日常實踐

循序漸進

可行的簡單工具(今天就能建立)

  • 廣泛傾聽。 多語言、多管道的輸入,保留來源、語言和不確定性標籤。
  • 搭橋地圖。 顯示重疊和分歧的圖表,附上引文。
  • 觀點收據。 讓每個人都能找到和修正他們被代表的方式。
  • 電腦可檢查的規則。 將社群資料規則寫成軟體可自動執行。
  • 公平隊列。 簡單的演算法,優先處理高風險議題和微弱的聲音。
  • 申訴按鈕。 請求修正的標準方式,附帶計時器和審計追蹤。

洪水聊天機器人的故事(一個持續的例子)

一個中型城市遭遇洪水。城市啟動一個簡單的聊天機器人來幫助人們申請緊急現金。覺察力在此處的表現如下:

可能出錯的地方(以及快速解決方案)

基本威脅模型

  • 假群體。 大量複製貼上的評論。使用簡單的來源檢查和頻率限制。
  • 資料污染。 惡意的輸入。運行異常檢查並隔離可疑的群集。
  • 騷擾。 保護身份、支持版主並執行零容忍政策。
  • 被權力劫持。 保持監督獨立、裁決公開和資金透明。

我們如何保持誠信(我們衡量的事物)

  • 覆蓋率與平衡。 誰參與了、我們錯過了誰,以及有多少議程項目來自代表性不足的群體。
  • 搭橋品質。 人們能否公平地解釋對方的觀點?我們在之前和之後詢問雙方參與者,並尋找穩定的進步。
  • 可追溯性。 我們能否將每個決策追溯到其來源?貢獻者是否接受他們的收據?我們修復錯誤的速度有多快?
  • 失利下的信任。 決策後,我們詢問那些不同意的人,他們是否能接受這個結果是公平的。如果很多人說「不」,我們就會審查流程。
  • 不確定性紀律。 當我們不確定時,我們多久會帶著保障措施發布,以及我們的謹慎是否符合現實。
  • 非榨取性。 我們遵守同意規則、分享利益、尊重撤銷請求,並保護尊嚴和隱私。
  • 操縱抵抗力。 我們追蹤並減少協調行動的影響。
  • 帶著信任退出。 人們可以離開,但仍相信他們可以重新進入並被聽見。

你現在可以採用的工具

  • 廣泛傾聽。 多語言、多管道的輸入,保留來源和不確定性。
  • 搭橋地圖,而非糊塗帳。 清晰的分歧與可行重疊圖表,附上引文。
  • 觀點收據。 人們可以看到他們如何被代表,並要求修正。
  • 具備同意感知能力的管道。 社群規則寫成軟體可以自動檢查和執行。
  • 公平注意力預算。 一個公開的隊列,為高風險議題和微弱的聲音提供時間。
  • 申訴管道。 附帶截止日期、原因和補救措施的標準按鈕和表格。

參與的感受

與其他關懷的介面

  • 對「負責力」:「覺察力」能交接「誰、做什麼、為何」 — 同時標註權利問題和風險或未知之處。
  • 對「勝任力」:「覺察力」確保高謹慎區域變成小型、安全的試錯,而非大賭注。
  • 對「回應力」:「覺察力」使修復循環和回溯成為常態,並附有明確的時間表和公開解釋。
  • 對「團結力」:「覺察力」透過確保公平覺察和公開挑戰,促進跨越差異的信任(即使在規模化下)。
  • 對「共生力」:「覺察力」使系統植根於特定的社群(地點和時間),在當地分享利益,並將關閉視為成功。

淺顯詞語彙編

  • 注意力預算。 如何分配有限審查時間的簡單規則。
  • 搭橋地圖。 一張顯示重疊與分歧並附有來源的地圖。
  • 觀點收據。 一份通知,顯示你說的話是如何被使用的,並提供修正的方式。
  • 電腦可檢查的規則。 社群規則寫成軟體可以自動執行。
  • 申訴管道。 一個標準、可審核的方式,用於請求修正並準時得到回覆。
  • 來源追蹤。 記錄資訊來源的紀錄。
  • 失利下的信任。 那些不同意的人是否仍然接受流程是公平的。
  • 足夠性(地神)。 一個知道自身極限並能夠放手的系統 — 建立的初衷就是優雅地被關閉。

一個結尾意象:能說「不」的好客門檻

想像有位主人,他能叫出每位客人的名字,替他們安放行李,還會示意他們的到來如何影響了座位安排。這就是「覺察力」。因為有些客人會試圖排擠或抹去別人,主人訂下了一條明確規則:這個家裡的待客之道,必須建立在尊重權利的基礎上。如果我們教 AI 系統,在追求最佳化之前先學會當一個好主人,我們就能保留更多珍貴的東西,並創造更多能分享的好事物。

返回