一：辨識中的覺察力 — Institute for Ethics in AI

在最佳化任何事物之前，我們會選擇要覺察什麼。這第一眼決定了之後的每個模型、指標和政策。覺察力不僅僅是「收集資料」，它更是一個承諾，承諾要看見需求，並像人們和地方真有其事般地行動。覺察的核心，在於人與系統之間的共創，其中各方的聲音都同樣重要。

快速版

重要的事物在一開始就決定了。做出公平且可重審的選擇。
有些情況自帶明顯的義務（例如在斑馬線上哭泣的孩子）。關懷從這裡開始。
我們可以打造出能良好察覺、對人們負責，並且能夠輕易關閉的 AI。

我們想要的結果：

服務社群並接受交接或關閉的 AI。
因可受質疑和修正而贏得信任的機構。
減少遺漏、減少後悔、更快修復的社群。

為何要從覺察力開始？

一個簡單的例子

在斑馬線前，駕駛會為孩子減速。沒有人停下來解方程式。一個需求出現了，隨之而來的是義務。這就是覺察力。

現在擴大來看。一個 AI 面對一個充滿「斑馬線」的世界 — 工人、河流、語言、習俗。它可以把這些視為障礙，也可以視為需要關懷的關係。兩者的區別始於這第一眼。

在全球規模下，注意力備受爭奪且容易被操縱。因此，我們保留斑馬線例子的清晰性，並加入在複雜和壓力下仍能成立的簡單規則。

本篇背後的簡單理念

關係優先。 有些情況會因為角色和依賴關係而使義務變得可見。關係是關懷的基本單位。
權力必須回答問題。 決策應該可以解釋和挑戰。如果沒有人能質疑你，這就不公平。
只在有助益時才精確。 從故事和人開始。當數字和細節能讓事物更清晰時才加入，並在現實改變時更新它們。
足夠性。 一個好的系統知道它的範圍，並能夠放手。想想一個關懷某處的「地神」，在工作完成後便會離開。用世俗的話來說：明確的界線、沒有永久擴張的驅動力，以及易於關閉。

基本權利與公正監督

權利底線。 我們以聯合國《世界人權宣言》（UDHR）加上當地憲法權利為基礎。任何試圖抹滅他人基本地位的主張都會被記錄下來，但不會成為議程。
獨立監督。 一個由社區成員和專家組成的小型委員會，可以暫停或否決具有重大影響的變更。他們會公佈理由並註明任何利益衝突。
明確的申訴。 緊急案件在 48 小時內回覆，標準案件在 7 天內，複雜案件在 30 天內。補救措施包括修正、回溯或有時是賠償。
真正的獨立性。 受保護的預算、任期限制和透明的選拔。權力要對人民負責，而不是反過來。

為何這對「對齊」很重要

許多 AI 計畫試圖從舊資料中「學習目標」。但共同目標是變動生活中的協商。當被忽視的人們終於發聲時，目標會隨之轉變。猜測一個完美、固定的目標會失敗。

覺察力提供另一條路：與一個能傾聽、解釋、適應且可以被修正的可信任流程對齊。實務上這意味著：

顯示來源和版本歷史的摘要。
明確標示未知之處和有時間限制的決策。
當有新聲音出現時，隨時邀請修正。

經驗法則：如果一個決策受到質疑，其模糊的部分必須被釐清。每個人都應該能看到它是如何變得更清晰的。

三個簡單規則

沒有不受審查的權力。 決策可以被質疑，且需要有回應。
基本權利優先。 任何流程都不能投票剝奪他人的基本權利。
額外覺察被忽視者。 安靜和處於風險中的群體會得到公平的時間和關懷。

良好的覺察力是什麼樣子

先搭橋，再決策。 整理觀點，讓大家能用自己的話語互相理解。
尋找缺席者。「我們沒有聽到夜班照護者的聲音 — 去找到他們。」 缺失的聲音就是資料。
公開工作過程。 每個摘要都連結到來源並標示分歧。
公平分配注意力。 不要只追隨最響亮的聲音。給受影響最大的人時間。
內建修復機制。 日落條款、審查點、可逆轉的預設值，以及關閉或交接的謙卑。

從理念到日常實踐

循序漸進

1) 廣泛傾聽。 透過語音、文字和簡單的表格收集輸入。保留原始語言和翻譯。提供離線和無障礙選項。
2) 繪製觀點地圖。 製作一張「搭橋地圖」，顯示人們在哪裡意見一致、在哪裡有衝突，以及原因 — 不要強迫產生虛假的平均。
3) 寄送收據。 告知貢獻者他們的話語出現在哪裡。讓他們能修正錯誤。
4) 建立公平隊列。 在危害高且聲音微弱的地方投入更多時間。公開規則。不要讓任何群體被餓死。
5) 帶著煞車決策。 重大變更在上線前，需要這張地圖、收據和監督審查。
6) 保持申訴管道暢通。 人們可以要求修正，並在期限內得到回覆。
7) 學習與修復。 決策後，檢查哪裡出了問題並更新規則。
8) 交接或關閉。 如果工作完成或信任喪失，優雅地停止，並留下清晰記錄，將接力棒傳遞下去。

可行的簡單工具（今天就能建立）

廣泛傾聽。 多語言、多管道的輸入，保留來源、語言和不確定性標籤。
搭橋地圖。 顯示重疊和分歧的圖表，附上引文。
觀點收據。 讓每個人都能找到和修正他們被代表的方式。
電腦可檢查的規則。 將社群資料規則寫成軟體可自動執行。
公平隊列。 簡單的演算法，優先處理高風險議題和微弱的聲音。
申訴按鈕。 請求修正的標準方式，附帶計時器和審計追蹤。

洪水聊天機器人的故事（一個持續的例子）

一個中型城市遭遇洪水。城市啟動一個簡單的聊天機器人來幫助人們申請緊急現金。覺察力在此處的表現如下：

傾聽。 人們發送語音訊息、文字或拜訪服務站。訊息保留原始語言，並附上清晰的翻譯。每筆記錄都註明其來源和時間。
繪製地圖。 團隊（和機器人）將需求分為幾類：住房、工資損失和醫療照護。他們讓分歧保持可見 — 租房者和房主需要不同的證明。
收據。 每個貢獻者都會收到一個連結，查看他們的話語是如何被使用的，並附有一個「我不是這個意思」的按鈕。
公平隊列。 系統會為身體脆弱的人和網路連線差的地區提供額外的審查時間。它也為城市經常忽略的群體保留一部分時間。
帶著煞車決策。 一項新規則 —「30天內居住證明」 — 在夜班工人提出申訴後被暫停。一項可逆轉的預設值延長了資格，同時對案件進行審查。
申訴與修復。 申訴小組檢查來源，發現該規則傷害了租房者。他們回溯該規則，並在兩週內嘗試其他證明（雇主信函、鄰居證詞），然後檢查結果。
衡量與分享。 一個公開儀表板顯示了觸及了哪些人，以及隊列有多公平。它還提供了一個簡單的「失利下的信任」分數 — 那些不同意的人是否仍然認為結果公平？
關閉即成功。 當危機結束時，聊天機器人被關閉。所有的地圖、規則和決策都被存檔，以便下一個團隊可以快速接手。

可能出錯的地方（以及快速解決方案）

單一指標主導一切。 參與度上升，但信任度下降。解決： 使用一組平衡的指標並輪換它們。
聽取意見的表演。 報告光鮮亮麗，結果卻一成不變。解決： 建立真正的決策門檻、外部否決權、抽查和吹哨者保護。
大聲者主導。 資金充足的團體佔據了管道。解決： 節流、公平配額、懲罰濫用者和公開的注意力儀表板。
先發者鎖定框架。 早期的語言被固定下來。解決： 滾動式視窗，並提升較晚但重要的觀點。
虛假的平衡。 將有害言論視為等同。解決： 將事實與價值觀分開，維護基本權利，並拒絕虛假對等。

基本威脅模型

假群體。 大量複製貼上的評論。使用簡單的來源檢查和頻率限制。
資料污染。 惡意的輸入。運行異常檢查並隔離可疑的群集。
騷擾。 保護身份、支持版主並執行零容忍政策。
被權力劫持。 保持監督獨立、裁決公開和資金透明。

我們如何保持誠信（我們衡量的事物）

覆蓋率與平衡。 誰參與了、我們錯過了誰，以及有多少議程項目來自代表性不足的群體。
搭橋品質。 人們能否公平地解釋對方的觀點？我們在之前和之後詢問雙方參與者，並尋找穩定的進步。
可追溯性。 我們能否將每個決策追溯到其來源？貢獻者是否接受他們的收據？我們修復錯誤的速度有多快？
失利下的信任。 決策後，我們詢問那些不同意的人，他們是否能接受這個結果是公平的。如果很多人說「不」，我們就會審查流程。

不確定性紀律。 當我們不確定時，我們多久會帶著保障措施發布，以及我們的謹慎是否符合現實。
非榨取性。 我們遵守同意規則、分享利益、尊重撤銷請求，並保護尊嚴和隱私。
操縱抵抗力。 我們追蹤並減少協調行動的影響。
帶著信任退出。 人們可以離開，但仍相信他們可以重新進入並被聽見。

你現在可以採用的工具

廣泛傾聽。 多語言、多管道的輸入，保留來源和不確定性。
搭橋地圖，而非糊塗帳。 清晰的分歧與可行重疊圖表，附上引文。
觀點收據。 人們可以看到他們如何被代表，並要求修正。

具備同意感知能力的管道。 社群規則寫成軟體可以自動檢查和執行。
公平注意力預算。 一個公開的隊列，為高風險議題和微弱的聲音提供時間。
申訴管道。 附帶截止日期、原因和補救措施的標準按鈕和表格。

參與的感受

你能找到自己：你的話語在地圖上。
你能表達不同意見而不消失：你的觀點被保留，除非它侵犯了他人的基本權利。
你能改變結果：申訴經常起作用，這很重要。
你能帶著對流程的信任離開 — 即使你沒有贏 — 因為決策者對你負責。

與其他關懷的介面

對「負責力」：「覺察力」能交接「誰、做什麼、為何」 — 同時標註權利問題和風險或未知之處。
對「勝任力」：「覺察力」確保高謹慎區域變成小型、安全的試錯，而非大賭注。
對「回應力」：「覺察力」使修復循環和回溯成為常態，並附有明確的時間表和公開解釋。

對「團結力」：「覺察力」透過確保公平覺察和公開挑戰，促進跨越差異的信任（即使在規模化下）。
對「共生力」：「覺察力」使系統植根於特定的社群（地點和時間），在當地分享利益，並將關閉視為成功。

淺顯詞語彙編

注意力預算。 如何分配有限審查時間的簡單規則。
搭橋地圖。 一張顯示重疊與分歧並附有來源的地圖。
觀點收據。 一份通知，顯示你說的話是如何被使用的，並提供修正的方式。
電腦可檢查的規則。 社群規則寫成軟體可以自動執行。

申訴管道。 一個標準、可審核的方式，用於請求修正並準時得到回覆。
來源追蹤。 記錄資訊來源的紀錄。
失利下的信任。 那些不同意的人是否仍然接受流程是公平的。
足夠性（地神）。 一個知道自身極限並能夠放手的系統 — 建立的初衷就是優雅地被關閉。