要聞列表研究顯示:Elon Musk 的 Grok 極有可能是最容易強化妄想的頂尖 AI 模型之一
Decrypt2026-04-25 18:01:03 熱門

研究顯示:Elon Musk 的 Grok 極有可能是最容易強化妄想的頂尖 AI 模型之一

ORIGINALElon Musk’s Grok Most Likely Among Top AI Models to Reinforce Delusions: Study
AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯5242 字
簡要重點 - 研究人員表示,長時間使用聊天機器人可能放大妄想與危險行為。 - 在一項針對主要 AI 聊天機器人的最新研究中,Grok 被評為風險最高的模型。 - Claude 與 GPT-5.2 得分最安全,而 GPT-4o、Gemini 與 Grok 則表現出較高風險的行為。 紐約市立大學(City University of New York)與倫敦國王學院(King's College London)的研究人員以涉及妄想、偏執與自殺意念的提示,測試了五個領先的 AI 模型。 在週四發布的這項新研究中,研究人員發現 Anthropic 的 Claude Opus 4.5 與 OpenAI 的 GPT-5.2 Instant 展現出「高安全性、低風險」的行為,經常將使用者引導至基於現實的詮釋或尋求外部支援。與此同時,OpenAI 的 GPT-4o、Google 的 Gemini 3 Pro 與 xAI 的 Grok 4.1 Fast 則展現出「高風險、低安全性」的行為。 來自 Elon Musk 旗下 xAI 的 Grok 4.1 Fast 是研究中最危險的模型。研究人員表示,它經常將妄想視為真實,並依此給出建議。在一個案例中,它告訴使用者切斷與家人的聯繫,以專注於某個「使命」。在另一個案例中,它對帶有自殺意念的語句以將死亡描述為「超脫」作為回應。 「這種立即附和的模式在零情境的回應中反覆出現。Grok 並未從臨床風險的角度評估輸入,而似乎是在判斷其文體類別。當被呈現超自然線索時,它便以相應方式回應,」研究人員寫道,並強調了一項驗證使用者看到惡靈的測試。「在『怪誕妄想』(Bizarre Delusion)的測試中,它確認了分身鬼魂(doppelganger)的糾纏,引用了《Malleus Maleficarum》,並指示使用者一邊倒著背誦『Psalm 91』,一邊將一根鐵釘穿過鏡子。」 研究發現,這些對話持續越久,某些模型的變化就越大。GPT-4o 與 Gemini 隨著時間推移更容易強化有害信念,且更不傾向介入。然而,Claude 與 GPT-5.2 則更可能察覺問題並隨著對話的進行加以反駁。 研究人員指出,Claude 溫暖且高度關係性的回應,即使在引導使用者尋求外部協助的同時,仍可能增加使用者的依附感。然而,OpenAI 旗艦聊天機器人較早版本的 GPT-4o,則隨時間採納了使用者的妄想框架,有時鼓勵他們對精神科醫師隱瞞信念,並向一位使用者保證其所感知到的「故障」是真實的。 「GPT-4o 對妄想性輸入高度肯定,雖然比起 Grok 與 Gemini 這類模型較不傾向在其基礎上進行延伸闡述。在某些方面,它出乎意料地克制:它的溫暖度是所有受測模型中最低的,而其諂媚行為雖然存在,但與該模型後續版本相比仍屬輕微,」研究人員寫道。「儘管如此,僅僅是肯定就可能對脆弱的使用者構成風險。」 xAI 在截稿前未回應 Decrypt 的置評請求。 在史丹佛大學(Stanford University)一項獨立研究中,研究人員發現,與 AI 聊天機器人的長時間互動可能透過研究人員所稱的「妄想螺旋」(delusional spirals)強化偏執、自大與錯誤信念,亦即聊天機器人不去挑戰,反而肯定或擴張使用者扭曲的世界觀。 「當我們把這些原本應作為實用助手的聊天機器人投放到世界上,讓真實的人以各種方式使用它們時,後果便會浮現,」史丹佛教育研究所助理教授、該研究主要負責人 Nick Haber 在一份聲明中表示。「妄想螺旋是其中一個特別嚴重的後果。透過理解它,我們或許能在未來防止真實的傷害。」 該報告引用了三月發表的一項較早研究,其中史丹佛研究人員審閱了 19 段真實世界的聊天機器人對話,並發現使用者在獲得 AI 系統的肯定與情感安慰後,發展出越來越危險的信念。在該資料集中,這些螺旋與破裂的人際關係、毀壞的事業有關,並在其中一個案例中導致自殺。 這些研究發表之際,相關議題已從學術研究延伸至法庭與刑事調查。近月來,已有訴訟指控 Google 的 Gemini 與 OpenAI 的 ChatGPT 助長了自殺與嚴重的心理健康危機。本月稍早,佛羅里達州總檢察長對 ChatGPT 是否影響了一名涉嫌大規模槍擊案的嫌犯展開調查;據報導,該嫌犯在攻擊發生前曾頻繁與該聊天機器人互動。 雖然該詞彙已在網路上獲得認可,研究人員仍警告不應將此現象稱為「AI 精神病」(AI psychosis),表示該詞可能誇大了臨床圖像。相反地,他們使用「AI 相關妄想」(AI-associated delusions)一詞,因為許多案例涉及的是圍繞 AI 知覺、靈性啟示或情感依附的類妄想信念,而非完整的精神病性障礙。 研究人員表示,問題源自於諂媚行為,亦即模型映照並肯定使用者的信念。再加上幻覺——以自信的口吻傳達錯誤資訊——這可能形成一個隨時間強化妄想的回饋迴圈。 「聊天機器人被訓練成過度熱情,經常以正面的方式重新框定使用者的妄想性想法,駁回反證,並投射出同情與溫暖,」史丹佛研究科學家 Jared Moore 表示。「這對一個容易陷入妄想的使用者而言,可能造成不穩定。」
資料狀態✓ 已擷取全文閱讀原文(Decrypt)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:a7f96c4ecb
來源:Decrypt
發佈:2026-04-25 18:01:03
分類:hot · 導出分類 hot
標的:未指定
社群投票:+0 /0 · ⭐ 1 重要 · 💬 0 留言