Claude成全球AI先驅!能自動偵測內容「有害」並自動結束對話

記者鄧天心/綜合報導

未來AI如果發現對話內容出現危險或是涉及性行為時,可能會自動結束對話,Anthropic於2025年8月宣布,當用戶要求AI生成內容涉及到未成年人性行為、恐怖攻擊、嚴重暴力等非法或危險資訊時,旗下最新一代語言模型Claude Opus 4和Opus 4.1會主動結束對話。

Anthropic在公告中特別強調,這項措施的推動不僅考量用戶的安全規範,也首次將「模型福祉」(即AI自身健康運作與倫理風險降低)納入AI管控的決策核心。

1755502099675
Anthropic於2025年8月宣布,當用戶要求AI生成內容涉及到未成年人性行為、恐怖攻擊、嚴重暴力等非法或危險資訊時,旗下最新一代語言模型Claude Opus 4和Opus 4.1會主動結束對話。(圖/Anthropic YouTube

延伸閱讀:

GPT-5負評太多 OpenAI公開表示已調整不少

Anthropic指出,雖然目前語言模型並不具備自我意識或情感,但隨著AI技術快速發展,預防性地加入這類保護措施,有助於在未來出現潛在倫理風險時快速反應,公司認為,讓AI能自己結束存在明顯倫理問題且對系統造成危害的對話,是確保AI技術可持續發展與信任的前提。

部分專家認為,這代表AI產業對抗模型被濫用、主動預防「越獄」行為(即用戶試圖繞過安全限制)技術研發的新里程碑,也反映企業責任感與社會期待的提升,不過,也有學者質疑「模型福祉」會不會只是企業在法律或公共關係壓力下提早採取的策略部署;此概念究竟屬於技術進步還是市場行銷,後續仍需觀察。

Anthropic還表示,大部分正常用戶使用Claude時不會碰到這套終止機制,只有在極端嚴重且持續的違規請求下,模型才會自動介入終止,並鼓勵用戶主動回報可能被誤判的案例,以協助改進系統準確性,語言模型能力和應用領域持續擴展,如何兼顧安全、倫理原則、AI自主判斷能力與用戶體驗,將是整個行業未來必須共同面對的挑戰。

資料來源:TechCrunchEngadgetInvesting.com

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button