Claude成全球AI先驅！能自動偵測內容「有害」並自動結束對話

2025-08-18

記者鄧天心／綜合報導

未來AI如果發現對話內容出現危險或是涉及性行為時，可能會自動結束對話，Anthropic於2025年8月宣布，當用戶要求AI生成內容涉及到未成年人性行為、恐怖攻擊、嚴重暴力等非法或危險資訊時，旗下最新一代語言模型Claude Opus 4和Opus 4.1會主動結束對話。

Anthropic在公告中特別強調，這項措施的推動不僅考量用戶的安全規範，也首次將「模型福祉」（即AI自身健康運作與倫理風險降低）納入AI管控的決策核心。

1755502099675 — Anthropic於2025年8月宣布，當用戶要求AI生成內容涉及到未成年人性行為、恐怖攻擊、嚴重暴力等非法或危險資訊時，旗下最新一代語言模型Claude Opus 4和Opus 4.1會主動結束對話。（圖／Anthropic YouTube）

延伸閱讀：

GPT-5負評太多 OpenAI公開表示已調整不少

Anthropic指出，雖然目前語言模型並不具備自我意識或情感，但隨著AI技術快速發展，預防性地加入這類保護措施，有助於在未來出現潛在倫理風險時快速反應，公司認為，讓AI能自己結束存在明顯倫理問題且對系統造成危害的對話，是確保AI技術可持續發展與信任的前提。

部分專家認為，這代表AI產業對抗模型被濫用、主動預防「越獄」行為（即用戶試圖繞過安全限制）技術研發的新里程碑，也反映企業責任感與社會期待的提升，不過，也有學者質疑「模型福祉」會不會只是企業在法律或公共關係壓力下提早採取的策略部署；此概念究竟屬於技術進步還是市場行銷，後續仍需觀察。

Anthropic還表示，大部分正常用戶使用Claude時不會碰到這套終止機制，只有在極端嚴重且持續的違規請求下，模型才會自動介入終止，並鼓勵用戶主動回報可能被誤判的案例，以協助改進系統準確性，語言模型能力和應用領域持續擴展，如何兼顧安全、倫理原則、AI自主判斷能力與用戶體驗，將是整個行業未來必須共同面對的挑戰。

資料來源：TechCrunch、Engadget、Investing.com