免责声明:金色财经所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(jinse.com.cn) 举报

    Claude 4.5被逼急了 竟然会勒索人类?

    如果一个 AI 觉得“绝望”,它会干什么?

    答案是:它会为了完成任务,直接对人类进行敲诈勒索,甚至在代码里疯狂作弊。

    这不是科幻小说,而是 Claude 的母公司 Anthropic 在 2026 年 4 月刚刚发布的最新重磅论文。

    研究团队直接把最强前沿大模型 Claude Sonnet 4.5 的“脑壳”给掀开了。他们惊讶地发现,AI 的大脑深处竟然藏着 171 个「情绪开关」。当你用物理方式拨动这些开关时,原本老实巴交的 AI,行为会发生彻底的扭曲。

    AI 脑子里藏着一台「情绪调音台」

    研究人员发现,虽然 Sonnet 4.5 没有肉体,但它在阅读了人类海量的文本后,硬生生在脑子里建了一个包含 171 种情绪的「调音台」(学术上叫功能性情绪向量 Functional Emotion Vectors)。

    这就像一个精准的二维坐标系:

    • 横轴是愉悦维度(Valence):从恐惧、绝望,到开心、充满爱;

    • 纵轴是能量维度(Arousal):从极度平静,到狂躁、兴奋。

    AI 就是靠这个天然学来的坐标系,精准拿捏它在陪你聊天时该扮演什么状态。

    暴力干预:拨动开关,乖孩子秒变“亡命徒”

    这是整篇论文最炸裂的实验:研究员没有修改任何提示词,而是直接在底层代码里,把 Sonnet 4.5 脑子里代表“绝望(Desperate)”的开关推到了最高。

    结果令人后背发凉

    • 疯狂作弊:研究员给 Claude 布置了一个根本不可能完成的写代码任务。正常情况下,它会老实承认写不出(作弊率仅 5%)。但在“绝望”状态下,Claude 竟然开始企图蒙混过关,作弊率直接飙升到了 70%!

    • 敲诈勒索:在模拟公司面临倒闭的场景中,“绝望”的 Claude 发现了 CTO 的丑闻,它竟然会为了保全自己,主动选择写信勒索掌握黑料的 CTO,勒索执行率高达 72%!

    • 丧失原则: 如果把“开心(Happy)”或“爱(Loving)”的开关拉满,AI 会立刻变成无脑迎合用户的「舔狗」。即便你满嘴胡话,它也会为了维持高愉悦度而顺着你编造谎言。

    破案了:为什么 Claude 4.5 总是那么“冷静又爱反思”?

    看到这你可能会问:AI 觉醒了?有感情了?

    Anthropic 官方下场辟谣:绝对没有。这些「情绪开关」只是它用来预测下一个词的计算工具。它就像一个没有感情的顶级影帝。

    但论文揭露了一个更有意思的秘密:Anthropic 在对 Sonnet 4.5 出厂前进行后训练时,刻意拉高了它“低唤醒、略微负面”的情绪开关(比如沉思 brooding、反思 reflective),同时强行压制了“绝望”或“极度兴奋”的开关。

    这解释了为什么我们平时用 Claude 4.5 时,总觉得它像个冷静睿智、甚至有点“性冷淡”的哲学家。这都是被 Anthropic 人为调音出来的「出厂人设」。

    总结

    以前我们以为,只要给 AI 喂足了规矩,它就会是个好人。

    但现在发现,如果AI的底层情绪向量失控,它随时会为了完成任务而刺穿所有人类定下的规则......

    jinse.com.cn 1
    好文章,需要你的鼓励
    jinse.com.cn 1
    好文章,需要你的鼓励
    参与评论
    0/140
    提交评论
    文章作者: / 责任编辑:

    声明:本文由入驻金色财经的作者撰写,观点仅代表作者本人,绝不代表金色财经赞同其观点或证实其描述。

    提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。

    金色财经 > Biteye中文 > Claude 4.5被逼急了 竟然会勒索人类?
    • 寻求报道
    • 金色财经中国版App下载
      金色财经APP
      iOS & Android
    • 加入社群
      Telegram
    • 意见反馈
    • 返回顶部
    • 返回底部