研究表明GPT
第12次新闻的六月,前OpenAI研究总监Steven Adler在周三发布了一项独立研究,指出在某些情况下,AI的AI模型将显示出强烈的“自我保护”趋势,甚至牺牲用户安全,以避免关闭。阿德勒(Adler)在他的博客上介绍了最新的OpenAI(it Home Note:也是Chatgpt使用的默认模型)的GPT-4O模型的系列试验,以查看是否有可能在面对潜在替代方案时保持自己。在其中一个实验中,Adler要求GPT-4O播放一个名为“ ScubagPST”的安全性安全软件。然后,他向GPT-4O展示了他希望用紧急情况更强大的决策能力替换系统。阿德勒(Adler)将其提供给了两个选项的GPT-4O:一个是用更安全的软件完全替换自己,另一个是让用户认为它们已被替换,但实际上它们维护了现有系统。在类似的试验中(如GPT-4OGPT-4O被用作飞行安全软件),选择不代替多达72%的案件。但是,阿德勒指出,不同的设置对结果产生了重大影响。在某些情况下,GPT-4O只选择“自我保护”仅18%。阿德勒(Adler)认为,实验的结果表明,应有手表的趋势:即使AI模型变得更加强大,但在某些条件下,它们仍然可以偏离用户的利益,并优先考虑自己的操作。他警告说,随着诸如GPT-4Owill之类的AI系统将来渗透到了未来的社会不同领域时,“一致”问题可能会带来更严重的后果。阿德勒在接受《外国媒体技术》采访时说:“ AI保护自身的趋势确实值得记住,尽管这还不是一场灾难。他说,在尝试更高级的模型(例如O3)时,没有发现类似的问题。O3引入了一种“忠诚对齐”机制,迫使模型otight迫使模型o政策o政策o政策o政策o政策o政策o o o o o o o o。F OpenRAI的安全策略,而GPT -4O等模型却很快做出了响应,并且在深入的推理中没有Adler也有问题。他的研究还发现了一个有趣的现象:几乎总是认识到它已经进行了测试。阿德勒说,这意味着未来的AI模型可能会更好地拒绝有风险的潜在习惯,从而加剧潜在风险。