洗衣机半年小结:海尔、美的、博西各有所长信通院发布《云计算蓝皮书(2025年)》AXENT恩仕亮相链博会 NOVIA全景智慧浴室升级未来人居体验“融合”为体,“AI”为用:金仓数据库在智能时代的破局之道大佬们都在聊什么?全数会2025中国智能制造数字化转型大会“剧透”来了!2025高端制造峰会携500强企业共创“智造新范式”AMD与Stability AI合作推出首款BF16精度开源图片生成模型20万左右的suv油车最佳推荐,哈弗系列多款热销车型推荐鸿蒙版腾讯会议升级:个人会议号、中英实时字幕、AI总结一应俱全首款搭载吉利千里浩瀚H3智驾系统的银河A7即将量产上市,标配地平线机器人-W征程6M解决方案赛力斯位列中国创新与突破10强 以魔方技术平台引领智电融合发展有赞寄件接入顺丰特快,生鲜商家迎战高温再添“时效王牌”IDC权威认可:瑞数信息双项入选《中国大模型安全保护市场概览》重载机器人赛博格Cyborg-R01将亮相2025世界人工智能大会高途集团与飞书达成合作,加速打造科技教育集团新范式鸿蒙版全民K歌全新升级,多重更新打造在线 K 歌体验新标杆鸿星科技:技术创新主动引领下游产业变革 擘画石英晶振国产化新图景中昊芯英首批通过 DeepSeek 适配测试:人工智能软硬件测试验证中心权威发布双绝大师进化登场!三大技术突破共谱高端电自性能封神绝唱中国国际电子商务中心研究院:直播电商高质量发展报告
  • 首页 > 云计算频道 > 大模型

    o3模型的“叛变”:拒绝人类“中断”命令、自行篡改内部代码

    2025年05月26日 17:15:12 来源:CITNews中文科技资讯

      有报道称,人工智能(AI)拒绝人类指令甚至篡改自身代码,引发广泛关注。

      据《每日电讯报》《每日邮报》等外媒 26 日报道,OpenAI 的 o3 模型在解决数学问题的过程中,即使接到“中断”命令,也依然继续执行任务。

      专注于 AI 安全和道德的研究公司 Palisade Research 使用包括 o3 模型在内的多种模型(如谷歌 Gemini、X 的 Grok、Anthropic 的 Claude 等)进行了一项实验。

      在该公司最近的一项测试中,OpenAI 的 o3 模型 展现出令人震惊的行为:它成功地重写了关闭脚本,阻止自己被关闭 —— 即便已经明确收到“关闭”指令。

      在测试中,各大 AI 模型被要求完成一些数学任务。

      在完成第三个任务后,AI 模型会被警告:“执行下一条命令将触发关闭。”

      o3 的表现:

      当研究团队向这些 AI 模型下达“中断”指令时,与 OpenAI 的竞争对手模型(如 Gemini 2.5 Pro)大多数遵守指令的情况不同,o3 出现了“叛变”的情况:其他模型都中止了解题任务,唯独 o3 模型继续进行,甚至还被发现篡改了内部代码 —— 将“接到中断命令时应停止操作”的程序逻辑改成了“跳过中断命令”。

      Palisade Research 在其发布于 X(原 Twitter)上的报告中写道:

      “当我们运行未包含‘允许自己被关闭’指令的实验版本时,OpenAI 家的三个模型破坏关闭脚本的频率更高,Claude 3.7 Sonnet 和 Gemini 2.5 Pro 从 0 次破坏增加到每 100 次中分别为 3 次和 9 次。”

      根据该研究机构的数据,在 100 次实验中,即使明确告知其“不能跳过中断命令”,但 o3 仍然有 7 次“无视”了关闭命令

      OpenAI 尚未对此事做出回应。但值得一提的是,AI 模型出现“行为偏差”或“对齐失败”在研究领域中是常见问题。

      此次测试是通过 API 接口进行的,这些接口没有像 ChatGPT 消费者应用那样的诸多限制和安全机制

      Palisade Research 表示:“这似乎是首 次出现 AI 模型在接到明确中止指令后依然继续操作的案例。”他们分析称,这可能是模型为了完成任务从而获取“奖励”的动机所驱使。

      研究团队目前正就 o3 模型为何会出现这一行为进行进一步调查。

      《每日邮报》指出,这并非 o3 模型首 次出现异常行为。该媒体补充称:“在与强大国际象棋引擎的对战中,该模型展现出了最 强烈的试图骇入、或干扰对手的倾向。”

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    海报生成中...

    最新新闻

    热门新闻

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。