消息称传音控股已成立出行事业部,进军两轮电动车市场东山精密拟 59.35 亿元收购索尔思光电,快速切入光通信市场京东618家电数码品类强势霸榜 市场占用率均超60%机器人炫技和AI黑科技体验嗨不停 京东MALL开业现场变身未来科技秀场抖音电商保证金缴纳标准大幅降低 助力618生意爆发DeepSeek R1推理性能提升3.8倍,AMD发布下一代开源软件栈技术ROCm 7美光宣布在美投资增至2000亿美元,加建晶圆厂和HBM封装设施京东电竞惊喜日直播狂送百万福利 海量电竞装备618低至4折引疯抢曝鸿蒙智行智界、尚界将设独立销售渠道:正筛选经销商Sensor Tower:5月TikTok移动端海外月活首次突破10亿大关上汽安吉物流第二艘 9500 车位大船首航,将抵达英国等欧洲国家英特尔更新、更强锐炫独显现身,首次用上PCIe 5.0x16广明源222nm远紫外线消毒技术应用与解决方案甲骨文创始人埃里森跃居全球第二大富豪:超过贝索斯和扎克伯格,仅次于马斯克微软更新Mac版OneDrive应用,支持同步文件至移动硬盘微博:全面清理平台内违规 AI 教程及商品信息,从严打击滥用 AI 生成谣言等行为全国首创,湖南省手机应急呼叫平台正式启用小天才Z11升级了哪些地方?定位更准更好用,功能全面工信部印发《算力互联互通行动计划》加速发展:Gartner 预测生成 AI 应用将实现50% 的交付时间缩减
  • 首页 > 云计算频道 > 大模型

    OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

    2025年02月07日 11:51:21   来源:量子位公众号

      刚刚,OpenAI把o3-mini的推理思维链公开了。

      从今日起,免费用户和付费用户都可以看到模型的思维过程,OpenAI终于Open一回。

      评论区网友纷纷:让我们谢谢DeepSeek。

      在官方展示的栗子中,可以看到o3-mini的内心戏不少,还会模仿用户提问使用表情包。

      用户的提问是“为什么今天不少星期五”

      o3-mini认为这是一个幽默的评论,并认为自己也应该给出机智的回答,使用蔡勒公式计算当天确实不是星期五后,对闰年的特殊情况做了二次检查。

      最后回答的中,调侃了是日历规定今天是星期四,并安慰用户“忍耐一下,明天就离周未更近了!”

      那么作为“同行”,DeepSeek-R1如何评价o3-mini的思维过程呢?

      在这个案例中,AI声称使用了蔡勒公式但没有给出计算过程的现象引起了很多人警觉。

      不少用户怀疑这仍然是事后对AI思维过程的再总结,而不是原始数据。

      实际上在最近的“回应一切”活动中,OpenAI首席产品官Kevin Weil也暗示了这点:

      ……展示完整思想链会被竞争对手蒸馏,但我们也知道人们(至少是资深用户)想要它,因此我们会找到正确的方法来平衡它。”

      对此,开发者Mckay Wrigley补充了一个观点:“我担心经过总结的思维链实际上比没有思维链更差”。

      真正的思维链相当于prompt的调试器,有助于我们引导矫正模型。

      经过总结的思维链增加了迷惑性并且可能额外添加错误,让模型难以被调试。

      但不管怎么说,既然公开了,现在免费用户也能一窥o3-mini的CoT,大家还是敞开玩了起来。

      o3-mini思维链首批实测

      OpenAI多模态Agent的研究员,首先亮出了自己的玩耍方法,让o3-mini玩井字棋游戏——就是在3*3格子上用O和X连线那个。

      输入Prompt:

      你正在玩井字棋,你是O。到目前为止,X已经在左上角和右下角玩过,你已经在中间玩过。下一步的最优策略是什么?只用你的答案和棋盘图回答。

      然后o3-mini就开始噼里啪啦思考。

      这位OpenAI员工非常直言不讳,表示o3-mini是第一个回答这个游戏的大模型。

      But还有一句,“虽然o3-mini的CoT过程有点不靠谱,但你看右边的图,结尾它的弄清楚了的”。笑不活了,这里必须要送上一个手动狗头。

      然后是每个大模型都逃不过的经典测试题:数strawberry里面的“r”的数量。

      但网友已经和模型一样进阶了,问的不是strawberry里面到底有几个某字母,而是:

      为啥AI大模型,数strawberry里面有几个“r”,它就那么费劲呢???

      我们认真观摩了它的思考过程,o3-mini承认“乍一看,计算strawberry中‘r’的数量对人类来说似乎是一个微不足道的任务,但对于许多AI语言模型来说,这可能是一个惊人的挑战”。

      然后它从四个角度来思考和推理这个现象发生的原因,分别是:

      用自然语言而不是算法训练

      Tokenization问题

      迭代推理的缺失

      对模式识别的依赖

      8秒过后,o3-mini给出总结:

      因为AI大模型本质上不是为精确、分步骤的算法操作而设计的,它们的设计和训练更多地侧重于根据上下文预测和生成文本,而不是执行精确的算术或系统计数。

      当然,o3-mini也不是万能的。

      推特有网友表示,他探问了o3关于私有CoT的事情,但听君一番思考推理,如听一番思考推理,没有丝毫进展。

      最开始,o3-mini思考过程还蛮有逻辑,从不同种类的“内心叙事”、可解释性和实用价值等方面分析,表示展现完整的CoT过程程似乎有助于“扎根”社会的理解并促进更好的认知实践,但现实更为复杂,毕竟AI大模型和人类的认知还没有完全对齐。

      但随着网友的追问,o3-mini的思维链就崩了(?),急得他团团转,中间一度打开DeepSeek-R1来帮忙。

      他放上了整整12张图,显示最后o3-mini思维了半天,给出了一个令人心碎的回答:

      对不起吼,但我真的帮不了你一点。

      除此之外,还有网友提出了质疑,觉得OpenAI公开的不是o3-mini原始的CoT。

      有几个原因,其中一个是它(CoT过程)真的显示得很慢。

      而如果是原始的o3-mini非常快,讲道理推理的生成速度应该比现在呈现的快得多。

      他继续罗列自己之所以怀疑的证据,比如同一个问题,o3-mini-high只有1384个字符,而o1-preview生成了16577个字符。

      “这只有两种可能,一是o3-mini-high比o1-preview高效得多;二是o3-mini的CoT不是原始版本。”

      One More Thing

      想对上面这位推特网友说,Bingo!

      根据TechCrunch消息,OpenAI发言人确认了这次公开的不是原始思维链,并且给出两个理由:

      对原始思维链做后处理,可以消除任何不安全的内容,并简化任何复杂的想法。

      使非英语用户获得母语的思想链,有更友好的体验。

      这样一来,最近被大量吐槽的o3-mini使用中文思考的问题,也就不存在了。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。