• 首页 > 云计算频道 > 大模型

    只需7.6% token,性能还更强,华人团队提全新「草稿链」CoD,成本延迟大降

    2025年03月14日 09:54:25   来源:新智元公众号

      当下,企业正处于部署AI的关键节点。

      随着AI系统在企业运营中的深度融合,计算成本与响应时间成为阻碍AI广泛应用的主要瓶颈。

      来自Zoom的华人研究团队取得了一项突破性成果,他们开发的「草稿链」(Chain of Draft,CoD)技术,有望从根本上改变企业大规模部署AI的模式。

      通过减少冗长表述并聚焦关键要点,草稿链(CoD)在准确率上与思维链(CoT)相当甚至更优,使用的token量仅为7.6%,显著降低了推理任务的成本和延迟。

      目前,该项目已在GitHub上开源。

      AI研究员Prabhakar表示,「对于一家每月处理100万次推理查询的企业而言,采用草稿链技术,每月成本可从(使用思维链时的)3800美元降至760美元,每月节省超过3000美元。」

      草稿链对于企业的吸引力,更在于其简便的实现方式。

      与需要投入大量成本进行模型重新训练或架构调整的技术不同,已在使用CoT的企业,仅需对现有模型的提示进行简单修改,就能顺利切换至CoD。

      在实时客户支持、移动AI、教育以及金融服务等对延迟极为敏感的应用场景中,CoD技术的价值尤为明显。

      在这些场景下,即使是极短暂的延迟,也可能对用户体验造成严重影响。

      Prabhakar总结道,「随着AI模型的不断演进,优化推理效率与提升原始能力同样重要。」

      OpenAI o1和DeepSeek R1等推理模型在复杂任务处理上取得了显著进展,思维链(CoT)技术功不可没。

      CoT模仿人类的结构化推理,将问题分解为逐步探索的过程。

      然而,CoT往往产生冗长的中间推理步骤,导致高延迟和更高的计算成本。

      草稿链:灵感源于人类认知

      CoD的灵感来源于人类解决复杂问题的方式。

      在解数学题或逻辑谜题时,人们通常不会详细阐述每一个细节,而是用缩写形式只记录关键信息。

      受此启发,研究人员提出了草稿链(CoD)这一全新的提示策略。

      CoD不要求模型生成冗长的中间步骤,而是让LLM在每一步生成简洁、信息密集的输出。

      这种方法限制每个推理步骤最多五个词,使模型专注于最关键的信息。

      研究团队在众多基准测试中验证了CoD的性能,包括算术推理(GSM8k)、常识推理(日期理解和体育知识理解)以及符号推理(抛硬币任务)。

      其中,Claude3.5Sonnet在处理体育相关问题时,CoD将平均输出从189.4个token减少到仅14.3个token,降幅达92.4%!同时准确率从93.2%提高到了97.3%。

      CoD在显著减少token的情况下,大幅降低了延迟和计算成本,实现了与CoT相当的准确率。

      为了说明标准提示、CoT和CoD的区别,考虑以下简单的算术问题:

      「Jason有20个棒棒糖,他分给Denny一些,现在有12个棒棒糖,他给了Denny多少?」

      标准提示方法生成的回答通常直接输出答案,而没有任何推理过程。虽然结果正确,却缺乏推理过程的透明度。

      CoT提供了详细的推理步骤。虽然回答准确且可解释,但包含了许多与解决数学问题无关的描述性细节,增加了token数量和响应延迟。

      CoD仅聚焦于得出解决方案所必需的基本数学运算,将无关的上下文细节统统去除。

      这种方式在确保透明度和答案正确性的同时,显著减少了所需的token数量,使得推理过程更加简洁高效。

      实验结果

      实验中比较了三种不同的提示策略:标准提示、思维链(CoT)和草稿链(CoD)。

      标准提示策略使用常规的少样本提示,模型直接返回最终答案,没有任何推理或解释。

      CoT策略遵循论文中提供的少样本示例,让模型逐步进行详细推理。

      而CoD策略则要求模型在思考时逐步推理,但每个推理步骤限制在最多五个词,从而实现简洁高效的推理过程。

      实验采用了两个主流模型:OpenAI GPT-4o和Anthropic Claude3.5Sonnet,确保研究结果具有广泛的代表性。

      实验结果清晰地表明,CoD在保持高准确率的同时,大幅降低了token使用量和延迟。在各类推理任务中,CoD与CoT相比展现出显著的效率优势。

      算术推理

      在算术推理任务中,研究人员选择了GSM8k数据集,该数据集包含8500个小学水平的数学问题,每个问题都配有详细的逐步解决方案。

      CoD展现出显著的效率提升,实验结果见下表。

      对于GPT-4o和Claude3.5,CoD都达到了91%的准确率,而每个响应仅需约40个token,相比CoT减少了约80%。

      这也降低了平均延迟,GPT-4o降低了76.2%,Claude3.5降低了48.4%。

      常识推理

      在常识推理方面,研究人员评估了BIG - bench中的日期理解和体育理解任务。

      CoD不仅通过生成显著更少的响应token,显著降低了延迟和成本,而且准确率优于CoT。

      在日期理解任务中,使用CoD的Claude3.5Sonnet模型达到了89.7%的准确率,超过了CoT的87.0%,延迟从3.2s降低到1.4s。

      体育理解任务中,CoD将Claude3.5Sonnet的平均输出token从189.4减少到14.3,减少了92.4%!同时准确率从93.2%提升至97.3%。

      符号推理

      在符号推理任务中,研究人员按照原始思维链论文的设计合成了一个包含250个示例的抛硬币测试集。

      在标准提示下,GPT-4o和Claude3.5Sonnet的准确率分别为73.2%和85.2%。使用CoT和CoD时,两个模型的准确率均达到了100%。

      与CoT相比,GPT-4o的token减少了68%,Claude3.5Sonnet减少了86%。

      这些实验结果表明,CoD不仅能保持高准确性,还能大幅提高推理效率。

      CoT在需要高透明度、可解释性强的场合表现出色,如复杂决策支持。CoD则在对效率和响应速度有高要求的场景中更具优势,如实时应用、大规模AI部署、资源受限环境等。

      CoD让先进的推理技术变得更加亲民、易用,有助于推动其在更广泛场景中的普及。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。