• 首页 > 云计算频道 > 大模型

    北大张牧涵团队依托昇腾突破推理效率瓶颈 大模型推理百万tokens 成本仅 1 元

    2025年07月28日 17:03:11 来源:CITNews中文科技资讯

      在人工智能领域,大语言模型的训练与推理成本一直是限制技术普及的关键因素之一。近日,北京大学人工智能研究院助理教授张牧涵团队在鲲鹏昇腾科教创新卓越中心(简称“卓越中心”)提供的算力支持下,成功研发出一套高效的大模型训练推理架构,实现了百万tokens输入成本低至1元,为产业提供了高效能、低成本的解决方案。

      此研究成果包括三项关键技术创新。首先,目前广泛使用的相对位置编码存在较大的稀疏性,团队通过将每个注意力头中的位置信息和非位置信息分离,对位置编码进行了低秩压缩,仅使用3%的位置信息,即可维持原有表达能力。该方法通过优化昇腾硬件的flash-attention算子,使得注意力头的参数得到更高效利用。

      第二,非位置编码信息在原始模型中通常处于被抑制状态。通过将位置编码与非位置编码分离,非位置编码得到了较大的压缩空间。团队采用了联合KV的低秩压缩方法,仅保留12.5%的KV Cache即可维持原始模型的能力。这一方法能够有效利用昇腾硬件高效的计算能力,减轻访存压力,显著提升推理效率。

      最后,基于昇腾硬件在出色的并行计算能力,团队实现的Recurrent Decoding(RD)技术通过替换LM-head提升了训练数据利用率并加速了推理。在训练阶段,RD通过将解码出的多个tokens与target tokens进行对比,实现了训练数据的高效利用;在推理阶段,结合投机推理显著提高了tokens的采样通过率,进而提升了推理速度。

      这一成果得到了学术界的广泛关注,不仅为科研提供了可复用的高效架构,也为AI大模型在企业中的应用大幅降低了成本。自去年6月成立以来,北京大学与华为在产业前沿课题的联合攻关持续推进,本次成果验证了昇腾算力平台支撑尖端科研的技术实力。卓越中心将继续深入开展大模型关键技术创新,为构建中国技术生态提供坚实支撑。

    中文科技资讯微信二维码logo

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    海报生成中...

    [No.S132]

    最新新闻

    热门新闻

    即时

    全球顶级AI创作社区回归!海艺AI国内首发“全民娱乐化创作

    海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。

    新闻

    市场占比高达35.8%,阿里云引领中国AI云增长

    9月9日,国际权威市场调研机构英富曼(Omdia)发布了《中国AI云市场,1H25》报告。中国AI云市场阿里云占比8%位列第一。

    企业IT

    “三位一体”数据保护体系,筑牢企业出海安全“生命

    戴尔科技一直致力于通过“三位一体”数据保护体系,为中国企业的数据安全“保驾护航”。

    3C消费

    雅马哈推出两款高端头戴耳机YH-4000与YH-C3000

    雅马哈昨日宣布推出两款头戴式耳机,分别是平板振膜的YH-4000和动圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清洁机器人出货量同比暴

    IDC今日发布的《全球智能家居清洁机器人设备市场季度跟踪报告,2025年第二季度》显示,上半年全球智能家居清洁机器人市场出货1,2万台,同比增长33%,显示出品类强劲的市场需求。