腾讯混元大模型家族今日宣布迎来新成员 —— 混元-A13B 模型发布并开源。
混元-A13B 作为基于专家混合(MoE)架构的大模型,总参数 800 亿、激活参数 130 亿,号称“在效果比肩顶尖开源模型的同时,大幅降低推理延迟与计算开销”。
腾讯混元表示,这对个人开发者和中小企业来说,无疑是个好消息,极端条件下仅需 1 张中低端 GPU 卡即可部署。用户可以在 Github、HuggingFace 等技术社区下载使用,模型 API 已在腾讯云官网上线。
混元-A13B 模型通过 MoE 架构,为每个输入选择性地激活相关模型组件,号称与同等规模的密集模型相比“又快又省”,而且为个人开发者和中小企业提供了一个“可扩展且高效的替代方案”。
预训练中,模型用了 20 万亿高质量网络词元语料库,提升了模型推理能力的上限;完善了 MoE 架构的 Scaling Law(即规模定律)理论体系,为 MoE 架构设计提供了可量化的工程化指导,提升了模型预训练效果。
用户可以按需选择思考模式,快思考模式提供简洁、高效的输出,适合追求速度和最小计算开销的简单任务;慢思考模式涉及更深、更全面的推理步骤。这优化了计算资源分配,兼顾效率和准确性。
混元还开源了两个新数据集,以填补行业内相关评估标准的空白。其中,ArtifactsBench 主要用于代码评估,构建了一个包含 1825 个任务的新基准;C3-Bench 针对 Agent 场景模型评估,设计了 1024 条测试数据,以发现模型能力的不足。
从具体效果来看,数学推理方面,例如输入“9.11 和 9.9 谁大”,模型可准确完成小数比较,并展现分步解析能力。
对于时下热门的智能体(Agent)应用,模型可调用工具,生成出行攻略、数据文件分析等复杂指令响应。
再看数据和效果。在多个公开数据测试集上,模型在数学、科学和逻辑推理任务上表现出“领先效果”。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
海报生成中...
据悉,海尔青岛洗衣机互联工厂日前成功通过国际BSCI认证审核。这不仅是对其在企业社会责任、员工权益保障、可持续发展方面出色表现的高度认可,更标志着海尔青岛洗衣机互联工厂全面达到了国际公认的领先标准。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。