京东心动购物季即将开启 学而思xPad Pro PLUS会员到手不高于7899元520来京东搜“京东老友季” 听红衣教主聊AI的那些事520买礼物就选博朗亲肤6系剃须刀礼盒 京东比李佳琦便宜70元以旧换新至高减20% 京东家电家居618 “购新”更超值飞利浦蜂巢7系列京东家电家居采销直播间比李佳琦便宜155元飞利浦蜂巢7系列京东家电家居采销直播间比李佳琦便宜155元CHIMA现场|“智慧医院云文档中心”成功发布,上海CA医疗行业数字信任方案备受关注擎朗医疗携全新一代Gen 2物流机器人亮相CHCC2024,助力医院数智化建设OpenAI“宫斗”第二季?消息称“超级对齐”团队已解散,成立不到 1 年2023 年我国卫星导航与位置服务产值超 5300 亿元,同比增长 7.09%下单到收货不到一刻钟,河南开启首批低空无人机物流配送航线杭温高铁开启联调联试,建成后杭州到温州 1 小时到达上海临港发布首批数据跨境一般数据清单,涉及智能网联汽车、公募基金、生物医药 3 大领域上海:将加快开源人形机器人原型机研发,2025 年重点行业机器人密度达 500 台 / 万人618前夕淘宝升级多款商家AI工具,面向商家免费开放崛起!一文速看云计算“国家队”五大突破!消息称中国一汽将加入蔚来换电联盟IDC:今年Q1中国平板电脑出货 713 万台同比增 6.6%,华为259万台位居第一构建离产业最近的AI,腾讯云公布多项大模型产品进展谷歌Pixel 8 手机运行 ChromeOS 项目现阶段仅为概念验证
  • 首页 > 云计算频道 > 大模型

    天工一刻 | 一文看懂MoE混合专家大模型

    2024年05月07日 14:58:36   来源:DoNews

      随着大模型技术迎来颠覆性突破,新兴AI应用大量涌现,不断重塑着人类、机器与智能的关系。

      为此,昆仑万维集团重磅推出《天工一刻》系列产业观察栏目。在本栏目中,我们将对大模型产业热点、技术创新、应用案例进行深度解读,同时邀请学术专家、行业领袖分享优秀的大模型行业趋势、技术进展,以飨读者。

      MoE混合专家大模型最近究竟有多火?

      举个例子,在此前的GTC 2024上,英伟达PPT上的一行小字,吸引了整个硅谷的目光。

      “GPT-MoE 1.8T”

      这行小字一出来,X(推特)上直接炸锅了。

      “GPT-4采用了MoE架构”,这条整个AI圈疯传已久的传言,竟然被英伟达给“无意中”坐实了。消息一出,大量AI开发者们在社交平台上发帖讨论,有的看戏吐槽、有的认真分析、有的开展技术对比,一时好不热闹。

      MoE大模型的火热,可见一斑。

      近半年多以来,各类MoE大模型更是层出不穷。在海外,OpenAI推出GPT-4、谷歌推出Gemini、Mistral AI推出Mistral、连马斯克xAI的最新大模型Grok-1用的也是MoE架构。

      而在国内,昆仑万维也于今年4月17日正式推出了新版MoE大语言模型「天工3.0」,拥有4000亿参数,超越了3140亿参数的Grok-1,成为全球最大的开源MoE大模型。

      MoE究竟是什么?它有哪些技术原理?它的优势和缺点是什么?它又凭什么能成为当前最火的大模型技术?

      以上问题,本文将逐一回答。

      MoE核心逻辑:术业有专攻

      MoE,全称Mixture of Experts,混合专家模型。

      MoE是大模型架构的一种,其核心工作设计思路是“术业有专攻”,即将任务分门别类,然后分给多个“专家”进行解决。

      与MoE相对应的概念是稠密(Dense)模型,可以理解为它是一个“通才”模型。

      一个通才能够处理多个不同的任务,但一群专家能够更高效、更专业地解决多个问题。

      (图片来源:《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》)

      上图中,左侧图为传统大模型架构,右图为MoE大模型架构。

      两图对比可以看到,与传统大模型架构相比,MoE架构在数据流转过程中集成了一个专家网络层(红框部分)。

      下图为红框内容的放大展示:

      (图片来源:Zian (Andy) Wang)

      专家网络层的核心由门控网络(Gating Network)和一组专家模型(Experts)构成,其工作流程大致如下:

      1、数据首先会被分割多个区块(Token),每组数据进入专家网络层时,首先会进入门控网络。

      2、门控网络将每组数据分配给一个或多个专家,每个专家模型可以专注于处理该部分数据,“让专业的人做专业的事”。

      3、最终,所有专家的输出结果汇总,系统进行加权融合,得到最终输出。

      当然,以上只是一个概括性描述,关于门控网络的位置、模型、专家数量、以及MoE与Transformer架构的具体结合方案,各家方案都略有差别,但核心思路是一致的。

      与一个“通才网络”相比,一组术业有专攻的“专家网络”能够提供更好的模型性能、更好地完成复杂的多种任务,同时,也能够在不显著增加计算成本的情况下大幅增加模型容量,让万亿参数级别的大模型成为可能。

      Scaling Law:让模型更大

      MoE之所以受到整个AI大模型行业的追捧,一个核心的原因是——今天的大模型,正迫切地需要变得更大。

      而这一切的原因,则要追溯到Scaling Law。

      Scaling Law,规模定律,也译为缩放定律。这不是一个严格的数学定律,它只是用来描述物理、生物、计算机等学科中关于系统复杂属性变化的规律。

      而在大语言模型里,从Scaling Law能够衍生出一个通俗易懂的结论:

      “模型越大,性能越好。”

      更准确的描述是:当AI研究人员不断增加大语言模型的参数规模时,模型的性能将得到显著提升,不仅能获得强大的泛化能力,甚至出现智能涌现。

      自人工智能诞生以来,人们一直试图设计出更巧妙的算法、更精密的架构,希望通过人类的智慧将机器设计得更聪明,达到通用人工智能。

      但以OpenAI为代表的业内另一种声音说:“我反对!”

      2019年,机器学习先驱Rich Sutton曾经发表过一篇经典文章《The Bitter Lesson》,该文几乎被全体OpenAI成员奉为圭臬。

      文中认为,也许这种传统方法是一种错误的思路;也许试图用人类智慧设计出通用人工智能的这个路径,在过去几十年间,让整个行业都走了大量弯路,付出了苦涩的代价。

      而真正正确的路径是:不断扩大模型规模,再砸进去天文数字的强大算力,让Scaling Law创造出更“聪明”的人工智能,而不是靠人类自己去设计。

      在这一轮大模型火起来之前,遵循这一思路的科学家一直是业内的少数派,但自从GPT路线在自然语言处理上大获成功之后,越来越多研究人员加入这一阵列。

      追求更大的模型,成为了人工智能性能突破的一大核心思路。

      然而问题随之而来。

      众所周知,随着大模型越来越大,模型训练的困难程度、资源投入、训练时间都在指数型提升,可模型效果却无法保证等比例提升。

      随着模型越来越大,稳定性也越来越差,种种综合原因让大模型参数量长久以来限制在百亿与千亿级别,难以进一步扩大。

      如何在有限的计算资源预算下,如何训练一个规模更大、效果更好的大模型,成为了困扰行业的问题。

      此时,人们将目光投向了MoE。

      MoE:突破万亿参数大关

      早在1991年,两位人工智能界的泰斗Michael Jordan与Geoffrey Hinton就联手发布了MoE领域的奠基论文《Adaptive Mixtures of Local Experts》,正式开创了这一技术路径。

      2020年,《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》论文又首次将MoE技术引入到Transformer架构中,拉开了“MoE+大模型”的大幕。

      2022年,Google《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》论文中提出的MoE大模型更是一举突破了万亿参数大关。

      Switch Transformers模型参数达到1.57万亿,与此前的T5模型相比,在相同的计算资源下获得高达7倍的模型预训练速度提升,并实现了4倍的模型加速。

      而正如文章开头所言,本届GTC上英伟达侧面证实了那个公认的传言:OpenAI在2023年推出的GPT-4,同样采用了MoE架构,其模型效果与计算效率都得到了显著提升。

      总结起来,MoE在大模型领域的优势包括:

      1、与传统的Dense模型相比,MoE能够在远少于前者所需的计算资源下进行有效的预训练,计算效率更高、速度更快,进而使得模型规模得到显著扩大,获得更好的AI性能。

      2、由于MoE在模型推理过程中能够根据输入数据的不同,动态地选择不同的专家网络进行计算,这种稀疏激活的特性能够让模型拥有更高的推理计算效率,从而让用户获得更快的AI响应速度。

      3、由于MoE架构中集成了多个专家模型,每个专家模型都能针对不同的数据分布和构建模式进行搭建,从而显著提升大模型在各个细分领域的专业能力,使得MoE在处理复杂任务时性能显著变好。

      4、针对不同的专家模型,AI研究人员能够针对特定任务或领域的优化策略,并通过增加专家模型数量、调整专家模型的权重配比等方式,构建更为灵活、多样、可扩展的大模型。

      不过,天下没有免费的性能提升,在拥有种种优势之于,MoE架构也存在着不少挑战。

      由于MoE需要把所有专家模型都加载在内存中,这一架构对于显存的压力将是巨大的,通常涉及复杂的算法和高昂的通信成本,并且在资源受限设备上部署受到很大限制。

      此外,随着模型规模的扩大,MoE同样面临着训练不稳定性和过拟合的问题、以及如何确保模型的泛化性和鲁棒性问题、如何平衡模型性能和资源消耗等种种问题,等待着大模型开发者们不断优化提升。

      结语

      总结来说,MoE架构的核心思想是将一个复杂的问题分解成多个更小、更易于管理的子问题,并由不同的专家网络分别处理。这些专家网络专注于解决特定类型的问题,通过组合各自的输出来提供最终的解决方案,提高模型的整体性能和效率。

      当前,MoE仍旧是一个新兴的大模型研究方向,研究资料少、资源投入大、技术门槛高,其研发之初仍旧以海外巨头为主导,国内只有昆仑万维等少数玩家能够推出自研MoE大模型。

      不过,值得注意的是,虽然以扩大模型参数为核心的“暴力出奇迹”路线主导了当前的人工智能行业研究,但时至今日也没有人能拍着胸脯保证,Scaling Law就是人类通往通用人工智能的唯一正确答案。

      从1991年正式提出至今,MoE架构已历经了30年岁月;深度神经网络更是70年前就已提出的概念,直到近十多年间才取得突破,带领人类攀上人工智能的又一座高峰。

      MoE不是人工智能技术前进道路的终点,它甚至不会是大模型技术的最终答案。未来,还将有大量感知、认知、计算、智能领域的挑战摆在研究者面前,等待着人们去逐一解决。

      所幸的是,怕什么真理无穷,进一寸有一寸的欢喜。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    中兴二合一 5G 云电脑“逍遥”系列上架:一键切换双模式,

    5 月 10 日消息,据中兴通讯官微,中兴二合一 5G 云电脑“逍遥”系列已经在电商平台上架。其支持本地、云端双模式,可在电脑与平板模式之间一键切换。售价方面,型号为 W200DS 的产品首销价格为 1899 元。

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。