JetMoE-8B是一款采用稀疏激活架构的人工智能模型,其性能卓越且训练成本不到10万美元,令人惊讶的是,它的表现甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。
JetMoE-8B由24个块组成,每个块包含两个MoE层:注意力头混合(MoA)和MLP专家混合(MoE)。每个MoA和MoE层有8个专家,并且每个输入令牌激活2个专家。这种独特的设计使得在不牺牲性能的情况下显著降低了计算成本。
值得一提的是,尽管JetMoE-8B的总参数量达到80亿,但由于其特殊的架构设计,每个输入令牌仅激活约22亿参数,从而大大减少了总体的计算需求。
此外,JetMoE-8B的训练完全依赖于公开数据,并且整个训练过程,包括代码,都是完全开源的,这无疑为AI领域的研究和应用提供了极大的便利。
在与Open LLM排行榜相同的评估方法下,JetMoE-8B的性能表现优于LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B,这一结果无疑是对其高效性能的最好证明。
与此同时,与具有类似训练和推理计算的模型(如Gemma-2B)相比,JetMoE-8B展示了更优异的表现。这不仅证明了其在性能上的优势,也展示了其在成本效益上的显著优势。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
近日,德国柏林国际电子消费品展览会(IFA2024)隆重举办。凭借在核心技术、产品设计及应用方面的创新变革,全球领先的智能终端企业TCL实业成功斩获两项“IFA全球产品设计创新大奖”金奖,有力证明了其在全球市场的强大影响力。
近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。