• 首页 > 云计算频道 > 大模型

    新微调方法LongLoRA可低成本提升LLM上下文理解能力

    2023年09月27日 15:52:26   来源:站长之家

      近日,麻省理工学院(MIT)与香港中文大学联手开发了一项名为LongLoRA的新微调方法,为大型预训练语言模型(LLM)的发展提供了全新的途径。这一方法被设计用来增强LLM对上下文的理解能力,而无需过多的计算资源,为经济型超大LLM的构建铺平了道路。

      LLM在自然语言处理领域发挥着巨大的作用,但通常需要巨大的计算资源来进行训练。文章指出,训练一个具有8192长度上下文的模型,相比于2048长度上下文,需要16倍的计算资源。而上下文长度实际上代表了LLM在回应给定提示时对整个上下文的清晰理解能力,这对于模型的性能至关重要。

      LongLoRA方法的创新之处在于研究人员采用了两种关键方法来拓展LLM的上下文理解能力。首先,他们采用了稀疏本地关注,具体是“shift short attention(S2-Attn)”方法,通过这一方法在Fine-tuning过程中,高效地实现了上下文的拓展,同时保持了与标准关注机制相似的性能水平。

      其次,研究人员重新审视了参数高效调优策略,发现结合可训练的嵌入和标准化方法的LoRA在上下文扩展方面非常有效。LongLoRA在多个任务中都获得了强大的实验结果,使用了LLaMA2模型,从7B/13B到70B不等。这一方法可以将模型的上下文从4k扩展到100k,适用于LLaMA27B,或者从32k扩展到LLaMA270B,而仅需要一台8× A100机器。值得注意的是,LongLoRA保持了原始模型架构,并与各种现有技术兼容。

      为了提高LongLoRA方法的实用性,研究团队还创建了LongQA数据集,用于监督Fine-tuning,包括超过3,000个问题-答案对,其中包含了详细的上下文。

      研究的关键发现包括对长序列语言建模的评估,研究发现,通过更长的上下文训练,模型的性能得到了提升,这显示了他们Fine-tuning方法的有效性。另外,研究还探讨了这些模型在单台机器上能够处理的最大上下文长度,发现即使在较小的上下文长度下,模型仍然表现出色。此外,研究还进行了基于检索的评估,测试了模型在寻找长对话中特定主题的任务中的表现,结果显示,这些模型在某些情况下甚至优于同类竞争模型,并且更高效地适应了开源数据。

      最近的讨论中,关于LLaMA和Falcon等语言模型的性能已经开始超越了更大模型(如GPT-4或PaLM),焦点逐渐从增加模型参数数量转向了上下文令牌数量或上下文长度的考虑。文章还引用了一项研究,指出与常见误解相反,较长的输入文本并不总是导致更好的输出。实际上,在将较长的文章输入模型(例如2000字)时,模型通常只能理解前700-800字的内容,之后生成的回应可能会变得不太连贯。这一现象类似于人类记忆的工作方式,信息的开头和结尾通常比中间部分更容易被记住。

      LongLoRA方法的推出为经济型超大LLM的发展提供了新的路径,通过优化上下文理解能力,降低了训练成本,有望推动自然语言处理领域的进一步发展。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    打造智慧养老,美的美颐享“AI语音呼救&一键呼救”荣耀夺

    由中国轻工业联合会指导,中国轻工业信息中心、中国轻工业发展研究中心、中国家用电器研究院联合主办的第二届全国轻工适老创新产品及智能健康解决方案大赛,11月23日在安徽芜湖重磅揭晓最终评选结果!   

    新闻探行数字人注册免费试用

    纯电版迈腾和帕萨特 大众ID旗舰轿车亮相上海车展

    上海车展正在火热进行中,一汽大众在2023上海车展中带来了ID家族的旗舰轿车产品,ID.7 VIZZION,新车基于MEB平台打造而来,预计将于今年下半年正式上市。

    企业IT探行数字人注册免费试用

    “产业互联网平台赋能企业数字化转型升级”游学走进

    5月18日,为了帮助中小企业解决定为难、运营难、资金难、人才难、资源难等问题,杭州市市场营销协会组织多家专业机构联合举办“名企游学,走进上市公司”活动,通过学习交流赋能中小企业更好地完成转型升级。此次活动走进“A股互联网第一股”浙江网盛生意宝股份有限公司。

    3C消费探行数字人注册免费试用

    装修也能更省心 京东装修自营业务为用户打造省时省钱

    5月18日,由京东携手爱空间整装举办的京东装修自营业务新品发布会暨京东联合爱空间整装新品媒体见面会正式召开。

    研究探行数字人注册免费试用

    QuestAuto 3月报告:新能源轿车活跃总数突破777万辆

    5月17日消息,QuestAuto数据显示,2023年3月,新能源轿车销量TOP10车系总体增长幅度都比较大,秦PLUS DM-i、海豚、Aion S、五菱宏光MINIEV、Model 3位居前五,销量分别为3.13万辆、2.77万辆、2.64万辆、2.32万辆、2.17万辆。