• 首页 > 云计算频道 > 大模型

    基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了

    2024年03月11日 10:55:36   来源:机器之心公众号

      众所周知,开发顶级的文生图(T2I)模型需要大量资源,因此资源有限的个人研究者基本都不可能承担得起,这也成为了 AIGC(人工智能内容生成)社区创新的一大阻碍。同时随着时间的推移,AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。

      于是关键的问题来了:我们能以怎样的方式将这些新元素高效地整合进现有模型,依托有限的资源让模型变得更强大?

      为了探索这个问题,华为诺亚方舟实验室等研究机构的一个研究团队提出一种新的训练方法:由弱到强式训练(weak-to-strong training)。

      他们的研究基于他们去年十月提出的一种高效的文生图训练方法 PixArt-α,参阅机器之心报道《超低训练成本文生图模型 PixArt 来了,效果媲美 MJ,只需 SD10% 训练时间》。PixArt-α 是 DiT(扩散 Transformer)框架的一种早期尝试。而现在,随着 Sora 登上热搜以及 Stable Diffusion 层出不穷的应用,DiT 架构的有效性得到了研究社区越来越多工作的验证,例如 PixArt, Dit-3D, GenTron 等「1」。

      该团队使用 PixArt-α 的预训练基础模型,通过整合高级元素以促进其持续提升,最终得到了一个更加强大的模型 PixArt-Σ。图1展示了一些生成结果示例。

      PixArt-Σ 如何炼成?

      具体来说,为了实现由弱到强式训练,造出 PixArt-Σ,该团队采用了以下改进措施。

      更高质量的训练数据

      该团队收集了一个高质量数据集 Internal-Σ,其主要关注两个方面:

      (1) 高质量图像:该数据集包含3300万张来自互联网的高分辨率图像,全都超过1K 分辨率,包括230万张分辨率大约为4K 的图像。这些图像的主要特点是美观度高并且涵盖广泛的艺术风格。

      (2) 密集且准确的描述:为了给上述图像提供更精准和详细的描述,该团队将 PixArt-α 中使用的 LLaVA 替换成了一种更强大的图像描述器 Share-Captioner。

      不仅如此,为了提升模型对齐文本概念和视觉概念的能力,该团队将文本编码器(即 Flan-T5)的 token 长度扩展到了大约300词。他们观察到,这些改进可以有效消除模型产生幻觉的倾向,实现更高质量的文本 - 图像对齐。

      下表1展示了不同数据集的统计数据。

      高效的 token 压缩

      为了增强 PixArt-α,该团队将其生成分辨率从1K 提升到了4K。为了生成超高分辨率(如2K/4K)的图像,token 数量会大幅增长,这就会导致计算需求大幅增长。

      为了解决这一难题,他们引入了一种专门针对 DiT 框架调整过的自注意力模块,其中使用了键和值 token 压缩。具体来说,他们使用了步长为2的分组卷积来执行键和值的局部聚合,如下图7所示。

      此外,该团队还采用了一种专门设计的权重初始化方案,可在不使用 KV(键 - 值)压缩的前提下从预训练模型实现平滑适应。这一设计可有效将高分辨率图像生成的训练和推理时间降低大约34%。

      由弱到强式训练策略

      该团队提出了多种微调技术,可快速高效地将弱模型调整为强模型。其中包括:

      (1) 替换使用了一种更强大的变分自动编码器(VAE):将 PixArt-α 的 VAE 替换成了 SDXL 的 VAE。

      (2) 从低分辨率到高分辨率扩展,这个过程为了应对性能下降的问题,他们使用了位置嵌入(PE)插值方法。

      (3) 从不使用 KV 压缩的模型演进为使用 KV 压缩的模型。

      实验结果验证了由弱到强式训练方法的可行性和有效性。

      通过上述改进,PixArt-Σ 能以尽可能低的训练成本和尽可能少的模型参数生成高质量的4K 分辨率图像。

      具体来说,通过从一个已经预训练的模型开始微调,该团队仅额外使用 PixArt-α 所需的9% 的 GPU 时间,就得到了能生成1K 高分辨率图像的模型。如此表现非常出色,因为其中还替换使用了新的训练数据和更强大的 VAE。

      此外,PixArt-Σ 的参数量也只有0.6B,相较之下,SDXL 和 SD Cascade 的参数量分别为2.6B 和5.1B。

      PixArt-Σ 生成的图像的美观程度足以比肩当前最顶级的文生图产品,比如 DALL・E3和 MJV6。此外,PixArt-Σ 还展现出了与文本 prompt 细粒度对齐的卓越能力。

      图2展示了一张 PixArt-Σ 生成4K 高分辨率图像的结果,可以看到生成结果很好地遵从了复杂且信息密集的文本指令。

      实验

      实现细节

      训练细节:对于执行条件特征提取的文本编码器,该团队按照 Imagen 和 PixArt-α 的做法使用了 T5的编码器(即 Flan-T5-XXL)。基础扩散模型就是 PixArt-α。不同于大多数研究提取固定的77个文本 token 的做法,这里将文本 token 的长度从 PixArt-α 的120提升到了300,因为 Internal-Σ 中整理的描述信息更加密集,可以提供高细粒度的细节。另外 VAE 使用了来自 SDXL 的已预训练的冻结版 VAE。其它实现细节与 PixArt-α 一样。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    中兴二合一 5G 云电脑“逍遥”系列上架:一键切换双模式,

    5 月 10 日消息,据中兴通讯官微,中兴二合一 5G 云电脑“逍遥”系列已经在电商平台上架。其支持本地、云端双模式,可在电脑与平板模式之间一键切换。售价方面,型号为 W200DS 的产品首销价格为 1899 元。

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。