近日,香港大学与英伟达共同研发了一种新的视觉注意力机制,名为广义空间传播网络(GSPN),该机制在高分辨率图像生成方面取得了显著的突破。
传统的自注意力机制虽然在自然语言处理和计算机视觉领域取得了不错的效果,但在处理高分辨率图像时却面临计算量巨大和空间结构损失的双重挑战。传统的自注意力机制的计算复杂度为 O (N²),这使得处理长上下文时非常耗时,并且将二维图像转化为一维序列会导致空间关系的丢失。
为了解决这些问题,GSPN 采用了创新的二维线性传播方法,并结合 “稳定性–上下文条件” 理论,将计算复杂度降低到√N 级别,同时保留了图像的空间连贯性。这种新的机制大幅提升了计算效率,并在多个视觉任务上刷新了性能纪录。
GSPN 的核心技术包括两大部分:二维线性传播和稳定性 - 上下文条件。通过逐行或逐列的线扫描,GSPN 能够实现对二维图像的高效处理。与传统的注意力机制相比,GSPN 不仅减少了参数量,还保持了信息的完整传播。此外,研究人员还提出了稳定性 - 上下文条件,确保在长距离传播时系统的稳定性与可靠性。
在实验中,GSPN 展现出了卓越的性能。在图像分类任务中,GSPN 在5.3GFLOPs 的计算量下,实现了82.2% 的 Top-1准确率,超越了多种现有模型。在图像生成方面,GSPN 在处理256×256的任务时,生成速度提升了1.5倍。尤其在文本到图像生成任务中,GSPN 能够在16K×8K 分辨率下进行快速生成,推理时间加速超过84倍,展示了其在实际应用中的巨大潜力。
综上所述,GSPN 通过独特的设计理念和结构,使得视觉注意力机制在保持空间连贯性的同时,实现了计算效率的显著提升,为未来的多模态模型和实时视觉应用开辟了新的可能。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。