30分钟急救战!黑屏手机重生记京东百台空调送往四川20余家敬老机构 丹棱县敬老院送锦旗致谢一加亮相骁龙游戏技术赏,风驰游戏内核将迎来重大升级万亿AI推理芯片赛道!云天励飞“A+H”上市,能否跑得更快?AI办公的效率革命,金山办公从未被颠覆抖音:将搭建独立短剧内容合作平台2025 WAIC落幕,深谋科技以技术与落地破局具身智能赛道父母常为智能电视使用发愁?康佳电视G10新品给出完美解决方案苹果扛不住了?特朗普一刀砍到大动脉,iPhone17全系涨价7.48万元!比亚迪元UP加推新版:续航301km,便宜够用鸿蒙5.1启动升级!覆盖多款产品 AI实用新特性加码智能体验ChinaJoy首发?魅族22真来了,这一次能不负魅友吗?苹果官微翻车带火三星?iPhone 17新配色曝光,橙色太吸睛了吧洗衣机行业H1:“单寡头”格局依旧行业首例卫星救援!问界以“全生命周期守护”筑牢用户生命防线2025 WAIC:传统企业AI转型,迈向“智造进化论”“灯塔”引领,AI赋能丨生命科学行业的数字化进阶之小米 SU7 智驾赋能 1000 万 Clips!法拉利也慌了? 小米 SU7 智驾赋能 1000 万 Clips!法拉利也慌了?130万!仰望U8L鼎世版来了,冲击豪华越野SUV天花板!提“智”增效, 新涛再获“智能工厂”新荣誉! 30分钟急救战!黑屏手机重生记京东百台空调送往四川20余家敬老机构 丹棱县敬老院送锦旗致谢一加亮相骁龙游戏技术赏,风驰游戏内核将迎来重大升级万亿AI推理芯片赛道!云天励飞“A+H”上市,能否跑得更快?AI办公的效率革命,金山办公从未被颠覆抖音:将搭建独立短剧内容合作平台2025 WAIC落幕,深谋科技以技术与落地破局具身智能赛道父母常为智能电视使用发愁?康佳电视G10新品给出完美解决方案苹果扛不住了?特朗普一刀砍到大动脉,iPhone17全系涨价7.48万元!比亚迪元UP加推新版:续航301km,便宜够用鸿蒙5.1启动升级!覆盖多款产品 AI实用新特性加码智能体验ChinaJoy首发?魅族22真来了,这一次能不负魅友吗?苹果官微翻车带火三星?iPhone 17新配色曝光,橙色太吸睛了吧洗衣机行业H1:“单寡头”格局依旧行业首例卫星救援!问界以“全生命周期守护”筑牢用户生命防线2025 WAIC:传统企业AI转型,迈向“智造进化论”“灯塔”引领,AI赋能丨生命科学行业的数字化进阶之小米 SU7 智驾赋能 1000 万 Clips!法拉利也慌了? 小米 SU7 智驾赋能 1000 万 Clips!法拉利也慌了?130万!仰望U8L鼎世版来了,冲击豪华越野SUV天花板!提“智”增效, 新涛再获“智能工厂”新荣誉!
  • 首页 > 云计算频道 > 大模型

    参数小,性能强!开源多模态模型—TinyGPT-V

    2024年01月10日 10:07:11 来源:AIGC开放社区公众号

      安徽工程大学、南洋理工大学和理海大学的研究人员开源了多模态大模型——TinyGPT-V。

      TinyGPT-V以微软开源的Phi-2作为基础大语言模型,同时使用了视觉模型EVA实现多模态能力。尽管TinyGPT-V只有28亿参数,但其性能可以媲美上百亿参数的模型

      此外,TinyGPT-V训练只需要24G GPU就能完成,不需要A100、***那些高端显卡来训练。

      所以,非常适用于中小型企业和个人开发者,同时可以部署在手机、笔记本等移动设备上。

      开源地址:https://github.com/DLYuanGod/TinyGPT-V

      论文地址:https://arxiv.org/abs/2312.16862

      TinyGPT-V主要架构

      TinyGPT-V主要由大语言模型Phi-2、视觉编码器和线性投影层三大块组成。

      开发人员选择了微软最新开源的Phi-2,作为TinyGPT-V的基础大语言模型。Phi-2只有27亿参数,但理解和推理能力非常强,在多项复杂基准测试中体现出与大130亿参数模型接近或者超过的效果。

      视觉编码器采用了与MiniGPT-v2相同的架构,基于ViT的EVA模型。这是一个预训练好的视觉基础模型,在整个TinyGPT-V的训练过程中保持冻结状态。

      线性投影层的作用则是,将视觉编码器提取的图像特征嵌入到大语言模型中,使大语言模型能够理解图像信息

      TinyGPT-V中的第一层线性投影层采用了来自BLIP-2的Q-Former结构,这样可以最大程度复用BLIP-2的预训练成果。

      第二层线性投影层用新的高斯分布初始化,目的是弥补前一层输出和语言模型嵌入层之间的维度差距。

      TinyGPT-V训练流程

      TinyGPT-V的训练经过了四个阶段,每个阶段所使用的数据集及实验流程各不相同。

      第一阶段是热身训练,目的是使Phi-2模型适应图像模式的输入。这个阶段使用的训练数据包含Conceptual Caption、SBU和LAION三个数据集,总计约500万幅图像和对应的描述文本。

      第二阶段进行预训练,目的是进一步减少图像文本对上的损失。这个阶段同样使用第一阶段的Conceptual Caption、SBU和LAION数据集。实验设置了4个阶段,每个阶段有5000个迭代。

      第三阶段进行指令调优,使用MiniGPT-4和LLaVA的一些带指令的图像文本对进行模型训练,如“描述这张图片的内容”。

      第四阶段进行多任务调优。这一阶段使用了更为复杂和丰富的多模态数据集,如LLaVA中复杂语义对齐的句子、Flickr30K中的物体解析数据集、多任务混合语料、纯文本语料等。

      同时采用了与第二阶段类似的学习率策略,最终使得损失从2.720下降到了1.399。

      为了测试TinyGPT-V的性能,研究人员从多个角度评估了在视觉问答、视空间推理、图片字幕生成等多个视觉语言任务上的表现。

      结果显示,TinyGPT-V的参数很小,性能却非常强悍,例如,在VSR空间推理任务上,以53.2%的准确率,超过所有参与测试的模型。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    海报生成中...

    最新新闻

    热门新闻

    即时

    全球顶级AI创作社区回归!海艺AI国内首发“全民娱乐化创作

    海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。