风自海而来|高端魔方循环扇在艾美特2025新品发布会重磅亮相谷歌官宣新系统Android XR正式发布!三星头显首发、支持所有安卓应用互联网企业家,正是拼搏好时候特斯拉中国上线高级智能召唤功能 支持多种停车位泊出意法半导体助力Quobly推进量子处理器制造美团企业版给出“简单公式”:成本、效率和体验如何兼顾?高通任命新CTO 将聚焦6G和AICounterpoint:2024Q3苹果iPhone出货量增长5%,稳居全球第二手机品牌中国移动户外小型一体化直流电源集采:采购规模约3.86万套微星雷影17性价比新爆款:AMD 7840HX+满血4060国补6080到手!国际星闪联盟互联互通测试专项成果发布生成式AI的版权困境:新线索表明OpenAI用游戏内容训练Sora视频生成模型第三方制造商众筹索尼 PS5 游戏机专用“AI 驱动散热器”:号称可降温9度消息称富士明年夏季推出X-E5紧凑型APSC相机,接替2021年 X-E4机型AMD升级游戏开发利器FidelityFX SDK 超分FSR 技术 3.1.3来袭Adobe上线“Project See Through”修图功能,利用AI模型充当CPL偏振镜消除照片窗户反射谷歌发布多模态直播 API:解锁看、听、说,开启 AI 音视频交互新体验消息称三星Galaxy S26 系列手机有望“大量使用”Exynos 芯片消息称HDMI 2.2规范将于2025年1月6日公布 带来更高带宽丰田发布纯电动SUV车型Urban Cruiser 2025布鲁塞尔车展亮相
  • 首页 > 云计算频道 > 大模型

    清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发

    2024年01月04日 11:43:44   来源:站长之家

      近期,GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下,出现了一系列性能优异的开源视觉模型。其中,LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。

      LLaVA是一个端到端训练的多模态大模型,它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合,具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型,拥有110亿个视觉参数和70亿个语言参数。

      另外,BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,已经在多个基准测试中优于LLaVA213B。这三种开源视觉模型在视觉处理领域具有极大的潜力。

      LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面,LLaVA的表现相对于GPT-4的评分达到了85%,在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时,能够全面而有逻辑地生成回答,并且可以以JSON格式输出。

      它不仅可以从图片中提取信息并回答问题,还可以将图片转化为JSON格式。LLaVA还可以识别验证码、识别图中的物体品种等,展现出了强大的多模态能力。在性能上接近GPT-4的情况下,LLaVA具有更高的成本效益,训练只需要8个A100即可在1天内完成。

      CogAgent作为在CogVLM基础上改进的开源视觉语言模型,拥有更多的功能和性能优势。它支持更高分辨率的视觉输入和对话答题,能够处理超高分辨率图像输入。

    image.png

      CogAgent还提供了可视化代理的能力,能够返回任何给定任务的计划、下一步行动和带有坐标的具体操作。它还增强了与图形用户界面相关的问题解答功能,可以处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。另外,通过改进预培训和微调,CogAgent还增强了OCR相关任务的能力。这些功能的提升使得CogAgent在多个基准测试上实现了最先进的通用性能。

      BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,具备更好的性能和商用能力。BakLLaVA在多个基准测试中优于LLaVA213B,并且可以在某些数据上进行微调和推理。虽然BakLLaVA在训练过程中使用了LLaVA的语料库,不允许商用,但BakLLaVA2则采用了更大的数据集和更新的架构,超越了当前的LLaVA方法,具备商用能力。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。