4月24日,昆仑万维宣布正式开源其多模态推理模型Skywork-R1V2.0(以下简称R1V2.0)。这一升级版本在视觉与文本推理能力上均实现了显著提升,特别是在高考理科难题的深度推理和通用任务场景中表现出色,堪称当前最均衡兼顾视觉与文本推理能力的开源多模态模型。
R1V2.0的开源,不仅是昆仑万维在多模态领域技术实力的体现,也为全球开发者和研究者提供了强大的工具,推动多模态生态建设。该模型在多个权威基准测试中刷新了开源SOTA纪录,展现出与商业闭源模型相媲美的能力。
R1V2.0在中文场景下的表现尤为突出,特别是在理科学科题目(数学、物理、化学)的推理效果上,堪称免费AI解题助手。该模型不仅在MMMU上取得73.6分的优异成绩,刷新开源SOTA纪录,还在Olympiad Bench上达到62.6分,显著领先其他开源模型。此外,在MathVision、MMMU-PRO与MathVista等多项视觉推理榜单中,R1V2.0均表现优异,多项能力已可媲美闭源商业模型。
在文本推理方面,R1V2.0在AIME2024和LiveCodeBench等挑战中分别取得了78.9分和63.6分,展现出人类专家级数学与代码理解能力。这些成绩表明,R1V2.0不仅在视觉推理上表现出色,在文本推理方面也具备卓越的能力。
Skywork-VL Reward模型为多模态强化学习提供了高质量的奖励信号,能够精准评估多模态推理模型长序列输出的整体质量。这一模型在视觉奖励模型评测榜单VL-RewardBench中取得了73.1的SOTA成绩,同时在纯文本奖励模型评测榜单RewardBench中也斩获了高达90.1的优异分数,全面展示了其在多模态和文本任务中的强大泛化能力。
MPO机制则通过引入多种损失函数协同优化,解决了大模型训练中“深度推理提升”与“通用能力保持”的难题。R1V2.0借助Skywork-VL Reward提供的偏好信号,引导模型进行偏好一致性优化,从而确保模型在多任务、多领域下具备良好的通用适应能力。此外,R1V2.0在训练深度推理能力时,采用了基于规则的群体相对策略优化GRPO方法,通过同组候选响应之间的相对奖励比较,引导模型学会更精准的选择和推理路径。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。