LanzaJet与微软达成合作 采用Azure云平台加速全球业务扩展字节入局,AR眼镜掀起新“风口”?载誉启新程|TCL光伏科技SNEC 2025圆满收官,感恩同行阿里云”618创新加速季“开启:先进、领先的大模型限免 超7000万token,加速多场景AI应用落地景德镇国家陶瓷版权交易中心现货通&未来云启揭幕仪式圆满举行字节火山引擎澄清与老凤祥 AI 智能眼镜合作传闻微软发布700个真实AI案例,探索智能化工作新模式AI检测新突破!首个图像与视频的可解释性检测框架正式登场AI协作显神威!斯坦福研究揭示医疗诊断准确率提高 10%微软开源Azure DevOps 本地 MCP 服务器:在VS Code中无缝管理DevOps任务与YU7同台登场!小米MIX Flip 2月底发布:骁龙8至尊版满配性能高德已可用 华为李小龙:Pura80系列支持长隧道车道级导航定位雷军预告小米平板7S Pro月底杀到!自研3nm玄戒O1芯片正被小米扩大使用联发科史上最强SoC!天玑9500首个跑分出炉:首发X930超大核小米首款真AI智能眼镜来了:双芯架构、自带镜头iPhone存储贵如黄金!拿去扩容前,你必须搞清这4个问题续航破1200km!小米加码固态电池,雷军造车的又一杀器曝光智慧家庭 “抢滩” 正酣,谁能率先“上岸”?果粉狂欢!京东618入手iPhone 16 Pro系列至高优惠3800元智慧清洁引领变革 : 霞智科技助力百强物业实现智能化转型
  • 首页 > 云计算频道 > 大模型

    字节Seed开源UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体

    2025年04月18日 11:20:42   来源:IT之家

      从豆包大模型团队获悉,UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。

    1.jpg

      UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”

      该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。

      据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索:

      视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。

      System 2 推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。

      统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。

      可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。