出色,出彩,出众!爱普生合作伙伴润天智携彩神亮相德鲁巴兄弟网络扫描仪ADS-1350W上市Omdia:2024年上半年中国制造的智能手表OLED出货量占比突破60%三星加大AI研发力度:挖角苹果前Siri高管 领导新成立“北美AI中心”微软暂停Win11 24H2预览版更新 因新功能问题太多诺基亚3210复刻版被疯抢!年轻人为何喜欢上老年机智慧机械·创新未来 | 思看科技 X 浙大机械工程学院产教融合研讨会成功举办!思看科技三维视觉数字化技术,加速形成新质生产力的全新引擎!先进封装钻孔加工不易开裂,电气硝子推出新型玻璃-陶瓷基板 GC Core传字节跳动要用锤子团队造手机 官方回应:目前没有计划Gartner发布通信人工智能全球魔力象限,亚信科技荣登“领导者”象限联发科拥抱PC市场:为微软AI笔记本设计Arm架构芯片Fuchsia OS 还在开发,谷歌向 Mesa 3D 添加新系统初步支持首次位列全球第三,TrendForce 报告中芯国际 2024 Q1 晶圆代工产值仅次于台积电、三星传音将研究东南亚地区人像肤色,TECNO 与南洋理工大学 ACRC 达成合作中国移动完成ITU-T首个5G新通话(VoNR+)标准项目结项极氪将新增16%营销服务人员,目标年内门店数量达520家为摆脱财务困境 超跑制造商迈凯伦也将进军SUV市场IDC:中国新能源乘用车市场规模将在2028年突破两千万大关仅次于中国 2023年德国电动汽车产量位居全球第二
  • 首页 > 云计算频道 > 大模型

    苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

    2024年04月09日 17:09:11   来源:站长之家

      苹果公司近日发布了一款名为MLLLLM Ferret-UI的新型机器学习语言模型,旨在提升对移动应用用户界面(UI)的理解。这款模型经过特别优化,能够处理移动UI屏幕上的各种任务,并具备指向、定位和推理等能力。业界普遍猜测,这一技术可能会被应用在即将发布的iOS18中,提供类似通过Siri自动操作应用界面的功能。

      Ferret-UI模型是专为提高对移动UI屏幕理解而设计的MLLM。它的一个关键特点是“任何分辨率”技术,该技术通过放大细节来解决UI屏幕中小型对象的识别问题,从而显著提高模型对UI元素的理解精度。

      UI屏幕的理解是一个复杂的问题,因为它不仅要求模型能够理解屏幕上的内容,还要能够识别和操作具体的UI元素。与传统的自然图像相比,UI屏幕通常具有更多的长宽比和更小的元素,这些元素对于模型来说是一个挑战。

      为了克服这些挑战,Ferret-UI采用了“任何分辨率”技术。该技术通过将屏幕分割成基于原始宽高比的子图像,并对每个子图像进行单独编码,从而在不丢失重要视觉信号的情况下放大细节。这种方法使得模型能够更准确地识别和理解UI屏幕上的小型对象。

      在训练Ferret-UI时,收集了从基础UI任务到高级任务的广泛数据样本。这些样本被格式化为带有区域注释的指令遵循格式,以便于模型进行精确的引用和定位。此外,为了提高模型的推理能力,还特别编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。

      Ferret-UI的架构基于已经在自然图像的引用和定位任务中表现出色的Ferret模型。为了适应UI屏幕的特点,Ferret-UI进行了架构调整,包括集成“任何分辨率”技术和使用预定义的网格配置来划分全图图像。此外,为了全面评估模型的能力,还建立了一个包含所有研究任务的综合测试基准。

      在高级任务中,Ferret-UI的对话能力表现突出,尤其是在详细描述和交互对话任务中。模型能够生成与视觉组件相关的详细讨论,并提出以特定目标为导向的行动计划。此外,Ferret-UI还能够通过功能推断来解释屏幕的整体目的,显示出在理解和生成自然语言指令方面的高级能力。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    数智技术助力爆品营销策略,多款新品火爆点燃中国休闲卤制

    四月中旬,为庆祝绝味鸭脖创立19周年,绝味鸭脖更是以“19岁,绝美青春”作为周年庆主题,推出全新“爆耐撕绝绝脂大刀肉片”,并从产品卖点出发,整合全渠道资源进行营销传播,收获消费者的一致好评,全网声量火爆,线下好评如潮。

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。