京东心动购物季即将开启 学而思xPad Pro PLUS会员到手不高于7899元520来京东搜“京东老友季” 听红衣教主聊AI的那些事520买礼物就选博朗亲肤6系剃须刀礼盒 京东比李佳琦便宜70元以旧换新至高减20% 京东家电家居618 “购新”更超值飞利浦蜂巢7系列京东家电家居采销直播间比李佳琦便宜155元飞利浦蜂巢7系列京东家电家居采销直播间比李佳琦便宜155元CHIMA现场|“智慧医院云文档中心”成功发布,上海CA医疗行业数字信任方案备受关注擎朗医疗携全新一代Gen 2物流机器人亮相CHCC2024,助力医院数智化建设OpenAI“宫斗”第二季?消息称“超级对齐”团队已解散,成立不到 1 年2023 年我国卫星导航与位置服务产值超 5300 亿元,同比增长 7.09%下单到收货不到一刻钟,河南开启首批低空无人机物流配送航线杭温高铁开启联调联试,建成后杭州到温州 1 小时到达上海临港发布首批数据跨境一般数据清单,涉及智能网联汽车、公募基金、生物医药 3 大领域上海:将加快开源人形机器人原型机研发,2025 年重点行业机器人密度达 500 台 / 万人618前夕淘宝升级多款商家AI工具,面向商家免费开放崛起!一文速看云计算“国家队”五大突破!消息称中国一汽将加入蔚来换电联盟IDC:今年Q1中国平板电脑出货 713 万台同比增 6.6%,华为259万台位居第一构建离产业最近的AI,腾讯云公布多项大模型产品进展谷歌Pixel 8 手机运行 ChromeOS 项目现阶段仅为概念验证
  • 首页 > 企业IT频道 > 软件即服务

    超强Siri即将到来!苹果10篇重磅AI研究全总结,iOS 18关键一瞥

    2024年05月08日 09:41:38   来源:新智元公众号

      一直以来,苹果在大模型、语音助手上的研究不断推陈出新,或许我们能够从中获得iOS 18所具备AI能力的关键一瞥。

      「Siri太笨,根本无法与ChatGPT竞争」,前苹果工程师John Burkey曾对Siri的评价如此不堪。

      不过,诞生于11年的Siri,终于要迎来翻身的机会。

      ChatGPT横空出世之后,微软、谷歌等科技巨头,甚至OpenAI、Anthorpic AI等初创,都在你追我赶激烈地角逐。

      在AI竞赛上,苹果却一直姗姗来迟。

      其实,早有传言和报道称,在过去几个月中,苹果实际上一直再等待一个时机,做出反击。

      先是与谷歌谈判被爆出,后是与OpenAI开展合作,预计将AI模型能力整合进下一代iOS 18系统中。

      除此以外,苹果研究团队也在一直开发自己的模型——Ajax。

      而且,最近几个月,苹果在大模型等研究上的成果频出,意味着这些AI能力可能会成为现实。

      距6月开发者大会WWDC,也就不过一个月左右的时间,或许我们可以从这些研究中,一瞥苹果的AI能力。

      更小、更高效LLM装进iPhone

      相信所有人的期望都是一样的——想要一个更好的Siri。

      而现在看起来,换新的Siri即将到来,完成超强进化!

      ChatGPT之后,大模型诞生的数量也是数不胜数,然而许多科技公司都希望LLM能够赋能虚拟助手,让其变得更优秀,更智能。

      对于苹果来说,想要让Siri不再被人,说笨就需要尽快构建这些模型,让其能装进手机。

      彭博最近报道,在iOS 18中,苹果计划让所有AI功能,都运行在设备上,而且可以完全离线使用。

      而现在的困难是,即便你有一个数据中心和数千个GPU组成的网络,要建立一个良好的多用途的模型,并装进手机,是非常困难的。

      因此,苹果不得不发挥创意。

      在一篇名为LLM in a flash: Efficient Large Language Model Inference with Limited Memory的论文中,研究人员设计了一个系统,可以将通常存储在设备RAM中的模型数据,存储到固态硬盘(SSD)上。

      具体来说,研究证明了,在SSD上运行的LLM的大小,可以达到可用DRAM的2倍。

      与传统的CPU加载方法相比,推理速度提高了4-5倍,而GPU提高了20-25倍。

      他们发现 ,通过利用设备上最廉价的可用存储模型,模型可以运行得更快、更高效。

      此外,苹果的研究人员还创建了,一个名为EELBERT的系统,可以将大模型压缩到更小的规模,同时不影响其性能。

      通过对谷歌Bert模型进行压缩后,体积缩小了15倍,只有1.2兆字节,质量只降低了4%。

      不过,这也带来了一些延迟问题。

      论文地址:https://arxiv.org/pdf/2310.20144

      总而言之,苹果正努力解决模型领域的一个核心矛盾:模型越大越好用,但在终端上耗电快运行慢。

      与其他科技公司一样,苹果正在这一点上找到平衡。

      Siri完成超进化!

      苹果研究AI终归解决一个至关重要的问题,如何让Siri变得更加出色。

      在内部,苹果团队设想开发一种,无需唤醒词Hey Siri或Siri,就能使用AI助手的方法。

      没有声音提示,那该如何让设备通过「直觉」判断一个人在讲话?

      这一难题,比语音触发检测更具挑战性。

      苹果研究团队不得不承认,这是因为可能没有一个主要的触发语,来标志语音命令的开始。

      论文地址:https://arxiv.org/pdf/2403.14438

      这也许就是,为什么另一组研究人员,开发出了一个系统可以更准确地检测唤醒词。

      论文地址:https://arxiv.org/pdf/2309.16036

      具体来说,作者提出了语音触发(VT)的多通道声学模型,将前端的多通道输出直接输入VT模型。

      他们采用了TAC(Transform-Average-Conatenate)模块,并通过合并来自传统通道选择的通道,对TAC模块进行了修改,让模型能够在存在多个说话人的情况下关注目标说话人。

      与基线通道选择方法相比,该方法的误拒率降低了30%。

      而在另一篇论文中,研究人员训练了一个模型,以更好地理解不太容易被AI助手理解的罕见词。

      论文地址:https://arxiv.org/pdf/2310.07062

      在这两种情况中,LLM的魅力在于,理论上它可以更快地处理更多信息。

      例如,在关于唤醒词的研究中,研究人员发现,如果不试图摒弃所有不必要的声音,而是把所有声音都输入模型,让它来处理哪些是重要的,哪些是不重要的,那么唤醒词的效果就会可靠得多。

      一旦Siri听到你的声音,苹果就会做很多工作,以确保它能更好地理解和沟通。

      在另一篇论文中,苹果还开发了一个名为STEER系统,旨在改善用户与助手之间的交流。

      论文地址:https://arxiv.org/pdf/2310.16990

      在另一个例子中,它使用LLM来更好地理解「模棱两可的问题」,无论你怎么说,它都能弄清楚你的意思。

      在不确定的情况下,智能对话智能体可能需要主动提出好的问题,从而更有效地解决问题,从而减少不确定性。

      在另一篇论文也旨在帮助解决这个问题,研究人员利用大模型使助手在生成答案时不再冗长,更容易理解。

      苹果每个应用,将被AI重构

      除了关注原始的技术发展,苹果也非常关注人工智能的日常应用。

      对于苹果来说,一个重点领域就是健康:

      LLM可以帮助分析处理各种设备收集到的大量生物识别数据,并帮助理解这些数据。

      苹果可以通过研究收集和整理你的所有运动数据,利用步态识别和耳机来识别你的身份,以及如何跟踪和理解你的心率数据,来监测你的身体状况,为你提供合适的安全建议。

      苹果还把人工智能想象成一种创造性工具。

      在2月发表的一篇论文中,苹果团队采访了一批动画师、设计师和工程师,并构建了一个KeyFramer系统。

      这一系统,可以让用户迭代地构建和改进生成的设计。

      用户只需要先输入一个提示,然后得到一个工具包,可以根据自己的喜好调整和完善图片的某些部分。

      此外,苹果还有开发了一款名为MGIE的工具,可以让你通过描述内容来编辑图片(比如「让天空更蓝」、「让我的脸不那么怪异」、「添加一些石头」等等)。

      论文中,研究人员表示,MGIE不需要简短但含糊的提示,便可以明确地推导出视觉感知的意图,从而实现合理的图像编辑。

      「最初的实验并不完美,但令人印象深刻」。

      未来,苹果还有可能将AI用在音乐中。

      在一篇名为Resource-constrained Stereo Singing Voice Cancellation的论文中,研究人员探索了将歌曲中的声音与乐器分离的方法。

      比如,像在TikTok或Instagram上那样混音歌曲,这个AI可能会派上用场。

      随着时间的推移,苹果会在iOS 上,在自身的生态系统中内置一些功能,也会以API的形式提供给第三方开发者。

      之前苹果一直在大肆宣传自己的硬件能力,尤其是与普通的安卓设备相比。

      将所有这些功率与设备上注重隐私的人工智能相结合,可能会成为苹果一个很大的差异化优势。

      这次iOS 18强势来袭,网友一如既往地对苹果期待感满满。

      值得一提的是,苹果在多模态大模型方面研究,也引来众多的关注。

      Ferret堪称苹果最大型、最雄心勃勃的人工智能项目。输入提示之后,它可以关注你选择的特定事物,并理解周围的世界。

      甚至,Ferret还可以帮助你导航应用程序、回答有关App Store评级的问题、描述你正在看的内容等等。

      一旦这种技术得以应用,可能彻底改变每个人使用手机的方式,以及Vision Pro和智能眼镜的使用方式。

      虽然目前这些都只是研究成果,但是如果能在今年春天开始顺利运行,那将是一项闻所未闻的技术成就。

      WWDC大会即将发布的大型人工智能模型,必然会把技术狂欢推向新一轮的高潮。

      苹果或会全面改版iPhone产品,也就意味着你的下一台iPhone不必是iPhone。

      这一切都在库克的预料之中,接下来就等着瞧好吧。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时探行数字人注册免费试用

    中兴二合一 5G 云电脑“逍遥”系列上架:一键切换双模式,

    5 月 10 日消息,据中兴通讯官微,中兴二合一 5G 云电脑“逍遥”系列已经在电商平台上架。其支持本地、云端双模式,可在电脑与平板模式之间一键切换。售价方面,型号为 W200DS 的产品首销价格为 1899 元。

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。