“放飞吧”活动明晚举行,苹果官网添加交互式预告2024 年一季度全球机械硬盘出货量达 2970 万块,西部数据市占升至第一苹果推出 2024 彩虹系列,含表带、表盘、动态墙纸赛力斯集团董事长张兴海现身成都 AITO 问界用户中心,向用户交车消息称苹果已挖走一批谷歌AI专家 2018年以来至少挖走36名AI PC最新进展:超500款AI模型得以在Ultra处理器上优化运行赛力斯法务部:山西M7事故后网上有人发布不实信息消息称阿里重启淘宝网页版 618取消预售手机换机更轻松:代码显示谷歌正研发同时使用Wi-Fi和数据线传输数据的技术网易推出媒体库播放器应用 Filmly:支持直连网盘影视资源、暂不支持本地视频今起北京等 20 个城市试点换补发出入境证件“全程网办”,可实现“群众办事一次都不跑”Brilliant Labs推出Frame:一款集成AI的开源AR眼镜洛图科技:Q1中国智能盒子线上销量同比下降39% 腾讯、天猫魔盒、小米前三三星 GAA 工艺高性能移动 SoC 成功生产流片,采用新思科技 EDA 套件苹果将用自研模型Ajax优化iOS 18 不会推出类ChatGPT聊天机器人解决Sora物理bug!四所美国顶尖高校联合发布PhysDreamer模型去中心化社交平台 Bluesky:推特创始人多西退出董事会国家广电总局公布治理电视“套娃”收费和操作复杂工作投诉渠道SK 海力士加速 HBM4 内存量产,目标 2025 下半年推出首批产品英特尔 Falcon Shores GPU 明年晚些时候推出,已为 AI 负载重构
  • 首页 > 产经新闻频道 > 互联网+

    全球NLP最难榜单刷新:追一科技超越Facebook跃居第二

    2020年01月16日 11:26:26   来源:中文科技资讯

      近日,自然语言处理领域权威数据集SuperGLUE最新榜单排名更新。Google预训练模型T5保持第一,中国AI创业公司追一科技AI Lab团队超越Facebook AI,跃居榜单第二。值得注意的是,相比谷歌T5等超大规模研究型模型,追一此次登榜的RoBERTa-mtl-adv模型在商业化能力也非常强劲,相关技术已经落地到追一科技的AI数字员工产品线上,持续赋能银行、保险、证券、零售、地产、能源,教育,互联网等多个行业。

    图片1.jpg

      追一科技跃居SuperGLUE测试榜第二

      SuperGLUE(Super General Language Understanding Evaluation)是当下NLP领域难度最大,权威性最高,含金量最足的测评标准之一,由纽约大学、华盛顿大学以及谷歌旗下的DeepMind联合Facebook作为主要发起人推出,最大程度涵盖了现实生活中可能遇到的不同类型的NLP任务,旨在更真实地反映当前最前沿的NLP技术可以达到的认知智能水平。

      追一科技在为企业提供智能交互服务的过程中,技术和应用互相驱动,将实际商业化应用中总结出的多任务学习、对抗训练、知识蒸馏等技术手段和经验融入到参赛模型中,并在SuperGLUE测评数据集上拿到第二的成绩。

      除去作为参照的人类水平,目前排名榜单第一的是Google的T5模型。从学术研究看,T5模型达到了目前“实验室智能”的最好水平,但如果考虑商用,T5需要耗费大量的算力,且模型自身体积过于庞大,目前还不能落地到实际业务场景中,缺少实际的商业应用价值。

      而追一科技通过多任务学习、对抗训练以及知识蒸馏的方式,使得RoBERTa-mtl-adv模型大小合理,效果仅次于Google的T5。同时,相关技术也落地到了追一科技AI数字员工的产品线上。就SuperGLUE排名而言,可以说追一科技的RoBERTa-mtl-adv模型在目前全球具有实际落地能力的NLP模型中效果最好,排名最高。

      “学霸”模型的商业化能力

      SuperGLUE测试项目并非是“花拳绣腿”,而是实实在在考验模型通用能力的“铁人三项”;参加SuperGLUE也并非只是为了刷新评分,更重要的是检验当前技术能否很好地落地到实际应用场景中去。

      SuperGLUE覆盖了问答、推断、语义理解、常识判断等自然语言理解维度,是人机智能交互过程中的核心环节,在具体的业务场景中都有很重要的应用价值。追一科技此次参赛模型的相关NLP技术已经被成熟运用于到自主研发的全套AI数字员工产品线上,广泛服务于银行、保险、泛互联网、地产、政企等多个行业的标杆客户。例如,在追一科技的智能在线机器人Bot中就融入了多轮问答技术、语义检索、机器阅读理解技术等NLP技术,能准确识别用户意图,满足用户需求。

      口说无凭,接下来就结合SuperGLUE中的任务与Bot的具体案例,一探虚实。

      单/多轮问答技术是指机器人和用户之间一问一答,实现多轮对话的过程。例如下面这个智能在线机器人Bot服务餐饮行业的场景:

    图片2.jpg

      智能在线机器人Bot不仅可以从对话中准确识别出地点,人数等信息,还能进一步追问用户未给出的“用餐时间”的信息,满足客户的需求。而传统的客服机器人并不会对未给出的潜在信息做出反应。

      机器阅读理解技术在于机器人去“用力”理解文档中内容的意思,从而根据用户需求输出相应的结果。例如在金融保险领域会涉及到大量保险业务文档的修订、新增等情况。在面对客户时,即使是富有经验的客户经理,往往也很难迅速结合所有新增的文档内容进行有效回答。这时,定制了阅读理解技术的智能在线机器人Bot就又可以发挥作用了——可以实时帮助业务人员,针对相关问题从新文档中提取出答案,解决问题,降低出错的概率。

      自然语言推断任务中“文本蕴含”是常出现的形式,在实际用语中非常的普遍,参考下面这个银行领域的例子:

    图片3.jpg

      因为白金信用卡属于信用卡,因此“我的白金信用卡需要挂失”蕴含在“我的信用卡需要挂失”中,因此,智能在线机器人Bot 在回答用户时只需准确指引用户如何挂失信用卡即可。

      指代消解在人的交流过程中非常常见,在表达中适当地使用指代会让表达更加简练却不影响本意的阐述。如下面这个出行领域的例子:

    图片4.jpg

      智能在线机器人Bot理解了客户问句里的“上次”其实指代的是“上次中途取消订单”,所以立马给出了正确回复。

      然而,最难为机器人的是常识推断,对语言的理解离不开对常识的掌握。举这么一个例子:

    图片5.jpg

      机器人需要具备“影子是由太阳升起照射留下的”这样的常识性推断,才能正确的选择答案。对于人来说,这些常识很简单,但是对于机器来说,大量的这种常识知识都潜藏在我们意识的深处,AI系统的研究者几乎不可能把所有这样的常识都总结出来,并灌入到系统中,所以机器人在该数据集的表现往往不尽如人意。

      落地到现实场景中,比如我们可以对智能在线机器人Bot说“我银行卡弄丢了”,Bot就会询问你是否需要挂失。因为它具备了“弄丢银行卡需要挂失”这样的业务常识。

      可以看到,真实的交互场景中模型需要对语言的不同维度都具有理解能力才能完全正常流畅的对话。而上述的几个例子中的问题形式都很好地包含在了SuperGLUE的不同数据集中,因此,此次追一科技在SuperGLUE测评指标上获得的成绩,不仅是对其RoBERTa-mtl-adv模型在理解自然语言技术上的一个肯定,还验证了“技术驱动应用,应用导向技术”策略的可行性,更加坚定了追一科技继续深耕技术,持续用AI赋能百业的信念。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    [No. S025]
    分享到微信

    即时探行数字人注册免费试用

    华为Pura70 系列不怕丢!云空间实现楼层级设备查找

    华为 Pura70 系列突然先锋开售,你抢到了吗?对于这次的新机来说,除了一如既往的优雅设计和强悍的硬件配置外,我们更为关注的则是其全球首发的「楼层级设备查找」功能,软实力也可以很硬核!

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。