• 首页 > 延展阅读 > 2017归档

    云知声+斐讯:智能音箱产品开发“十步法”

    2018年03月12日 11:36:44   来源:中文科技资讯

      作者:云知声

      正当AWE在上海如火如荼的时候,远在澳门传来了一个非常吸引眼球的新消息,斐讯首款人工智能音箱R1正式亮相。在笔者去年写《10步,智能音箱从入门到放弃》时,其实笔者所在的云知声公司正在与斐讯、哈曼共同打造R1,当时这篇文章也算是针对市场形形色色的音箱有感而发。目前R1已经正式发布,正好可以做个回顾,看看R1走了这十步后,到底是从入门到放弃了,还是到精通了。

      1. 市场定位

      #FormatImgID_1#

      斐讯采用RK3229,Android平台,RMB2499的定价,在发布时间远远落后于国内一些巨头的产品情况下,可以说这个对于自身的定位非常大胆了,笔者分析,其至少有2个底气:

      首先,此次发布会有多个产品同时发布,说明斐讯对于这款音箱定位是AI智能中控,这也符合云知声对于智能设备发展的一贯观点,大家都从单品智能,到中控智能,最后发展为主动智能,而且演示过程中对于各个设备的控制,也印证了这一点。

      其次,斐讯的0元购形式非常有吸引力,在互联网流量红利接近尾声的情况下,斐讯通过高品质的产品质量结合0元购模式,确实是探索在IoT时代如何快速获取用户的一个有益尝试。

      当然,最终用户是否买单,还是要看真正的产品设计和功能,这一块我们按照剩下9步,一个个看过来。

      2. 外观设计

      音箱外观是第一眼印象,在这一点上,斐讯R1从配色,到手感,到光线,可以说是非常用心的。这一点通过现场图片让大家感受一下。个人还是比较喜欢这个蓝色光环的。

      3. 声学结构

      斐讯发布会上宣布与哈曼签署战略合作,这说明斐讯确实抓到了AI音箱这个产品的核心。无论有多么智能,当用户懒散地躺在沙发上,希望静静地听歌的时候,音质永远是第一位的。

      正如之前文章所说,声学结构需要同时考虑音质效果和语音唤醒之间的双重要求,可以说当前这个声学结构是斐讯、哈曼、云知声三个团队不断讨论,论证,实验的结果,很多要求都互相影响甚至互相矛盾,比如为了环绕重低音立体声效果,必然要进行音频的相应处理,相对于普通音质一般的音箱而言,在这个要求下依然满足极高的唤醒率,需要做更多的调优工作。

      同时笔者亲测的效果,R1的高音分贝极高,如何确保依然可以有效唤醒,如何确保不显得笨重情况下确保高音下的机械结构稳定,都需要在结构上做更多的工作。可以说这个声学结构是三方团队共同打怪通关的结晶啦。

      4. 内容整合

      #FormatImgID_4#

      这一块R1非常有信心地打出了国内最全地音乐源的招牌,云知声可以负责任地说,同意!因为我们训练过的音乐名文本已经超过国内POI的总数了。其实最初云知声与斐讯沟通合作的过程中,双方就一致认识到,如果无法解决音乐源,这个项目就不可能成功,双方甚至不用开始。正是在这个认知地驱动下,才有了当前的结果。顺便说一下,云知声拒掉了无数寻求音箱合作的客户,音乐源一直是最直接原因。

      同时,AI音箱目前内容方便也在不断扩展,除了音乐,更多的内容都接了进来,而且云知声为斐讯提供的AI云平台,也可以非常方便地整合更多的第三方内容,这将推进R1的不断演进。

      5. 系统优化

      说起系统调优,其实主要集中在两个方面,首先当然是系统启动时间,这一个是用户感受最明显的一块。作为一款Android平台的AI音箱,R1在这一点可以说做得相当不错。毕竟Android平台无法与Linux和RTOS进行启动时间的直接对比,但是R1通过系统裁剪和反复迭代,已经在当前RK3229硬件平台上,做到了接近极致体验了。

      其次是联网方式,这一块对于很多AI音箱其实是一个极度影响客户体验的关键点,在这一块,R1考虑非常全面,正如下图所示,它一共提供了三种联网方式,在用户倾向性方面尽量做到全面照顾了。

      6. 远场Mic阵列

      让我们来重新复习一下支撑整个智能音箱的AI系统,涉及到感知技术,认知技术以及交互技术。下图给大家一个整体印象。

      这一步R1可以说是多快好省的典范,相对目前业界部分AI音箱采用的6+1Mic,斐讯和云知声配合,在4Mic上做到了相同,甚至更好的远讲拾音效果,而且声学结构设计更为简单,产生Mic差异性概率更低,数目更少的Mic,其后期维护难度也随之降低。可以说,这完全是以实际量产为目标的接地气设计。

      7. 离线唤醒

      #FormatImgID_9#

      作为一家非常低调的AI企业,我们云知声小伙伴一致认为发布会上斐讯这张图比较高调。不过我们依然认为离线唤醒作为云知声在家居行业的看门功夫之一,确实做到了以下三点:

      快——反应速度快,R1就像是个随叫随到的助手,很有feel。

      准——目前体验测试和benchmark测试,均有翔实数据支持。尤其是音乐播放下的打断和周边噪声环境下的唤醒,可以说我们还是比较满意的。

      稳——误唤醒这块更是把家电行业的严格标准直接用过作为测试指标了。

      8. 语用计算

      云知声所提的语用计算(Context-aware NLU),就是基于场景化感知的自然语言理解(NLU)。通过5W&1H(Who,When,Where,Which,What&How)原则理解是什么人在什么时候,什么地方对着什么设备说了什么话,然后由语用决定如何回应。

      R1作为一个能实现中控智能的AI音箱,在对接不同的设备时候,通过拓扑设计,将家庭环境下不同设备都做了相应的标识,以确保用户的命令能被精准识别,或者准确反馈从而实现进一步的确认。“您是要打开卧室的灯,还是客厅的灯?”将是R1可能会和用户确认的一件事了。

      9. 流式交互

      R1的交互还没有实现完全的流式交互,但是在AI音箱界也是一股清流了。比如在播放音乐过程中进行快捷地切换,用户无需再次唤醒,这一块也是建立在坚实地唤醒/误唤醒技术指标之上地交互设计了。

      与此同时,上下文的理解,针对音乐场景的针对性理解,这些细节都在R1上有相应体现,这一块还是请各位小伙伴亲自体验吧。

      10. 开放平台

      开放平台这事,作为斐讯地合作方之一,我们非常佩服斐讯的规划和想象,可以说,直接把当下最热的区块链和AI最困难的数据问题,一揽子解决了。通过区块链方式,让R1用户更深度地参与到R1整体AI智能体系建设中,加速了R1的自我演进。

      这一块我们好好学习!

      结束语:作为斐讯合作方,云知声非常有幸能参与到R1中并为此做出自己的贡献,分析了这么多,最后还是呐喊一句,祝R1大卖!

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    [编号: ]
    分享到微信

    即时探行数字人注册免费试用

    第三代骁龙8s平台,“恰逢其时”的“新生代旗舰”之选

    日前,高通举办新品发布会,推出了骁龙8旗舰移动平台诞生以来的第一款新生代旗舰平台:第三代骁龙8s,这是高通对骁龙旗舰移动平台的一次层级扩展,同时意味着广大消费者未来在旗舰手机市场也将会有更多丰富的选择。

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。