如何突破行业卡点,跑通技术产品和场景验证闭环?
文|徐鑫
编|任晓渔
如火如荼的生成式AI浪潮正走向应用爆发前夜,不过应用规模化落地,一直面临两大鸿沟——落地成本和价值验证。
现在,数字人直播领域有望率先实现跨越,迎来拐点。
过去一年,AI技术进步使得数字人成本进一步降低,落地成本从今年年初开始已不再是卡点,行业正加速逼近盈利线。最近,数字人直播规模化应用另一道枷锁也在被砸碎——
特看科技发布第四代直播数字人,在新一代大语言模型和多模态模型技术支持下,数字人直播效果正从真人的70%水平逼近90%。
“它说‘冲’的的时候,语气、声音、手部的动作配合非常自然,已经跟真人表现没什么区别。一切全由AI生成,不再是对口型的数字人,数字人直播的GPT-4时刻已经到来。”特看科技CEO乐乘(原阿里花名,本名吴春松)判断,数字人直播将加速从小众尝鲜快速走向大众应用阶段。
对于直播行业,这是一场大变局。数字人直播的应用场景和行业渗透率都将迎来变化,更长期看它可能也会影响直播行业里流量分配机制。
与此同时,外界也好奇,成立三年的AI应用公司特看科技到底什么来路,为何能率先突破行业卡点,跑通技术产品和场景验证闭环?
01
规模化落地时刻
你肯定见过直播间里的数字人。
大多数人对这些直播数字人的印象还停留在能介绍产品信息,但细看总有点不自然的阶段。比如口播的内容非常有激情但数字人的语气平淡没有情绪起伏,要么主播手部动作与说话的节奏不匹配,还有可能数字人的动作单调重复,看起来机械和呆板。
是时候改变一下刻板印象了。过去大半年,在多模态及大语言模型快速进步驱动下,直播数字人的表现正超乎许多人的想象。
比如上面这个声情并茂、怎么看都是真人的主播,出自特看科技最新发布的第四代直播数字人产品。
它的效果看起来非常自然,讲述内容、口型、动作、语气的匹配也非常协调,甚至看不出来是个数字人。
特看科技CEO乐乘介绍,新发布的第四代数字人产品已经摆脱了对口型阶段,从数字人手部动作、面部表情、声音、情绪与内容的匹配全都由AI驱动,效果能达到真人90%水平。“这是很重要的一个跨越”,乐乘将之类比为数字人直播的GPT-4时刻。
熟悉大模型发展历程的人知道,GPT-4之后,ChatGPT的用户量实现了月活过亿到周活过亿,月活十亿规模的跃迁,大模型真正从偏爱好者走向了大众市场。
“看起来逼近真人,效果达到真人90%水平”的数字人,为什么会被视作规模化应用的分水岭?
就像很多AI应用有采纳率指标一样,实际上,直播行业对数字人的效果也有一套从定性到定量的衡量标准。
定性的指标来自各大平台的直播间质量评估团队的平均意见分数(MOS)。比如淘宝平台内部的MOS打分系统,两拨人盲打分,评估平台内所有的直播间是不是真人,从而来保护消费者体验。平台MOS分打完后,得分最高的数十个数字人直播间会进入公域流量池。
定量方法则更为简单粗暴,就看小时成交效率。数字人和真人同时播,同一时段,同样的货,看交易数据。数字人表现越好,消费者就会用交易来给数字人的效果投票。
“定性确保内容体验,定量看成交效果,两个维度统一来对比数字人与真人的差距。”乐乘说。
行业内有共识,直播效果只能达到真人70%水平时,数字人就没有办法承载很大的流量。因为对商家而言,总有三成的生意会丢掉,对平台而言,流量的转化效率仍然不够高。此时,数字人在直播场景里只能作为补充手段,比如在晚上时段播一播,很难成为主流的直播方式。
而当数字人能达到真人的90%到95%阶段,多数商家不会太在意950元还是1000元的营收差距,他们对数字人直播的态度就会从观望、无感转向开始用起来。
“一些客户之前对数字人直播无感,可能还有点嫌弃对口型技术,特看第四代产品出来后,他们眼前一亮,这时候他们心态就完全变了”,乐乘观察到客户的态度在发生变化。
效果提升让规模化应用的一大障碍被扫清。同时,许多人关注的数字人直播的成本,也不再是行业卡点。过去一年多,技术进步下,数字人落地成本已经有了长足的下降,最主要的削减来自模型泛化能力增强,数字人生成不用单独建模。
以特看科技为例,2023年制作数字人需要提交十分钟视频,基于提交的视频再去专门建模训练,不算后续使用,单个数字人建模成本至少要耗费五千到一万,极大限制数字人的推广。当时服饰的商家不可能用数字人直播,因为每一个款都要拍视频单训模型,商家根本用不起来。
到今年年初,行业里领先的玩家比如特看已经不需要用提交视频单独再去训模型,AI能直接生成数字人的口型和动作,成本大幅降低。企业只需要按使用时长付费,数字人直播成本已经降至真人直播的五分之一。
“效果上有突破,成本本身也不再是卡点,数字人直播就能完成从小众产品向大众市场的跃迁,从少数商家补充手段变成大部分商家的主流直播手段”,乐乘判断接下来一年数字人直播市场规模可能会翻倍。
02
一家创业公司
如何快速跑通技术产品和场景验证闭环
数字人直播跨越鸿沟在即,技术进步当然是最大的驱动因素,这也是当下这波AI应用热潮最大的特征之一。
视频生成类基模升级,AI涌现出的物理理解能力、人物情绪表现力、图像理解和生成能力等持续进化,驱动了数字人的能力跃迁。
“比如动的时候,讲话的时候与全身动作、神态的自然协调,都需要有更强的人体、周边环境、物理世界、空间理解能力,基础模型在推理和多模态能力的进步,带动了数字人生成效果升级。”行业资深人士称。
行业基建成熟之外,在直播场景里还需要AI应用商们快速将技术、产品能力基于场景完成验证迭代,才能让技术加速突破。在这一重要节点,作为成立仅三年的AI应用公司,特看科技率先将数字人直播效果从此前的70%拉高到90%水平,也受到了业界的广泛关注。
乐乘认为,目前,特看科技在数字人直播场景形成了从技术、产品到运营能力的完整能力循环,这也是他们能率先突破节点的原因。“直播间其实是一个很收敛的场景,一个主播站在空间里表达产品,人、货、场相关因素非常固定。我们用场景内数据去微调优化模型,使得特看的模型在直播间场景的表现能比基模更优。”
而除了技术维度,AI应用在产品层面还需要持续沉淀互动、成交和电商带货逻辑,才能完成AI落地。过去三年特看直播数字人经历了四个版本迭代,持续将对直播场景如何利用好AI来提升商家内容供给能力的理解注入产品。
这其实与特看科技的基因一脉相承。这家AI应用公司的创始团队来自阿里,CEO乐乘曾在第一波深度学习浪潮里,带领团队打造了淘宝智能设计系统“鲁班”。它的初衷就是用AI在策划设计等环节帮助商家降低门槛,扩大优质设计供给。
特看科技成立后,ChatGPT横空问世让他们意识到AI数字人直播是很好的载体,可以帮助商家提升内容供给能力。这支团队过往用产品技术来降低商家经营门槛的理解和沉淀在新创业的产品上有了被复用的可能。
乐乘介绍,他们对数字人直播的理解是“身体+大脑”,这也是数字人直播的第一性原理。身体是载体,依赖多模态技术的成熟,而大脑表现更智能则需要大语言模型加上智能体加持。
在基模能力尚不足时,他们早早在直播场景里把应用和产品做深,一旦基模能力进步他们就快速切换。落后的发动机先让飞机飞起来,等新的发动机好了再完成替换。这些产品应用层的积累最终转化成团队身上的肌肉,在这波AI浪潮里抢得先机。
特看还从运营层面降低客户使用的门槛。当下许多商家客户不具备数字人直播应用的运营能力,特看专门有代运营服务团队帮助客户去代运营实施。两年前一些头部客户已委托特看帮助代运营,过去两年里他们与这批先锋客户持续打磨,较早在技术、产品和场景验证间跑通了闭环。
“当下特看可以给客户交付结果,为成交负责,而不只是卖个软件”,乐乘认为,Result as A Service是当下这波AI应用区别于上一代SaaS最大的不同,特看第四代产品上也将尝试按结果付费的分润模式。
过去三年,数字人市场经历了不少喧嚣起伏。大模型让数字人市场迎来新的发展机遇,但同时也不乏机会型玩家下场掘金,2023年年中市面一度出现上千家代理商卖良莠不齐的数字人。当时乐乘和他的团队十分克制,保持了较小的团队规模专心打磨技术和产品。他认为,“泡沫总会消失,市场最终要看产品和能力”。
当下技术已有突破,特看正基于第四代数字人做一些有趣的尝试。比如一家国内头部运动品牌希望能在AI试衣场景合作。“直播间里主播离开画面之后是去换衣服,未来数字人离开画面其实是AI在生成,这其实也是数字人身体能力更成熟的表现。”
而围绕着数字人大脑能力,特看已基于智能体编排数字人直播的运营全流程,未来整个直播周期从前期策划、脚本、话术生成、画面、问答包括数据复盘,全链条都由一个个Agent串联。目前这套Agent工作流已经在特看内部使用,年底将对外开放。
03
直播大洗牌,数字人直播将创造增量市场
“技术发展速度比我们预想最乐观局面更快”,乐乘感慨这波应用热潮的非线性增长特性,突破拐点后爆发会异常迅猛。
特看科技有过一个估算,当数字人直播只有真人70%效果,市场渗透率只有5%,行业规模在2亿左右。突破了90%是个节点,明年他们判断市场渗透率会提升到10%,市场规模会扩大到4亿,到2027年又会再度翻倍。
直播生态也将迎来变局。数字人直播的类目、场景扩展,它在企业经营中角色也有变化。
过去几年,市场上最先应用数字人直播技术的商家来自本地生活板块。当时数字人主要是坐着直播,动作幅度小,本地生活类目产品不用拿实物展示,更能规避数字人能力的短板。
之后随着数字人动作越来越自然,有实物的美妆类商家也开始用数字人。今年,随着AI技术能生成的范围扩大到全身动作上,比如可以在直播间很自然地走来走去展示,服饰类商家也开始拥抱数字人直播技术。可以说品类的扩张,跟随技术进步而逐步扩张。
而商家们用数字人直播的场景也在扩大。货架电商场景拥抱数字人最自然,商家们用数字人能更方便多渠道经营,比如在淘宝、京东、拼多多、唯品会等主流货架场景都用上数字人。现在一些商家把数字人放到私域的小程序里做一对一导购,消费者进来用不同数字人做可导入问答,也有品牌把数字人往线下门店放。
业界观察,数字人直播的第一批买单者往往是头部品牌。它们在战略上拥抱数字化,加上本身在直播场景做了很广的投入,比如有自播、达播或者通过代运营公司直播等多种手段。随着AI技术成熟,AI直播是这些头部企业的补充手段,未来它们的直播选择往往是真人和AI混播。
随着数字人直播技术发展,有一波新买单者来自原本靠客服来直播的中小商家团队,因为数字人直播的效果会明显好于客服这类非专业主播,企业能算清ROI。
更大的市场增量则来自此前因直播投入大不敢贸然进入直播赛道的商家群体,乐乘判断这个群体未来可能会占据数字人直播市场的半壁江山。
“守着传统货架电商里中有庞大的群体之前不敢花钱建直播团队,现在AI大幅降低门槛,提供了好的直播能力基建,他们就有条件直播,这会给平台制造一大批增量商家。”乐乘说。
不同于其他类型的应用,数字人直播的规模化进展与平台政策高度相关,外界也关注,数字人效果变好后平台是否愿意数字人规模应用开绿灯。
乐乘和特看习惯从平台、商家、消费者、服务商四重视角来思考这个问题,这也是他们的阿里背景带来的全局的思维,“当数字人效果不好,会破坏内容生态时,平台一定不会愿意给流量。一定是商家、平台、消费者都满意之后,数字人直播才会成为做成更大的一件事”。
当下数字人直播效果提升,成本下降,对商家而言能提高内容供给能力;对平台而言能带来新的商家供给,同时不破坏原有的内容生态体验;对消费者而言,则有可能在直播场景获得更广的商品及内容供给。乐乘认为,多方共赢后,服务商就会从这三方收益里赢得市场蛋糕。
另外,数字人直播能为店播提供高质量内容供给后,平台的流量倾斜策略可能也会发生变化,比如流量池子从达播向商家店播转变,这可能为未来天价直播生态的演进埋下伏笔。
这波AI应用浪潮另一大特征是生而全球。以特看科技为代表的头部数字人应用在国内市场划出漂亮的增长曲线时,也积极进军海外。比如特看的直播数字人一方面跟着中国品牌商家出海到东南亚,同时它也在服务不少东南亚本土品牌。
一个反常识之处在于,当下东南亚的人力成本低,数字人直播并不具备明显成本优势,但商家们拥抱AI的决心比想象中强烈。因为管理当地的主播难度很高,而AI则能更快规模化,也不存在文化隔阂和管理成本。
在东南亚市场,特看已经服务了不少标杆客户,增长势头不俗。乐乘认为中国在数字人直播上走在前列是一种必然。“中国电商直播生态领先全球,移动互联网时代电商生态领先就积累下了应用优势。现在AI来了,从国内市场厮杀出来的玩家自然具有全球竞争力”。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
海报生成中...
海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。