掀翻传统推荐！OneRec端到端模型如何同时“吞噬”效果与成本双难题

2025年06月20日 15:45:08 来源：银柿财经

　　AI大模型(LLM)掀起的生成式革命，正重塑各行各业，连我们每天刷到的推荐系统也不例外。

　　传统推荐系统像一条多环节的“流水线”(级联架构)，容易导致算力浪费、目标冲突，制约了发展。要突破瓶颈，关键在于用LLM技术进行“一体化”重构，实现效果提升和成本降低。

　　快手技术团队最新提出的「OneRec」系统，正是这一思路的突破。它首次用端到端的生成式AI架构，彻底改造了推荐系统的全流程，在效果和成本上实现了“既要又要”：

　　效果猛增：有效计算量提升10倍!让强化学习技术在推荐场景真正“活”了起来，推荐更精准。

　　成本锐减：通过架构革新，训练和推理的算力利用率(MFU)分别飙升至23.7%和28.8%，运营成本(OPEX)仅为传统方案的10.6%。

　　目前，该系统已在快手App/快手极速版双端服务所有用户，承接约25%的QPS(每秒请求数量)，带动App停留时长提升0.54%/1.24%，关键指标7日用户生命周期(LT7)显著增长，为推荐系统从传统Pipeline迈向端到端生成式架构提供了首个工业级可行方案。

　　完整技术报告链接：https://arxiv.org/abs/2506.13695

　　图：OneRec 系统概览

　　OneRec基础模型剖析

　　OneRec采用端到端生成式架构，首创协同感知多模态分词器：通过融合视频标题、图像等多维信息与用户行为，利用RQ-Kmeans分层生成语义ID。其Encoder-Decoder框架将推荐转化为序列生成任务：

　　Encoder整合用户终身/短期行为序列实现多尺度建模;

　　MoE增强的Decoder通过Next Token Prediction精准生成推荐结果。

　　实验验证其遵循Scaling Law——参数量增至2.633B时训练损失显著下降，结合特征/码本/推理级优化，实现效果与算力的协同突破。

　　强化学习（RL）偏好对齐

　　OneRec突破传统推荐依赖历史曝光的局限，创新引入强化学习偏好对齐机制。通过融合偏好奖励(用户偏好)、格式奖励(有效输出)及业务奖励(工业需求)构建综合奖励系统，并利用个性化P-Score作为强化信号。采用改进的ECPO算法(严格截断负优势梯度)提升训练稳定性，在快手场景中实现不损失曝光量前提下显著提升用户时长，达成工业级效果突破。

　　性能优化

　　在性能优化上，OneRec突破传统推荐MFU个位数魔咒：通过架构重构+算子压缩92%至1,200个，训练/推理MFU提升至23.7%/28.6%，算力效能达主流AI模型水平，实现3～5倍跃升。首次让推荐系统达到与主流AI模型比肩的算力效能水平。

　　此外，快手技术团队还针对OneRec特性在训练和推理框架层面进行了深度定制优化。训练侧采用请求分组特征复用与变长Flash Attention提升计算密度，自研SKAI系统实现Embedding全流程GPU训练，彻底消除CPU同步瓶颈;推理侧首创计算复用架构——Encoder单次前向+Beam间KV共享+Decoder层KV Cache，支撑512大Beam Size生成需求，并基于Float16混合精度与MoE/Attention算子深度融合提升吞吐。最终训练/推理MFU达23.7%/28.8%(较传统模型提升3～5倍)，运营成本降至传统方案10.6%，实现近90%成本节约。

　　Online实验效果

　　该模型经过一周5%流量AB测试，在点赞、关注、评论等所有交互指标上均获正向收益(如下图)。系统现已全量覆盖短视频推荐主场景，承担约25%QPS。除了短视频推荐的消费场景之外，OneRec在快手本地生活服务场景同样表现惊艳：AB对比实验表明该方案推动GMV暴涨21.01%、订单量提升17.89%、购买用户数增长18.58%，其中新客获取效率更实现23.02%的显著提升。目前，该业务线已实现100%流量全量切换。