在AI训练、高频交易、云游戏等场景爆发的今天,一张网卡、一套操作系统的“单打独斗”已无法满足业务对“微秒级时延、百Gb级吞吐”的严苛要求。
为将硬件加速能力与操作系统级深度调优结合,近日,OpenCloudOS携手网迅,推出低时延、高吞吐的网卡联合解决方案,在x86和Arm双架构下,实现了单流TCP吞吐23.5Gbps(逼近理论带宽),微秒级时延,为AI/HPC及云场景带来“开箱即用”的极致网络性能。
一、从协议层到硬件的联合创新
国产化替代的生态短板、硬件性能与协议栈的效率鸿沟,以及实时场景的确定性需求,正驱使OS和网卡厂商联合寻求相关的低时延、高吞吐解决方案。例如,传统网卡在某些行业的实际应用时常常面临时延的挑战——普通万兆网卡时延在15–50μs,而金融高频交易需满足1–5μs级响应;OS层也会由于和硬件协同不足,而产生高负载下CPU中断处理、内存带宽竞争形成的时延抖动。
基于这些痛点和行业用户需求,今年6月起,网迅团队和OpenCloudOS社区(以下简称“OC”)就智能网卡驱动合入和联合解决方案的打造,开始了深度协同合作。
针对低时延、高吞吐的优化,网迅做了几个方面核心的改进和创新:
1)协议层创新,解决传统RDMA瓶颈:包括采用选择性包重传(而非Go-back-N机制)和链路层重传,显著提升有效吞吐;支持Relaxed Ordering,实现包级多路径转发等;
2)智能拥塞控制算法:容器化多路径转发技术上,借鉴GSE协议的PKTC容器技术,对报文进行逻辑分组转发,提升带宽利用率;
3)多路径传输优化:支持包级别的多路径传输,而不仅是流级别,通过动态均衡避免大象流导致的拥塞;
4)乱序处理能力增强:允许接收端不强制重排序,减少buffer需求和处理延迟;
……
网迅也将以上核心的技术创新融入到最新一代的25G、40G网卡产品产品中,定制开发txgbe-2.1.1驱动。
左:报文容器多路径转发技术(PKTC) 右:动态全局调度技术(DGSQ)
因此,本次网迅优先将FF5025系列和FF5040系列25G、40G网卡驱动代码合入OC 5.4和6.6内核,实现与OC的深度适配,双方针对NUMA拓扑、PCIe通道等进行多项补丁级优化,驱动操作系统环境下的稳定性、效率和整体性能的提升。而OC也是国内首批支持网迅25G网卡驱动方案的服务器OS。
在与OC系统融合过程中,OC为网迅网卡提供了定制化的内核驱动,优化中断处理、DMA映射与内存管理机制,结合CPU亲和性与NUMA架构,确保网络处理线程的高效调度,减少跨界点访问延迟。
二、实测效果:性能与能效的双重突破
为确保该方案在异构环境中的稳定性,并追踪实际性能效果,网迅团队在Arm和X86架构下搭载OC 8和CentOS操作系统进行了多维度的对比测试,使用了多种测试工具和方法(iperf、netperf、qperf)。
整体性能测试结果,展现了该解决方案在超限带宽利用率、小包处理延迟、多模式高可用等多个维度的实际效果:
﹒超限带宽利用率高:在25G网络环境下,TCP传输带宽稳定达23.5Gbps(接近物理极限),IPv6场景保持23.2Gbps高水位;在IPv4双口双向测试中,两个网口同时双向传输时每个方向还是23.5Gbps,没有掉速,全双工饱和吞吐能力较强;
﹒端到端延迟低:业界通用方案常常在15-30μs甚至更高;对比之下,本次测试在x86平台下,TCP Latency 12.7-15.7μs,UDP Latency 11.5-12.6μs,能满足延迟敏感型应用(高频交易、实时游戏、远程控制、分布式存储)的严苛场景需求。
﹒多模式高可用:本次测试结果x86 bond mode 4结果RX 47.1 Gbps,TX 47.0 Gbps;x86 bond mode 6结果RX 48.07 Gbps,TX 48.07 Gbps。这两个模式(mode 4,LACP;mode 6,Balance ALB)几乎完全发挥了两个物理端口的总带宽潜力(单口25G上限,双口聚合上限50G),达到了线性叠加。在很多情况下,聚合效率能达到90-95%就算不错了。
﹒小包处理能力强:x86平台下,TCP_RR∼35,000-37,800次/秒,UDP_RR∼35,600次/秒。ARM平台下,TCP_RR∼22,800-26,000次/秒,UDP_RR∼27,700-27,900次/秒。x86平台的数值,表明内核协议栈和驱动对小包处理非常高效。这对于微服务架构、分布式数据库的协调通信等场景很关键。
﹒能效比提升:据网迅介绍,其通过高压单元设计、数据通道精简优化实现“性能每瓦特”领先,例如在满负载的情况下,功耗仅7-8瓦。
25G网卡基于OpenCloudOS 8的性能调优实践
总的来说,测试结果表明,OC 8搭载网迅txgbe-2.1.1驱动在x86 IPv4协议栈上实现了较为优秀的端到端网络性能表现。小于15us的延迟、接近物理极限的单口与双口双向饱和吞吐率、高效的链路聚合能力(bond mode 4/6)以及强大的小包处理能力(RPC高事务率)等,是该联合解决方案相比业界通用方案最具竞争力的地方。这些优势对于高性能计算、云数据中心、高频交易等场景至关重要。
当然该结果仅用于展现通用场景的基准测试,如有相关企业或用户需针对自身业务场景,提升某些具体指标项的性能表现,可向OC或网迅团队进行咨询。
未来,双方团队后续在协议栈、Arm平台软硬件优化、其他bond模式上还会进一步做更多的联合优化。例如:目前在多个测试场景下,IPv6的吞吐量、稳定性均低于IPv4;ARM协议栈对小包处理效率较低,需针对性优化;UDP多流性能瓶颈,可能需要需进一步优化IRQ亲和性。
三、该方案可落地场景参考
通过以上数据实测分析,OC与网迅的低时延、高吞吐解决方案将对以下行业产生一定价值:
1、AI大模型训练场景:能解决千卡集群中“大象流”引发的拥塞冲突,端到端带宽利用率提升,百亿参数模型训练时间将显著缩短;
2、云原生基础设施:无损网络特性保障容器网络性能隔离,能支撑万级Pod的规模化调度;
3、大规模数据中心:低功耗表现,将有助于数据中心PUE优化,单机柜全年省电预估超千度。
该解决方案的落地,不仅帮助双方打开了更新的协同方式,还标志着软硬件厂商在网卡领域的协同技术突破。后续,OC将联动网迅持续深化合作:基于400G/800G网卡的创新,强化多路径感知调度与异构算力的适配能力。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
海报生成中...
海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。