• 首页 > 企业IT频道 > 数字化

    小于15μs,单口接近24Gbps:OC联合网迅推出低时延、高吞吐解决方案

    2025年07月31日 09:15:21 来源:CITNews中文科技资讯

      在AI训练、高频交易、云游戏等场景爆发的今天,一张网卡、一套操作系统的“单打独斗”已无法满足业务对“微秒级时延、百Gb级吞吐”的严苛要求。

      为将硬件加速能力与操作系统级深度调优结合,近日,OpenCloudOS携手网迅,推出低时延、高吞吐的网卡联合解决方案,在x86和Arm双架构下,实现了单流TCP吞吐23.5Gbps(逼近理论带宽),微秒级时延,为AI/HPC及云场景带来“开箱即用”的极致网络性能。

      一、从协议层到硬件的联合创新

      国产化替代的生态短板、硬件性能与协议栈的效率鸿沟,以及实时场景的确定性需求,正驱使OS和网卡厂商联合寻求相关的低时延、高吞吐解决方案。例如,传统网卡在某些行业的实际应用时常常面临时延的挑战——普通万兆网卡时延在15–50μs,而金融高频交易需满足1–5μs级响应;OS层也会由于和硬件协同不足,而产生高负载下CPU中断处理、内存带宽竞争形成的时延抖动。

      基于这些痛点和行业用户需求,今年6月起,网迅团队和OpenCloudOS社区(以下简称“OC”)就智能网卡驱动合入和联合解决方案的打造,开始了深度协同合作。

      针对低时延、高吞吐的优化,网迅做了几个方面核心的改进和创新:

      1)协议层创新,解决传统RDMA瓶颈:包括采用选择性包重传(而非Go-back-N机制)和链路层重传,显著提升有效吞吐;支持Relaxed Ordering,实现包级多路径转发等;

      2)智能拥塞控制算法:容器化多路径转发技术上,借鉴GSE协议的PKTC容器技术,对报文进行逻辑分组转发,提升带宽利用率;

      3)多路径传输优化:支持包级别的多路径传输,而不仅是流级别,通过动态均衡避免大象流导致的拥塞;

      4)乱序处理能力增强:允许接收端不强制重排序,减少buffer需求和处理延迟;

      ……

      网迅也将以上核心的技术创新融入到最新一代的25G、40G网卡产品产品中,定制开发txgbe-2.1.1驱动。

    图片1.jpg

      左:报文容器多路径转发技术(PKTC)  右:动态全局调度技术(DGSQ)

      因此,本次网迅优先将FF5025系列和FF5040系列25G、40G网卡驱动代码合入OC 5.4和6.6内核,实现与OC的深度适配,双方针对NUMA拓扑、PCIe通道等进行多项补丁级优化,驱动操作系统环境下的稳定性、效率和整体性能的提升。而OC也是国内首批支持网迅25G网卡驱动方案的服务器OS。

    图片2.jpg

      在与OC系统融合过程中,OC为网迅网卡提供了定制化的内核驱动,优化中断处理、DMA映射与内存管理机制,结合CPU亲和性与NUMA架构,确保网络处理线程的高效调度,减少跨界点访问延迟。

      二、实测效果:性能与能效的双重突破

      为确保该方案在异构环境中的稳定性,并追踪实际性能效果,网迅团队在Arm和X86架构下搭载OC 8和CentOS操作系统进行了多维度的对比测试,使用了多种测试工具和方法(iperf、netperf、qperf)。

      整体性能测试结果,展现了该解决方案在超限带宽利用率、小包处理延迟、多模式高可用等多个维度的实际效果:

      超限带宽利用率高:在25G网络环境下,TCP传输带宽稳定达23.5Gbps(接近物理极限),IPv6场景保持23.2Gbps高水位;在IPv4双口双向测试中,两个网口同时双向传输时每个方向还是23.5Gbps,没有掉速,全双工饱和吞吐能力较强;

      端到端延迟低:业界通用方案常常在15-30μs甚至更高;对比之下,本次测试在x86平台下,TCP Latency 12.7-15.7μs,UDP Latency 11.5-12.6μs,能满足延迟敏感型应用(高频交易、实时游戏、远程控制、分布式存储)的严苛场景需求。

      多模式高可用:本次测试结果x86 bond mode 4结果RX 47.1 Gbps,TX 47.0 Gbps;x86 bond mode 6结果RX 48.07 Gbps,TX 48.07 Gbps。这两个模式(mode 4,LACP;mode 6,Balance ALB)几乎完全发挥了两个物理端口的总带宽潜力(单口25G上限,双口聚合上限50G),达到了线性叠加。在很多情况下,聚合效率能达到90-95%就算不错了。

      小包处理能力强:x86平台下,TCP_RR∼35,000-37,800次/秒,UDP_RR∼35,600次/秒。ARM平台下,TCP_RR∼22,800-26,000次/秒,UDP_RR∼27,700-27,900次/秒。x86平台的数值,表明内核协议栈和驱动对小包处理非常高效。这对于微服务架构、分布式数据库的协调通信等场景很关键。

      能效比提升:据网迅介绍,其通过高压单元设计、数据通道精简优化实现“性能每瓦特”领先,例如在满负载的情况下,功耗仅7-8瓦。

    图片3.jpg

      25G网卡基于OpenCloudOS 8的性能调优实践

      总的来说,测试结果表明,OC 8搭载网迅txgbe-2.1.1驱动在x86 IPv4协议栈上实现了较为优秀的端到端网络性能表现。小于15us的延迟、接近物理极限的单口与双口双向饱和吞吐率、高效的链路聚合能力(bond mode 4/6)以及强大的小包处理能力(RPC高事务率)等,是该联合解决方案相比业界通用方案最具竞争力的地方。这些优势对于高性能计算、云数据中心、高频交易等场景至关重要。

      当然该结果仅用于展现通用场景的基准测试,如有相关企业或用户需针对自身业务场景,提升某些具体指标项的性能表现,可向OC或网迅团队进行咨询。

      未来,双方团队后续在协议栈、Arm平台软硬件优化、其他bond模式上还会进一步做更多的联合优化。例如:目前在多个测试场景下,IPv6的吞吐量、稳定性均低于IPv4;ARM协议栈对小包处理效率较低,需针对性优化;UDP多流性能瓶颈,可能需要需进一步优化IRQ亲和性。

      三、该方案可落地场景参考

      通过以上数据实测分析,OC与网迅的低时延、高吞吐解决方案将对以下行业产生一定价值:

      1、AI大模型训练场景:能解决千卡集群中“大象流”引发的拥塞冲突,端到端带宽利用率提升,百亿参数模型训练时间将显著缩短;

      2、云原生基础设施:无损网络特性保障容器网络性能隔离,能支撑万级Pod的规模化调度;

      3、大规模数据中心:低功耗表现,将有助于数据中心PUE优化,单机柜全年省电预估超千度。

      该解决方案的落地,不仅帮助双方打开了更新的协同方式,还标志着软硬件厂商在网卡领域的协同技术突破。后续,OC将联动网迅持续深化合作:基于400G/800G网卡的创新,强化多路径感知调度与异构算力的适配能力。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    海报生成中...

    [No.H001]

    最新新闻

    热门新闻

    即时

    全球顶级AI创作社区回归!海艺AI国内首发“全民娱乐化创作

    海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。