小于15μs，单口接近24Gbps：OC联合网迅推出低时延、高吞吐解决方案

2025年07月31日 09:15:21 来源：CITNews中文科技资讯

　　在AI训练、高频交易、云游戏等场景爆发的今天，一张网卡、一套操作系统的“单打独斗”已无法满足业务对“微秒级时延、百Gb级吞吐”的严苛要求。

　　为将硬件加速能力与操作系统级深度调优结合，近日，OpenCloudOS携手网迅，推出低时延、高吞吐的网卡联合解决方案，在x86和Arm双架构下，实现了单流TCP吞吐23.5Gbps(逼近理论带宽)，微秒级时延，为AI/HPC及云场景带来“开箱即用”的极致网络性能。

　　一、从协议层到硬件的联合创新

　　国产化替代的生态短板、硬件性能与协议栈的效率鸿沟，以及实时场景的确定性需求，正驱使OS和网卡厂商联合寻求相关的低时延、高吞吐解决方案。例如，传统网卡在某些行业的实际应用时常常面临时延的挑战——普通万兆网卡时延在15–50μs，而金融高频交易需满足1–5μs级响应;OS层也会由于和硬件协同不足，而产生高负载下CPU中断处理、内存带宽竞争形成的时延抖动。

　　基于这些痛点和行业用户需求，今年6月起，网迅团队和OpenCloudOS社区(以下简称“OC”)就智能网卡驱动合入和联合解决方案的打造，开始了深度协同合作。

　　针对低时延、高吞吐的优化，网迅做了几个方面核心的改进和创新：

　　1）协议层创新，解决传统RDMA瓶颈：包括采用选择性包重传(而非Go-back-N机制)和链路层重传，显著提升有效吞吐;支持Relaxed Ordering，实现包级多路径转发等;

　　2）智能拥塞控制算法：容器化多路径转发技术上，借鉴GSE协议的PKTC容器技术，对报文进行逻辑分组转发，提升带宽利用率;

　　3)多路径传输优化：支持包级别的多路径传输，而不仅是流级别，通过动态均衡避免大象流导致的拥塞;

　　4)乱序处理能力增强：允许接收端不强制重排序，减少buffer需求和处理延迟;

　　……

　　网迅也将以上核心的技术创新融入到最新一代的25G、40G网卡产品产品中，定制开发txgbe-2.1.1驱动。

图片1.jpg

　　左：报文容器多路径转发技术(PKTC) 右：动态全局调度技术(DGSQ)

　　因此，本次网迅优先将FF5025系列和FF5040系列25G、40G网卡驱动代码合入OC 5.4和6.6内核，实现与OC的深度适配，双方针对NUMA拓扑、PCIe通道等进行多项补丁级优化，驱动操作系统环境下的稳定性、效率和整体性能的提升。而OC也是国内首批支持网迅25G网卡驱动方案的服务器OS。

图片2.jpg

　　在与OC系统融合过程中，OC为网迅网卡提供了定制化的内核驱动，优化中断处理、DMA映射与内存管理机制，结合CPU亲和性与NUMA架构，确保网络处理线程的高效调度，减少跨界点访问延迟。

　　二、实测效果：性能与能效的双重突破

　　为确保该方案在异构环境中的稳定性，并追踪实际性能效果，网迅团队在Arm和X86架构下搭载OC 8和CentOS操作系统进行了多维度的对比测试，使用了多种测试工具和方法(iperf、netperf、qperf)。

　　整体性能测试结果，展现了该解决方案在超限带宽利用率、小包处理延迟、多模式高可用等多个维度的实际效果：

　　﹒超限带宽利用率高：在25G网络环境下，TCP传输带宽稳定达23.5Gbps(接近物理极限)，IPv6场景保持23.2Gbps高水位;在IPv4双口双向测试中，两个网口同时双向传输时每个方向还是23.5Gbps，没有掉速，全双工饱和吞吐能力较强;

　　﹒端到端延迟低：业界通用方案常常在15-30μs甚至更高;对比之下，本次测试在x86平台下，TCP Latency 12.7-15.7μs，UDP Latency 11.5-12.6μs，能满足延迟敏感型应用(高频交易、实时游戏、远程控制、分布式存储)的严苛场景需求。

　　﹒多模式高可用：本次测试结果x86 bond mode 4结果RX 47.1 Gbps，TX 47.0 Gbps;x86 bond mode 6结果RX 48.07 Gbps，TX 48.07 Gbps。这两个模式(mode 4，LACP;mode 6，Balance ALB)几乎完全发挥了两个物理端口的总带宽潜力(单口25G上限，双口聚合上限50G)，达到了线性叠加。在很多情况下，聚合效率能达到90-95%就算不错了。

　　﹒小包处理能力强：x86平台下，TCP_RR∼35,000-37,800次/秒，UDP_RR∼35，600次/秒。ARM平台下，TCP_RR∼22,800-26,000次/秒，UDP_RR∼27,700-27,900次/秒。x86平台的数值，表明内核协议栈和驱动对小包处理非常高效。这对于微服务架构、分布式数据库的协调通信等场景很关键。

　　﹒能效比提升：据网迅介绍，其通过高压单元设计、数据通道精简优化实现“性能每瓦特”领先，例如在满负载的情况下，功耗仅7-8瓦。

图片3.jpg

　　25G网卡基于OpenCloudOS 8的性能调优实践

　　总的来说，测试结果表明，OC 8搭载网迅txgbe-2.1.1驱动在x86 IPv4协议栈上实现了较为优秀的端到端网络性能表现。小于15us的延迟、接近物理极限的单口与双口双向饱和吞吐率、高效的链路聚合能力(bond mode 4/6)以及强大的小包处理能力(RPC高事务率)等，是该联合解决方案相比业界通用方案最具竞争力的地方。这些优势对于高性能计算、云数据中心、高频交易等场景至关重要。

　　当然该结果仅用于展现通用场景的基准测试，如有相关企业或用户需针对自身业务场景，提升某些具体指标项的性能表现，可向OC或网迅团队进行咨询。

　　未来，双方团队后续在协议栈、Arm平台软硬件优化、其他bond模式上还会进一步做更多的联合优化。例如：目前在多个测试场景下，IPv6的吞吐量、稳定性均低于IPv4;ARM协议栈对小包处理效率较低，需针对性优化;UDP多流性能瓶颈，可能需要需进一步优化IRQ亲和性。

　　三、该方案可落地场景参考

　　通过以上数据实测分析，OC与网迅的低时延、高吞吐解决方案将对以下行业产生一定价值：

　　1、AI大模型训练场景：能解决千卡集群中“大象流”引发的拥塞冲突，端到端带宽利用率提升，百亿参数模型训练时间将显著缩短;

　　2、云原生基础设施：无损网络特性保障容器网络性能隔离，能支撑万级Pod的规模化调度;

　　3、大规模数据中心：低功耗表现，将有助于数据中心PUE优化，单机柜全年省电预估超千度。

　　该解决方案的落地，不仅帮助双方打开了更新的协同方式，还标志着软硬件厂商在网卡领域的协同技术突破。后续，OC将联动网迅持续深化合作：基于400G/800G网卡的创新，强化多路径感知调度与异构算力的适配能力。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

海报生成中...

[No.H001]

即时

全球顶级AI创作社区回归！海艺AI国内首发“全民娱乐化创作

海艺AI的模型系统在国际市场上广受好评，目前站内累计模型数超过80万个，涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景，基本覆盖所有主流创作风格。

火山引擎具身智能闭门研讨会：大模型驱动具身智能产业新未

滴滴公益救援队驰援密云暴雨一线

小于15μs，单口接近24Gbps：OC联合网迅推出低时延、高吞吐解决方案

最新新闻

热门新闻

即时

全球顶级AI创作社区回归！海艺AI国内首发“全民娱乐化创作

新闻

明火炊具市场：三季度健康属性贯穿全类目

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

专题

小于15μs，单口接近24Gbps：OC联合网迅推出低时延、高吞吐解决方案

扩展阅读

最新新闻

热门新闻