面向AI大模型训练的高性能网络-中兴通讯RoCEv2网络端网协同创新方案大幅提升AI大模型训练效率

发布于: 雪球转发:0回复:1喜欢:0

太专业的东西,实在不懂,只好借助于Kimi了!不经意的查找,又一次获得了惊喜!市场太小看一个在DICT领域三十余年的全栈全域技术积累的企业了!中兴通讯现在是很弱,被券商贬低,被机构抛售,被各种打压!几十年的技术积累,造就了无与伦比的专业技术解决方案!

中兴的这个方案的好处做本质的好处就是大幅度的降低了成本,这个创新方案,相信将大幅度的提升中兴的解决方案,同时也大大的降低了中兴自己大模型的训练成本,对外能带来开源效果,对内能产生节流!希望,中兴加大市场营销力度,加大力度让新技术、新方案、新研发转化为市场竞争力和生产力!

下面的内容来自于中兴通讯的官网,免费帮公司做宣传了!中兴的市场部,你们可得加油了![大笑]

面向AI大模型训练的高性能网络

发布时间:2024-03-22 作者:中兴通讯 杨茂彬 阅读量: 1

ChatGPT的火爆,催生了人工智能从判决式到生成式的跨越式发展,百亿千亿参数规模的AI大模型训练如火如荼的展开,对高性能网络提出了迫切需求。AI大模型训练依赖于分布式并行计算,包括数据、流水和张量并行,为了最大化发挥GPU算力,需要将通信时间开销占比控制在5%以内,这就要求AI大模型训练的网络必须是满足零丢包、低时延、高吞吐大带宽以及大规模组网的高性能网络。

当前高性能网络主流解决方案

应用于AI大模型训练场景的两大主流高性能网络技术为IB网络和RoCEv2网络。

IB网络起源于上世纪九十年代,原旨在替代PCI总线技术。然而,它在高性能计算和AI领域的数据中心中意外受到欢迎并得到广泛应用。IB网络通过信用流控机制实现了无丢包传输,并提供QoS服务质量以优化特定流量。尽管IB网络有诸多优点,但由于其配置、维护和扩展的复杂性,以及需要专门的硬件和子网管理器,导致成本较高,并不像以太网那样普及。

RoCEv2网络是基于以太网演进的,它允许通过封装RDMA帧在IP/UDP报文中实现远程直接内存访问。当数据包抵达GPU服务器的RDMA网卡时,数据可被直接传输到GPU内存,绕过CPU以降低时延。另外,通过部署DCQCN等拥塞流控方案,降低RoCEv2网络的拥塞和丢包。RoCEv2网络为统一承载网络设计,满足高带宽、高弹性组网,云化服务化和扩展性支持较好,是国产化高性能网络的必选之路。

当前RoCEv2网络拥塞及流控机制问题分析

RoCEv2网络中,DCQCN是最常用的拥塞控制算法,它通过交换机的ECN标记来检测并指示网络拥塞。交换机在发现拥塞时,会概率性地在数据包上加上ECN标记,RDMA网卡则根据这些标记来判断网络状况,并通过CNP报文来调整数据传输速率。DCQCN算法公平高效,非常适合高性能计算和AI学习等需要高吞吐、低时延的应用场景。

但DCQCN也存在如下不足,导致网络吞吐率徘徊在50%~60%:

- 拥塞指示不够精确:ECN标记只有1bit,无法细致区分不同程度的拥塞;

- 速率调整反应缓慢,精度不足:仅依赖CNP报文来调整速率,缺乏其他网络信息反馈;

- 没有结合流量特征调优:没有考虑长短流的不同特性,以及调度间隔周期;

- 没有考虑多路径均衡调度:多打一流量分布不均,未能充分利用AI网络多路径带宽资源。

中兴通讯RoCEv2网络端网协同创新方案

传统DCQCN网络因其拥塞标记信息粗略和端侧与网络侧流控机制的相对独立,难以在高吞吐、满负荷的网络环境下避免拥塞、丢包和时延等问题。为提升高性能网络的传输性能,中兴通讯提出了RoCEv2网络端网协同创新解决方案,通过端网协同联动机制实现精准、快速的拥塞控制和流量调度算法,使网络的吞吐率提升到90%以上(见图1)。该方案在拥塞控制和精准流控两个方向实现端网协同创新。

端网协同新型拥塞控制技术

网络设备通过快速CNP和带内遥测技术及时准确的向端侧提供链路拥塞信息,实现新型拥塞控制技术。

- 快速CNP技术

传统DCQCN网络,当网络设备出现拥塞时,相关链路的数据报文会打上ECN标记,目的端网卡收到ECN标记报文再向源端网卡发送CNP报文,源端接收到CNP报文后进行调速,该过程周期较长,调整速率响应缓慢。我们提出快速CNP解决方案,中间交换机检测到拥塞时,会迅速向源端网卡发送包含详细拥塞信息的CNP报文,源端网卡能更快地利用这些信息精准调整流量,从而迅速缓解网络拥塞。

- 基于带内遥测机制的精准拥塞流控技术

传统DCQCN中的ECN拥塞指示只有1bit,无法精确表达链路拥塞程度,源端也就无法进行精准流量调控。我们提出了基于带内遥测技术携带更多路径负荷信息的解决方案,中间设备在遥测报文中填充可用带宽、队列深度、时间戳、发送字节数等信息,端侧收集齐路径所有网络设备的遥测信息后,根据训练调优后生成的流量调度算法对流量进行实时精准调控,使端到端路径流量达到高吞吐、低时延、无拥塞的最佳状态。

端网协同多路径精准流控技术

网络侧与端网配合,充分利用RoCEv2网络ECMP路径和多种负载均衡技术,提升数据传输效率。

- ECMP路径端网协同通告

AI大模型训练数据中心的RoCEv2网络采用胖树CLOS架构,拥有丰富的ECMP路径。RoCEv2网络控制器掌握全网拓扑,并向端侧同步ECMP路径信息,以优化数据传输,提升网络效能。

- 根据流量特征匹配的负载均衡技术

端侧根据流量特征(如老鼠流、大象流)选择不同的负载均衡技术,通过报文哈希或源端口散列进行选路,并可根据网络负载实时调整策略,以提升数据传输效率。

随着AI大模型参数从千亿迈向万亿,以及AI芯片算力供给受限,万卡规模的智算集群网络成为必然,大规模组网场景下的精细化端网拥塞控制成为业界亟待解决的共同挑战。中兴通讯提出的RoCEv2网络端网协同创新解决方案,旨在改进网络的吞吐率,强化AI大模型训练网络性能,进一步释放AI算力,提升AI大模型训练效率。

全部讨论

03-23 20:36

$网宿科技(SZ300017)$ 百亿千亿参数规模的AI大模型训练如火如荼的展开,对高性能网络提出了迫切需求。AI大模型训练依赖于分布式并行计算,包括数据、流水和张量并行,为了最大化发挥GPU算力,需要将通信时间开销占比控制在5%以内,这就要求AI大模型训练的网络必须是满足零丢包、低时延、高吞吐大带宽以及大规模组网的高性能网络。
大模型越来越多,必然是海量的数据高速传输和流动,造成网络拥堵。kimi宕机其实是边缘侧用户爆发性的涌入,数据短时间太大,造成了网络堵塞,服务器爆了。也就是CDN的服务力不够。而智障的表现则是算力不足造成的。
算力是真的重要,没有算力,出来的都是智障。如果没有一个高速传输的网络,访问不了或者卡顿一样影响使用感受。边缘计算也很重要。$中兴通讯(SZ000063)$