深入浅出谈谈,AI集群、NVLink、光模块

发布于: 雪球转发:2回复:80喜欢:98

深入浅出谈AI光模块需求

性能提升的秘密武器:缓存

CPU访问一次DDR内存空间,需要几百个时钟周期,如果没有其他办法,将会导致99%的时间CPU时间在等待数据而空转。所以科学家就想出了一种办法: Cache

计算机的程序和数据访问范围虽然很大,但是具有明显的局部性特征:在某一时刻,程序所需要的下一条、或者几条指令很大的概率就在附近,某一时刻前后所需要的数据也大概率就在附近。在读取当前指令和数据的时候,顺便把前后一定范围的指令和数据都读取到靠近CPU的Cache里面,这样当CPU执行完指令,去提取下一条指令的时候,发现这些数据“就在自己房间里面”,从而大大提高了CPU的实际运行性能。

这就是CPU通过Cache机制获得巨大性能增益的原理。Cache有可以分成好多层:

随着芯片工艺进步,三级cache(LLC, Last Level Cache)也越来越多的集成在处理器内部了。

AI计算性能提升的窍门

AI算法在数学层面,最终是大规模的矩阵、张量运算。

随着算法越来越复杂,这些矩阵动十分庞大,一张GPU卡无法在同一时刻算完,怎么办呢?只能很多张GPU卡在一起,每人分一部分,算完后再一起汇总出结果。

这种方式,计算机科学的专业术语是大规模并行计算,所组成的硬件叫超级计算机集群。但是呢,网络通信是有延时、抖动、掉包等问题的,这么多GPU连在一起,GPU与GPU如果不能够及时的通信,就会面临类似 CPU遇到的“内存墙”问题,大幅降低性能。

怎么解决呢?思路与Cache机制有异曲同工之妙。Cache的依据是指令和数据的局部性,AI矩阵运算也同样有局部性的特征,某个子矩阵往往跟周围几个子矩阵关系最密切,而离较远的子矩阵不关联。所以,如果我们把两个GPU用最高的通信接口整合在一起,就能解决大部分问题,从而显著提高算力。依次类推,能不能把4个GPU堆叠在一起? 能不能把32个GPU堆叠在一起?像内存的Cache一样,形成层次化的架构? 答案是:完全可以。

所以,AI超算集群,是一种层次化的集群架构。

英伟达AI集群解析

上文的图中已经展示了Nvidia的AI集群系统,分成两大种内:NVLink和InfiniBand。其中NVLink术语Nvidia专有的技术,有硬件直接完成GPU之间内存的互相访问,无需CPU的干预。而InfiniBand则要由CPU进行管理,通过虚拟化的形式,让GPU之间互相访问。这两种方案的性能差别很大,所以,Nvidia每一代新架构发布,都想方设法扩大NVLink 的势力范围。 NVLink和InfiniBand的关系可以这么类比着理解:

所以这里有一个很重要的概念:

1、即使每一个CPU芯片内部有大量的L1、L2、L3缓冲,每台服务器还是需要配置大量的内存条,Cache的作用只用于提升性能。内存条的多少,由程序的大小和数据规模的规模决定。

2、同理,AI服务器集群中,即使大量使用NVLink做加速,但还是需要大规模的InfiniBand将更多的GPU互联起来,完成更大的AI运算。InfiniBand的规模:由算法模型的复杂度和训练的并发度(时间)来决定;由芯片硬件所能支撑的集群规模上限约束;

所以,在一个集群中,NVLink、InfiniBand(光模块)的数量可多可少,根据需求和投资规模来决定。总结一下,英伟达的AI算力集群是一个双平面的架构:

NVLink主要负责近距离并行计算,提高性能;InfiniBand主要负责扩大集群规模。

Spine-Leaf:InfiniBand的网络架构

为了使集群系统内部的GPU之间能均等地访问,InfiniBand均采用Spine-Leaf网络架构。这种架构下,任何两台设备之间的访问距离均相等,降低延迟。

Hopper架构下的集群系统

所需要的光模块配置关系

Blackwell架构的集群系统

所需光模块的配置关系

上表格可以看出,B200 NVL72配置模型下,当集群的GPU数量超过576时,平均一个GPU需要配置7.5支800G的光模块,4支1.6T的光模块。单从GPU与光模块的配比看,新架构的光模块需求显著增加了3倍。

为基于相同的算力水平公平对比,新旧两种架构的GPU算力都归一化到H100,按照官网的数据B200=3*H100。那么Blackwell架构下的 DGX B200 NVL72 SuperPod配置下,只要集群GPU数量超过2K(等价为H100的6K),光模块的数量明显比上一代要多,大概多出50%。

当人,可以购买B200新架构的目的是希望有更强大的性能,以支撑越来越庞大的算法模型。所以,新的架构必将驱动高速光模块快速增长。

总结

一、为了提高GPU的性能,增加NVLink投资;

二、为了提高GPU的集群规模,增加InfiniBand规模;

三、Nvidia的架构主要围绕GPU芯片和NVLink的集成度创新,InfiniBand与架构弱相关;

四、当IB域 > NVLink时,因为GPU与GPU之间是全连接网络,InfiniBand的规模可大可小,决定因素有:

1、只由GPU的数量决定,与NVLink的规模无关;

2、有应用场景和AI算法决定,如果AI算法生成的运算有更强的内聚性,GPU之间的负载较轻,则可以减少IB网络的投资。

3、因为当前阶段的AI还处于初级阶段,算法只会越来越复杂,所以,并不具备减少IB网络投资的前提;

4、有投资预算决定。

$上证指数(SH000001)$ $深证成指(SZ399001)$ $创业板指(SZ399006)$

精彩讨论

闷得而蜜03-22 17:44

博通的报告写得很清楚,四米距离,最多只能做到100G的速率。200G的速率降到了两米,并且还是期货,要以后才能实现。

闷得而蜜03-23 13:53

这种想法,说明根本不懂NVlink

起手一对A03-22 13:51

你这个过时了,看看昨天博通的PPT和会议纪要,博通官网上都有。铜缆可以做到4米之内的距离都用铜缆联系,576张卡的8机柜小集群可以完全不用光模块。之后用CPO代替传统光模块,博通这类的交换机厂商直接把CPO集成在板子上,最容易坏的激光器做成可插拔模块,这样降低成本降低功耗。这是最大的利空

dishii03-23 19:36

你这个发言属实有点逆天了,很难想象你以前也是看好中际的,竟然能发表这样的观点。就问你两个问题,在博通研发出cpo之前是不是光模块或者LPO是长距离大型数据互联的唯一解?另外在现在发展大算力的时代都讲究集群效应,哪家公司会只买8台柜,用来摆在公司当家具炫富么?CPO说难听点博通2027年能实现量产都已经很乐观了,那这之间的三年算力高速发展期,各大厂难道不用光模块停止发展AI等着他去研发CPO么?所以这三年依然还是算力,光模块的高速发展期,根本绕不开光模块。至于CPO,博通那个说难听点不叫幻灯片,根本就是科幻片,美好的想象罢了。xys的LPO还是值得期待的。所以不用考虑那么多,就问一下自己,目前不用光模块有别的能替代吗?答案已经很清楚了。

飞天小战03-22 21:38

科技端的主线必不可少
去年的会议召开后,基本定调了今年的大方向。就像23年的数字中国一样,围绕着科技炒作了一年。
今年的主线是以科技创新带动现代化产业体系,意味着还是科技类,也提出了新质生产力这一新名词,总体分为以下方向
传媒游戏类(数据要素 AIGC Sora 短剧 kimi)
通信类(6G CPO 数据中心 工业互联网)
计算机类(多模态 算力 鸿蒙 信创)
消费电子类(AR/VR/MR 存储芯片 PCB HBM)
汽车类(无人驾驶 智能座舱 汽配)
机器人类(工业4.0 新型工业化 机器视觉 减速器 高端装备)
医药类(CRO 医疗器械 减肥药 中药 医美)
军工类(低空经济 航天航空)
国改类(高股息)
国改+以上8大板块是加分项,算是暗线
上半年看超跌,主线板块基本都是超跌,双双共振
$上证指数(SH000001)$ $

全部讨论

你这个过时了,看看昨天博通的PPT和会议纪要,博通官网上都有。铜缆可以做到4米之内的距离都用铜缆联系,576张卡的8机柜小集群可以完全不用光模块。之后用CPO代替传统光模块,博通这类的交换机厂商直接把CPO集成在板子上,最容易坏的激光器做成可插拔模块,这样降低成本降低功耗。这是最大的利空

第二层网络好像是可以用NVlink switch去做链接的,把8台机柜链接起来,而不是通过IB网络,但是不知道具体怎么操作

03-22 10:54

大佬怎么看昨晚的博通的纪要,CPO能成功吗?

03-22 21:38

科技端的主线必不可少
去年的会议召开后,基本定调了今年的大方向。就像23年的数字中国一样,围绕着科技炒作了一年。
今年的主线是以科技创新带动现代化产业体系,意味着还是科技类,也提出了新质生产力这一新名词,总体分为以下方向
传媒游戏类(数据要素 AIGC Sora 短剧 kimi)
通信类(6G CPO 数据中心 工业互联网)
计算机类(多模态 算力 鸿蒙 信创)
消费电子类(AR/VR/MR 存储芯片 PCB HBM)
汽车类(无人驾驶 智能座舱 汽配)
机器人类(工业4.0 新型工业化 机器视觉 减速器 高端装备)
医药类(CRO 医疗器械 减肥药 中药 医美)
军工类(低空经济 航天航空)
国改类(高股息)
国改+以上8大板块是加分项,算是暗线
上半年看超跌,主线板块基本都是超跌,双双共振
$上证指数(SH000001)$ $

今年的热门赛道,还是人工智能$国轩高科(SZ002074)$ ,记住了,别人我不说

03-22 11:07

我想了解下天孚 因为他是在太强了 估值比中际高太多了 硅光好像无法对天孚构成利空

03-22 10:16

核心要点:算集群内光模块的数量(IB网络的规模),只要看到GPU数量就行了,彻底忘记NVL,然后按照spine-leaf数端口。网上到处传递的错误信息,彻底混淆了NVLink和IB的关系。

因为当前阶段的AI还处于初级阶段,算法只会越来越复杂,所以,并不具备减少IB网络投资的前提;
AI进入中高级阶段,或许算法会返璞归真,网络投资与最终的算法会逐步从正比转为反比例!那时候就是科技创新进入数量级的抬升时刻

03-22 12:57

浅出的很好!闷der蜜

闷总懂得真多,但是真不想拿拉基旭创了