AI集群:光模块新老代际之间的配置关系

发布于: 修改于: 雪球转发:3回复:13喜欢:21

新易盛中际旭创天孚通信的年报和一季报披露,喜讯不断,一片繁荣的景象。不过呢,也出现了一些噪音,很多粉丝头上开始长草了,今天就来割割草。

关键问题:400G光模块超预期上量,是否会压缩800G光模块? 原先800G高速光模块的产业逻辑,是否就逆转了呢?

这个问题,可以更加抽象化为:AI算力集群中,光模块新、老代际之间如何共存

定义

Compute Node: AI计算节点,对应一个GPU。

Leaf switch /TOR Switch:直接汇聚AI Compute Node的第一层交换机;

Spine Switch: 第二层及以上骨干交换机,实现Spine-Leaf架构,组成CLOS全交换组网。

N:当前光模块代际。

N+1: 下一代光模块代际。

组网及推论

看图:

网络的最下层是 Compute Node,配套光模块的速率由GPU芯片来定义。比如Hopper这一代架构芯片,H100/H200的带宽都是 400G/GPU,配套的网卡是ConnextX-7, 400G的速率,所以,在Hopper这一代GPU,英伟达的AI服务器里面,装的都是400G网卡

再网上就是网络层了。Spine-Leaf架构组合出来的CLOS全交换网络,二层网络结构下,集群内节点数 = P*P/2(P是交换机端口的数量)。所以,如果P扩大一倍,集群节点数量可以到扩大4倍,增益非常客观。但是端口出来增加后,就面临交换机面板出线的难题,怎办呢? 把光模块的速率翻倍! 比如H100配套的交换机 Quantumn2-9700:

内部是64端口400G,但面板是32个OSFP 800G的光模块,1U的高度就搞定了。

由此,我们可以得出一个结论:网络侧的光模块速率均以 N+1代的部署

比如,H100 GPU,服务器上配400G光模块;交换机全部配800G 光模块;

B100/200 GPU , 服务器上全部配800G光模块;交换机全部配1.6T的光模块;

并且,得出一个最重要的结论:

每一代GPU集群系统中,前后两代光模块共存,新老光模块都需要,遵循严格的比例关系,N : N+ 1 = 1:2~4

总结:

1、在800G这代,每2~4个800G,需要 1个 400G。

2、在1.6T那一代,每2~4个1.6T,需要 1个 800G。

3、对于Google的OCS架构,新代际的光模块减半,N:N+1 = 1:1.5

4、完全不存在谁压制谁的问题,共存的比例严格确定。

5、如果400G很景气,只能证明800G会更景气。

6、严格意义上讲,新的代际是老代际的2~4倍,看投资机会,主要看新代际

$中际旭创(SZ300308)$ $上证指数(SH000001)$ $深证成指(SZ399001)$

全部讨论

光模块里面,中际旭创、新易盛、天孚通信的投资者们,我这篇文章,充分说明了,光模块的投资机会:
2024年是Hopper架构下H100/200上量之年,主要看800G,兼顾400G ;
2025年是Blackwell架构下B100/B200上量之年,主要看1.6T,兼顾800G。
$中际旭创(SZ300308)$ $天孚通信(SZ300394)$ $新易盛(SZ300502)$

二阶导已经由负转正了,业绩也大幅增长了,应该是鱼尾行情了吧?

闷大还是旭创牛逼!是这个意思吗?

04-23 19:49

产业趋势下,板块产业共同发展,欣欣向荣

又不懂,还天天评价这几只票,只要你闭嘴了肯定就会大张。