AI光通信的第五个蓝海

发布于: 雪球转发:1回复:40喜欢:43

AI算力集群的核心痛点

一、“内存墙”(memory wall)和“内存搁浅”(stranded memory)

在AI算力集群中,“内存墙”(memory wall)和“内存搁浅”(stranded memory)是两个重要的概念,它们对集群的性能和效率产生着显著影响。

“内存墙”在AI算力集群中指的是内存性能与处理器性能之间的不匹配,导致内存成为性能瓶颈的现象。随着AI模型的不断增大和复杂度的提升,对内存的需求也越来越高。然而,内存的速度并没有随着处理器速度的提升而同步增长,这就导致了处理器在等待内存数据传输时产生延迟,从而无法充分发挥其计算能力。这种现象在AI算力集群中尤为明显,因为大规模的计算任务需要频繁地进行内存读写操作。

而“内存搁浅”在AI算力集群中可能指的是一种资源分配不均或利用不足的情况。具体来说,当集群中的某些节点或虚拟机分配了过多的内存资源,但实际上并没有充分利用这些资源时,就会发生内存搁浅。这些未被充分利用的内存资源无法为其他需要更多内存的节点或任务提供支持,从而导致整体性能的下降和资源的浪费。

为了解决AI算力集群中的“内存墙”和“内存搁浅”问题,可以采取一系列优化措施。例如,通过提升内存的速度和带宽来减少内存墙的影响;通过合理的资源分配和调度算法来避免内存搁浅的发生;以及采用新型的内存技术或架构来提升内存的利用率和性能等。这些措施有助于打破内存瓶颈,提升AI算力集群的整体性能和效率。

二、架构垄断导致高成本

海外专家分析过英伟达B100芯片的成本构成,GPU Die大概160美金,HBM内存颗粒大概2300美金,3D封装大概730美金。GPU计算die的只占成本的5%,而一套十几万美金的GPU server,英伟达的毛利有90%,净利润70%,相当于把HBM内存翻了很多倍卖出去,赚翻了。

这种情况,在10年多前云计算刚兴起的时候,也发生过。光模块属于交换机的一个配件,厂家把光模块买过去后,再加价几倍卖给CSP们,赚得盆满钵满。后来CSP通过白盒化,把网络解构,直接向光模块厂家采购,彻底打掉了这一层不合理利润。

AI算力集群的未来架构和光通信新蓝海的诞生

所以,AI算力集群的新架构要解决两个关键问题:

1、从围绕计算的架构,调整为围绕内存+计算的架构;

2、破除芯片厂家的解决方案垄断,将系统解构。

大家都知道,计算机冯若依曼架构由计算、存储、通信三大件构成,那么核心举措,就是将这三大件池化,通过Full Mesh的Fabric高速互联起来

将HBM从GPU芯片中拿出来,将大大简化芯片的设计,通过解构,把产业链开放出来,引入多元供应商,有助于显著降低成本。同时,通过软件的提前编排,解决内存碎片化的问题,提高利用率。物理形态如下:

这种方案,最大的担心是延时,怎么办? 全光交换(OCS)网络,构建一个零延时的Full mesh架构的Fabric,既可以实现与传统GPU一致的访存效果。

当然,要实现这么高密度的带宽,需要采用CPO技术。硅光老牌公司 Aray Labs展示的愿景:

下面的图是硅谷某Startup的展示动画。

所以,AI算力集群,有三套光纤Full mesh网络

1、GPU <-> GPU Inter-connection , 以Infiniband构建的Full mesh高速网络;

2、 GPU <-> GPU Intra-connection, 以NVLink构建的Full mesh超高速网络;

3、GPU <-> Memory Intra-connection, 以CXL构建的Full mesh超高速网络;

其中第2、3在某种程度上可以二合一,但带宽也必须同比例翻倍。

$上证指数(SH000001)$ $创业板指(SZ399006)$ $中际旭创(SZ300308)$

精彩讨论

闷得而蜜04-09 20:11

我关于AI算力基建中短距光通信系列文章,应该是整个中国资本市场里面,最领先、最深刻、最全面、最客观,又老少皆宜通俗易懂。$上证指数(SH000001)$ $中际旭创(SZ300308)$ $光迅科技(SZ002281)$

闷得而蜜04-09 20:06

雪球真的很神奇,死活不愿意把我关于光通信的文章放到中际旭创的主页上,明明跟旭创最强相关啊。$中际旭创(SZ300308)$

全部讨论

我关于AI算力基建中短距光通信系列文章,应该是整个中国资本市场里面,最领先、最深刻、最全面、最客观,又老少皆宜通俗易懂。$上证指数(SH000001)$ $中际旭创(SZ300308)$ $光迅科技(SZ002281)$

雪球真的很神奇,死活不愿意把我关于光通信的文章放到中际旭创的主页上,明明跟旭创最强相关啊。$中际旭创(SZ300308)$

04-09 20:53

就问一句 影不影响mt插芯的使用。

04-09 20:01

太专业没有看懂

04-09 20:55

看不懂,是不是大概意思,买中际旭创就对了

04-10 13:00

算力已经算是A股最近一年多的热门概念了吧,人工智能及算力概念股常常作为焦点引爆A股行情。

请问这个已经有开始做了么?

04-09 20:27

铜链嗝屁了,光模块还都还好好的!前段铜链吹嗨了都!!

04-09 19:52

每次工业革命都是能源和通讯方式变革 这次Ai革命也不例外 新能源和光通讯会是本轮革命的两大基石

04-09 20:46

蜜大专业,点赞😄👍🏻