AMD:Arete 投资者网络研讨会会议记录

发布于: 雪球转发:2回复:2喜欢:25

$AMD(AMD)$

Brett Simpson

大家好,我是来自 Arete Research 的 Brett Simpson,感谢大家的拨入。首先要感谢 AMD 投资者关系团队的协助,特别是 Mitch 和 Suresh,他们会参与本次通话。

今天我很高兴欢迎 AMD 首席技术官 Mark Papermaster 参加我们的炉边谈话活动。大家都知道 Mark 的背景,他是计算领域的杰出人物,拥有横跨 IBM、Apple 和 Cisco 以及现在 AMD 的杰出职业生涯。我想你已经在 AMD 待了 13 年了吧,Mark,是吗?

Mark Papermaster

没错,到 24 年底就快 13 年了。

Brett Simpson

是的。鉴于当今市场上我们看到的技术变革,尤其是随着 AI 计算市场拐点到来,我认为与 Mark 就计算的未来如何发展进行交流是非常好的。Mark,感谢您今天加入我们。期待我们的对话。

Mark Papermaster

Brett,非常感谢您邀请我与您和我们的听众在下午进行交流。

Brett Simpson

在我们开始之前,我想说一下,我们将在接下来的 45 分钟内解决来自大家的具体问题,然后在最后 15 分钟留出时间进行问答环节。因此,对于已注册的用户,请在通话中输入您的问题,我们将稍后尝试回答您的问题。

Brett Simpson

好的,Mark,也许我们可以先总结一下 AI 市场的前景。去年年底,AMD 预测市场规模将达到 4000 亿美元。这比你们上次预测的市场规模大幅增加。你能否谈谈是什么促使了这种想法的转变?以及 AMD 将专注于市场中的哪一部分?

Mark Papermaster

当然可以。当我们提出 2027 年的 TAM 预测时,我们确实让一些人感到惊讶。但是当你回想起我们在发布该公告之后所发生的事情时,我认为有很多证据可以证明,事实上,市场正以这样的速度爆炸式增长。

从那时起,您看到主要超大规模者宣布他们即将到来的资本支出同比大幅增长。萨姆·阿尔特曼 (Sam Altman) 出面呼吁投资数万亿美元来建立必要的 AI 基础设施,以推动研究人员认为即将实现的能力,如果计算基础设施可以扩展。这正是我们在研究 TAM 预测时所看到的。

当我们想到 4000 亿美元时,它是一个加速器 TAM。它是 GPU,它是周围的内存,它是其他专门针对此 AI 基础设施构建的定制加速器。就是这样。把它想象成像互联网启动时一样的构建。您拥有 - 不仅仅是计算,还有网络、基础设施等方面的整个构建。它是一个新的平台。因此,这确实是一项重大投资。

随着这项投资而来的是货币化,随着成千上万的应用程序以惊人的速度开发,您将看到这一点。因此,必须存在并且存在经济因素。

当你看到 4000 亿美元的 TAM 时,其中很大一部分当然是超大规模者和这些 massive AI 集群构建。因此,这将是超大规模者的第一方工作负载,但也包括第三方。这就是需要最大模型的地方,LLM 正在处理广泛的问题,帮助回答他们正在推动的大幅生产力节省。因此,这是 4000 亿美元 TAM 的一大块。

但它远不止于此,因为当你看到未来几年会发生什么时,AI 不仅仅属于这些最大的超大规模者、这些巨大的集群。企业会发生什么,他们会专注于他们解决业务需求的 AI 需求,而不是解决世界上需要解决的 AI 问题集,而是真正推动他们的业务生产力。这些模型通常尺寸较小。它们可以处理 - 它们可以在云端或本地的小型集群中运行。

坦率地说,您需要更快的响应甚至更低的延迟,例如考虑带有自动驾驶的汽车应用程序,考虑工厂车间,该构建将是嵌入式设备。然后直接到达端点,您现在看到 PC,我们去年推出了带有 Ryzen 7040 的 AI 加速 PC。现在,我们将 2024 年视为 AI 进入 PC 的重要转型年,我们已经走在前面。

因此,TAM 背后有很多东西。我们预计 AI 市场将以 70% 的复合年增长率增长。我知道这看起来像一个巨大的数字,但我们团队所做的工作,我们认为 - 您可以在辩论数字,但事实是它非常大,我们正在投资以抓住这种增长。

Brett Simpson

是的,Mark,就计算平台的定价而言,今天的平台显然围绕着 NVIDIA 的激进定价和高定价而构建。随着您一代又一代地观察,从 A100 到 H100 现在到 GH200,膨胀一直很严重。显然,AMD 现在正开始进入这个市场。但您是否认为 AI 计算的整体定价需要重置,才能让这个市场真正朝着您所建议的 TAM 意义重大地增长?

Mark Papermaster

好吧,布雷特,首先,我认为每个人都天生知道一个潜在前提,但您必须在考虑定价时考虑它,那就是这些 AI 应用、大语言模型应用以及驱动越来越多的准确性和更多的类似人类的人工通用智能类型能力的计算需求是永无止境的。

因此,当你想到驱动底层计算设备的东西时,它试图将更多和更多的计算驱动到更小的区域,并转化为每个 FLOP 更高的功率效率,浮点运算,这是 AI 计算背后的关键元素 - 数学元素,通过训练和推理进行。所以这就是你的背景。因此,基础设备的内容正在增加。

因此,我认为当你退一步时,重要的是要查看总拥有成本,而不仅仅是一个 GPU 或一个加速器,而是总拥有成本。但是现在,当你同时关注宏观问题时,如果市场上没有竞争,你不仅会看到这些设备的价格因其内容而上涨,而且你会 - 没有制衡,你会看到非常非常高的利润率, 超过没有竞争环境可以维持的水平。

我认为 AMD 将竞争带入这些最强大的 AI 训练和推理设备领域非常重要,您将看到这种制衡作用。我们拥有非常创新的方法。我们是小芯片技术的领导者。因此,我们拥有适用于 AI 构建的正确技术。当然,我们有 GPU 加速器。但是还有许多其他电路与能够扩展和构建这些大型集群相关联,我们的设计非常高效。

因此,我们认为,一方面,我们将带来竞争,这将是一个改善因素。但更重要的是,您必须从投资组合的角度看待 AI。它不仅仅是云端这些最大集群构建的 LLM。AI 是我们越来越敏锐地学习如何将我们的应用程序定制到正在解决的问题。正如我之前提到的,您将看到更多地利用您现有的 CPU 构建。许多推理可以由 CPU 完成,我们当然通过 EPYC 服务器支持这一点。

您还看到它正在转移到边缘,我们将 AI 加速添加到我们的 Versal 系列产品、嵌入式设备以及端点,正如我提到的,使用 Ryzen PC。因此,这也帮助管理整体成本结构,随着 AI 从最大的云端安装(这些大型集群)一直延伸到端点设备,资本支出也随之蔓延。

Brett Simpson

我知道 MI300X 开始得很顺利。您能告诉我们您如何规划 MI300X 之后的路线图吗?过去您总是说客户在购买路线图。那么客户在要求什么?或者您正在进行的讨论可能将在两三年后落地?也许可以分享您如何思考路线图的演变。

Mark Papermaster

哦,绝对的。我想我首先要强调的是,我们如何走到今天成为竞争力量。多年来,我们一直在投资构建 GPU 路线图,以在 HPC 和 AI 领域竞争。我们有一列非常强大的火车。我们必须在软件启用方面加强力量。

因此,我们几年前就开始开发 ROCm 软件堆栈。它可以直接与 CUDA 竞争。我们能够正面交锋。我们就像 NVIDIA 一样是一家 GPU 公司。我们已经与 NVIDIA 竞争了一年。因此,许多 - 甚至我们使用的编程语义相似也就不足为奇了,因为坦率地说,我们几十年来一直在走相同的道路。因此,这将我们带到了 12 月 6 日,当时我们宣布了 MI300。我们带来了这种竞争。

因此,我知道有些人会问,为什么我们现在不展示整个多年的路线图?嗯,比赛的第一件事就是你必须扣动扳机,然后你必须开始比赛。这正是我们在 12 月所做的。我们在 AI 推理方面推出了极具竞争力的设计,这是一款领导者设计。事实上,我们完美地执行了这个计划。我们在 2023 年按计划将它推向市场。我们现在正在发货,我们现在正在增加产量。这正是我们想要的。我们 - 这使我们能够与我们的最大客户创建一种截然不同的合作环境。我们与他们密切合作,并从他们那里获得有关 MI300 的反馈。

但现在随着他们采用 - 你看到大型公司与我们站在舞台上,超大规模者、原始设备制造商、最终用户、应用程序开发人员与我们站在舞台上,因为我们证明了我们可以竞争。我们展示了竞争力和领导力设计。所以这让我们坐上了谈判桌。要真正了解接下来需要什么细节,很难赢得那个谈判桌的位置。

您看到的结果是,事实上,NVIDIA 对我们的公告做出了反应。他们实际上加速了他们的路线图。我们没有停滞不前。我们调整了我们的路线图,以加速围绕 MI300 系列的内存配置,MI300 的衍生产品,下一代产品。

因此,我们一直在与我们的客户密切合作,我可以告诉您这一点,我现在就告诉您:比赛已经开始,这将是一场激烈的竞争。你会看到这种来回,就像你一直看到竞争时一样。这对市场来说会很棒。这肯定会鞭策我们尽最大努力进行创新。

而且我认为这会激励每个人都处于最佳状态。因此,非常令人兴奋,我们已经通过 MI300 奠定了基础。请继续关注我们,因为我们将在即将发布的路线图上分享更多细节,因为这确实是我们制定的多年路线图。

Brett Simpson

是的。我们与业内人士交谈时一直听到的一件事是,他们看着路线图说,看,整个路线图都存在内存墙。内存非常具有挑战性。你需要更多的密度,更快的内存。您如何在 MI300X 上解决内存问题,而您拥有比市场上其他 AI 平台更多的内存。那么如何进一步 - 在更大程度上使用内存,因为它对性能和拥有成本有如此大的影响?

Mark Papermaster

是的,布雷特,这是一个很棒的问题。我的意思是,当你拥有这些庞大的计算引擎时 - 并且再次,是数学驱动了 AI。它直接分解为基本的浮点运算和操作,即乘累加大量函数。你必须喂饱这个野兽。你必须以高带宽和大容量引入内存,否则你无法获得所需的性能。我们在 AMD 理解这一点。

我们实际上是第一家在 2.5D 配置中将高带宽内存 (HBM) 推向市场的公司。这是什么意思?我们的 GPU 芯片位于硅片上,连接在硅基板上。因此,我们与 HBM 内存的硅到硅连接,我们在 2015 年推出了我们的 Fiji 产品。所以那是九年前的事了。

因此,我们 - 我们在将内存引入 GPU 计算集群方面拥有丰富的经验。我们引领了潮流。现在台积电的 colo,这是最广泛使用的硅基板连接,可以实现高带宽内存与计算的最有效连接。我们与所有三家内存供应商密切合作。这就是为什么我们率先使用 MI300,并且我们决定更多地投资 HBM 复杂体。因此,我们拥有更高的带宽。

这与 cDNA(我们用于 AI 的 GPU 计算 IP 的名称)一起是基础,此外,是 HBM 技术使我们能够在 AI 推理方面确立领导地位。

正因为如此,我们为未来进行了架构设计。因此,我们拥有 8 层堆栈。我们为 12 层堆栈设计了架构。我们正在使用 MI300 HBM3 发货。我们已经为 HBM3E 设计了架构。因此,我们理解内存。我们拥有关系,并且我们拥有建筑诀窍,可以真正保持在所需功能之上。而且由于我们不仅与内存供应商的关系,而且与台积电以及其他基板供应商和 OSAT 社区的深厚历史,我们也一直专注于交付和供应链。

Brett Simpson

也许我们可以谈谈推理,Mark,因为我经常这么说——我们正处于 AI 的研发阶段,今天以训练为中心。但随着我们部署服务,我们刚刚开始看到 Copilot 和 ChatGPT 的推出,但还有一波浪潮即将到来。显然,部署阶段对于推理需求将非常重要。

您能告诉我们未来几年您如何思考推理吗?您是否认为我们将看到训练平台需要大量大型集群的分化?推理可能采取不同的方向。也许不需要集群,也不需要那么少的 HBM。也许它是一个不同的产品线。也许您可以从计算机架构的角度稍微谈一下推理需求的不同之处?

Mark Papermaster

首先,训练和推理之间当然存在很大差异。我的意思是,训练更多地依赖于原始计算,即每秒浮点运算,您可以在庞大的集群中构建它以满足最苛刻的 AI 训练需求。因此,随着您拥有越来越大的模型,我相信 ChatGPT-4 模型中的参数超过 1 万亿个。它太大了。所以在那里,你需要原始马力,布雷特。

因此,它涉及构建这些大型集群。再说一遍,这就是我们使用 MI300 攻击的原因,因为它确实具有扩展功能,构建基础计算节点。如果您看一下我们的功能,我们会与业界合作。我们不仅提供一种可扩展和构建集群的解决方案。我们与生态系统合作,为供应商提供构建训练基础设施并根据他们拥有的网络提供商进行调整以及他们如何使用不同供应商提供该解决方案的方式提供选项。因此,我们在构建训练解决方案时非常开放。

这种趋势将持续下去,因此训练集群将越来越大。对于那些最大的语言模型印记应用程序,它仍然主要基于 GPU,就像那些用于训练的大规模 LLM 需求一样。但它们是不同的。与其说是相同的集群构建,这里更重要的是延迟。你能多快得到答案?

想想,布雷特,如果你问 GPT 或 Bard,你问这个问题,这是一个非常宽泛的问题。你正在等待回复。您需要非常非常快速地完成计算。再说一遍,这就是内存配置在如何架构以改善延迟方面非常重要的地方。因此,这些 LLM 的趋势将继续以大型基于 GPU 的集群形式建立。

随着您获得越来越多的应用程序,并且这些应用程序不仅仅是广泛的 LLM 和人工通用智能目标集群构建,并且开始看到更多定制的推理应用程序。我已经训练了我的模型,但现在我实际上想要对其进行定制,并想要进行更多定制的测试。在那里,您将看到更多的分叉,布雷特。您将看到利用 - 使用训练良好的模型。并且由于这是一个巨大的模型大小,您将运行在您今天已经在运行业务的 CPU 构建上。

正如我所说,您将看到更多的边缘应用程序。Llama 是一个很好的模型示例。存在 Llama 70B,即 700 亿个参数,然后从中向下移动,更小的模型实际上非常有效。因此,当您缩小使用该 AI 应用程序解决的问题空间时,推理可以变得越来越简洁,并且更低的功耗需求就可以完成工作,并且更低的计算需求。

因此,它更节能和更具成本效益。这就是您将看到的两极分化:继续为搜索 AGI 而构建广泛的 LM,然后推动为广泛的 AI 应用(您现在可以看到正在开发)开发更具成本效益和更节能的解决方案。我们可以在这里的聊天中更多地讨论这一点,但在其下方还有许多其他元素,包括我们认为开源将在构建这些应用程序方面发挥巨大作用,但我们稍后可以讨论。

Brett Simpson

当然,当然。我想在同样的方面,Mark,我想听听您对 ASIC 的看法。前几天我们看到来自 NVIDIA 的一些新闻,他们将开发 ASIC。还有一些超大规模者站出来说,“我们不认为 GPU 足够高效用于推理。所以我们要做自己的 ASIC。”

您如何看待 ASIC 的作用?我的意思是,一方面,技术发展如此迅速。这并不太适合 ASIC 模型。但您如何看待 ASIC 机会?对于 AMD 向客户提供 ASIC 解决方案是否有意义?

Mark Papermaster

当一家拥有大量计算需求的大客户拥有一个算法部分、他们正在运行的定义良好的应用程序并且他们是该应用程序的绝对专家时,他们会看到针对特定领域的 ASIC 就不足为奇了。控制周围的参数,然后创建更定制的解决方案是有意义的,因为您可以真正优化和次优化更稳定应用程序环境的特定元素。然后,您将获得定制的专用 ASIC 硅器件的回报。

我们在业界已经看到这种情况。我的意思是,你可以回去,我之前谈到了与整个网络基础设施构建的比较。您可以查看思科,这是领导者之一。他们经常为许多此类应用程序创建定制 ASIC。然而,当它变得 - 并且真正需要高可编程性的地方,使用的是可编程设备。它是 FPGA,它正在使用 CPU 和 GPU。你在这里看到的是同样的东西。

因此,我们与所有正在构建定制 ASIC 的参与者密切合作。正如我之前所说,需求规模正在如此 insatiable 地增长,您实际上需要所有这些。您将需要持续增长。他们需要我们及其竞争对手继续推动更高性能、更高效的 CPU、GPU、这些异构高度可编程元素向前发展。这允许对算法进行非常快速的创新。

因为硬件不是针对任何一种算法,它支持基本的数学功能。它正在加速这些数学功能。它提供令人难以置信的带宽和低延迟,从内存中提供令人难以置信的扩展效率。这将继续下去。您将看到针对更特定算法需求的这些 ASIC 的持续发展。因此,当我们看到像现在这样 TAM 的扩张时,我们需要在各个方面进行创新,这就是我们正在看到的。

Brett Simpson

有趣。最近我们听到的另一个话题是电力,数据中心电力。正如您所提到的,随着我们看到更多的人工智能计算,您谈到了 insatiable 需求。这里的电力需求是非常不同的。功率密度、机架功率、水冷需求,我们正在转向更高速的 SerDes。您如何看待这个挑战——这会减慢行业发展吗?您认为获得满足实际需求和供应所需电力基础设施会遇到困难吗?

Mark Papermaster

这是一个绝对巨大的挑战。当你看到今天的 data center 时,它们都是受电限制的。因此,这不是地板空间,也不是另一个限制器。它在能够提高其计算能力方面受到功率限制。

那么趋势是什么?趋势是当今用于 AI 训练推理的主要构建块是 GPU - 即随着构建 CPU/GPU 集群。我们非常非常关注围绕该集群的创新。我的意思是,CPU 的优化以及它如何与 GPU 一起工作的优化是至关重要的。自从 2007 年收购 ATI 开始,AMD 就开始致力于优化 CPU 和 GPU。

但这还不止于此,布雷特。这才是真正让我所说的整体设计。因此,我们现在看到推动能源效率,我们不能再仅仅是一个硬件供应商了。我们必须考虑整个应用程序。所以是的,我们正在推动我们设计本身的能源效率。我们拥有许多节能功能,并且我们每代都在电源元件上进行创新。我们拥有整个微控制器, 它们唯一的工作是优化我们计算集群上运行的每个程序的功率。

我们还与我们的代工厂合作伙伴合作。我们主要的合作伙伴是台积电。我们运营着一个深度的、我们称之为 DTCo 或设计技术共同优化的系统。我们正在推动晶体管本身及其制造方式如何降低功耗的非常高的优化。但然后我们将自己提升到整个堆栈。

我们正在放入元素来真正推动使用数学格式和近似值进行优化的元素。因此,在您可以运行 AI 的地方,数学近似值与传统的高性能应用程序运行在 32 位、64 位浮点相比。嗯,HPC 应用程序需要那种令人难以置信的精度,AI 应用程序不需要。因此,这也是另一个节能来源。

因此,这就是我们正在推动的整体设计。我们实际上从 2020 年开始承诺,使用我们异构的 HPC 和 AI 设计基础,到 2025 年通过我刚才描述的所有元素推动 30 倍的改进,并且我们正在按计划进行。我们正在按计划进行。因此,这将是管理能源的一大块。

另一部分将是我之前提到的趋势,即并非所有模型都生而平等。您需要的模型更小,因此,基于所用应用程序的计算效率更高。但我不得不说,您会看到我们将做什么,我们将增加该基本计算、CPU 和 GPU 集群的功率和 generation,用于最大的 LLM 应用程序,但随着您查看边缘应用程序和设备应用程序,我们将提供更节能的解决方案。

因此,当人们思考人工智能的能源消耗时,退后一步看看宏观是非常重要的。宏观是你将看到人工智能应用的惊人增长。所有这些 AI 应用都将处于云端最高、最令人难以置信的功耗需求上,但它们也将转移到边缘和端点。

Brett Simpson

我们看到 - 您提到了一些较小的模型。您认为 AMD 是否需要针对低端 AI 提供单独的路线图?例如,模式大小可能低于 1 亿个参数,也许 MI300X 太强大或 - 也许这不是它设计的目的。那么您是否认为在某个时候看到细分是有意义的,AMD 可以将一些更高性能的客户端 GPU 推广到一个单独类别,用于更低、更小的 AI,如果可以的话?

Mark Papermaster

绝对是这样,布雷特。我们在 AMD 所做的是,我们是模块化设计方面的领导者。这是过去十年 AMD 扭转局势的关键。这种模块化给了我们一个机会,我们现在已经部署多年了。那就是确保我们将产品产品正确调整到手头任务。您会在我们的 GPU 路线图中看到这一点。

所以,再说一遍,我们首先要做的是在最苛刻的训练和推理应用中创造竞争。因为这证明了市场上可以而且确实存在竞争。这使我们获得了谈判桌上的席位。因此,您现在会看到,随着我们继续前进,您将看到其他变体。

我们今天已经拥有 PCIe 外形规格的 MI250。因此,对于那些较小的模型尺寸,它是一个功率更低的 PCIe 连接器。当您拥有那些较小的模型尺寸时,它具有令人难以置信的成本效益和能源效率。您将看到我们的路线图中将继续存在这种类型的 PCIe 产品线。

此外,我们还在我们的产品组合中的每个产品中添加了 AI 功能。因此,您已经看到它 - 再次,我们去年已经从带有 AI 功能的 PC 的 Ryzen 7040 开始。我们在 CES 上的公告增强了 AI 推理能力,并将其引入台式机外形规格。

我们还在嵌入式设备中获得了广泛的接受。您可以查看 Alveo 和我们 FPGA 和自适应计算路线图的其他方面,将 AI 引入嵌入式设备。您甚至会在游戏中看到它,因为游戏中的 AI 可以为您提供更节能的图像可视化和光栅化。因此,它贯穿我们整个产品组合。

正如我提到的游戏,我们现在已经启用 ROCm AI 启用堆栈中的 AI 到 Radeon。因此,这是一项我们在去年做出的重大宣布。我们希望扩大 Radeon 的 AI 支持,因为这在我们的产品组合中提供了广泛的范围 - 我们基于 GPU 的产品组合,从针对最高性能的绝对优化 CD&A 设备,现在也扩展到我们的 RD&A 设备。

Brett Simpson

好的,好的。让我们来谈谈 AI PC,Mark,因为你提到了你对 Radeon 所做的某些更改。但您能告诉我们什么是 AI PC 吗?它是一个特定的规格吗?您是否认为总体而言,我们应该期望 PC 中的 GPU 附加率会上升,因为人们会想要购买性能更高的机器,即加速的 PC 来进行 AI 操作吗?还是更具体地说是关于类似 NPU 符合微软可能即将推出的下一个操作系统的想法?但是任何来自高级别的帮助,我们如何 - 我们应该如何看待 AI PC?为什么您如此兴奋,这可能是推动行业升级周期的一件事?

Mark Papermaster

是的,布雷特,这是一个很棒的问题。我确实相信这确实是 PC 的一个新周期。回想几年前,人们认为 PC 可能已经走到了尽头。但我们看到的是,绝非如此。PC 仍然是主要的的内容创作设备。它在我们的业务需求和任何内容创作以及我们日常工作和商业生活中经常需要的相互交流方面都处于支配地位。

那么什么推动了 PC 的新周期?这确实是新的功能。因此,它可以利用 NPU(神经处理单元)的新功能,例如我们嵌入在 Ryzen 7040 中的功能。我们实际上已经出货了数百万台。因此,我们走在曲线的前沿。我们实际上正在为那些今天购买基于 Ryzen AI 的单元的人进行未来证明,因为应用程序才刚刚开始。

当你想到我们正在进行视频会议时,我的背景没有模糊,但你经常可能会选择模糊你的背景。这是一个今天的应用程序,您可以将其卸载到那个神经处理单元、推理加速器上,以及我们单击此处的一个选项并说,嘿,让我们创建字幕。让我们将您和我所说的话翻译成书面文本并进行字幕。这是另一个今天的例子。

好吧,这与即将发生的事情相比根本不算什么。因为当你看到应用程序类型时 - 微软已经公开表示 2024 年是他们将为 PC 应用程序启用更广泛的 AI 推理和围绕它的开发人员生态系统的一年。它确实会创造一个新的周期,因为现在您将拥有以前从未有过的功能。

这是一场我们今天正在进行的国际广播。所以想象一下,如果你在法国收听这个,并说,我想用我的母语听这个。单击法语,您将获得非常准确的同步翻译设备。它不会限制您处理、会议或执行其他任务的能力。它就在那个推理加速器中。

想想内容创作,您会看到 Adobe 和其他公司正在创造令人难以置信的功能来与自然语言交互并创建新的视觉内容功能。它将改变内容创作。PC 是一个内容创作设备。再加上 AI 卸载功能以及与集成 CPU 和 GPU 协同工作,即将带来令人难以置信的功能。

还有 Copilot。我们在 AMD 使用了许多 Copilot 应用程序。我们已经 - 正在使用它。我想没有一封像创建这样的电子邮件,我不会让 Copilot 帮我起草那封电子邮件,肯定会检查电子邮件,确保它具有上下文感知,它是合适的。所有这一切都还处于非常非常初期阶段。我们不仅与微软合作,而且与许多其他 ISV 开发商合作,对此感到非常满意。

因此,我们对路线图非常兴奋。刚刚推出了 Ryzen 8000,再次成为首批上市的人工智能桌面 CPU,并且我们拥有非常非常强大的路线图。因此,我们在 PC 路线图中显著提升了非常节能、非常低延迟的 AI 处理能力。

Brett Simpson

太棒了。我们马上会开放提问。也许在这样做之前问一个问题。我想问一下英特尔的 18A。我们从投资者那里收到很多关于您对 18A 可能对英特尔重建能力的影响的看法。随着他们为 PC 和服务器增加平台,这是否会让 AMD 想缩短他们的工艺路线图?您是否认为 2 纳米基准芯片是 AMD 需要更快实现的东西?您能分享任何关于来自英特尔的工艺升级以及 AMD 如何从自己的角度看待它的信息吗?

Mark Papermaster

当然,英特尔一直非常公开地在推动其晶圆厂技术方面付出努力。我们在 AMD 所做的是,我们总是假设竞争对手会执行。因此,我们不断努力确保自己继续保持竞争力并实际领导能力。这正是我们在 PC 路线图中所做的。

布雷特,几年前,当你回顾我们推出 Zen 产品线之前以及我们在 7 纳米和更低光刻技术上撼动市场之前的位置时,多年来,我们总是竞争劣势工艺节点。因此,我们必须真正磨练我们的设计能力。因此,您必须通过设计来取胜,并弥补您可能在流程方面存在的不足。

我们从 7 纳米及以后在客户路线图中以及更广泛的路线图中所做的,但我将在这里关注我们用于 PC 的 Ryzen 系列,再次利用 DTCO,与台积电的深度技术共同优化。我们确保我们在每个节点的曲线上都击中最佳点,以便获得正确的性能、正确的功率和性能权衡以及正确的成本和性能权衡。这使我们能够将我们的路线图定位得非常好。

自从推出 Zen 和 Ryzen 产品线以来,我们的 PC 市场份额大幅增长,我们对未来感到非常兴奋。我们 - 我们在路线图上使用了正确的 Linen 3 和 2 时间。但我要再次说,不仅仅是流程。您必须查看核心设计。因此,我们正在利用我们的 Zen CPU 产品线。

我们继续拥有高性能优化核心,但我们也拥有非常密集且功率优化的核心。我们能够支持整个树脂的混合核心。因此,不需要最高性能的应用程序可以运行得更节能,而那些需要性能的应用程序可以获得性能。

顺便说一句,这也是指令和架构的相同实现。因此,程序员不知道它运行在哪个内核上。无论运行哪个混合内核,它的行为都完全相同。因此,我们投入了大量的设计创新,并继续与台积电在节点技术和封装技术方面进行深度合作。

Brett Simpson

好的,太棒了。好吧,我认为这是一个开放问答的好时机。所以我的同事 Yanku 也在场,可以帮助回答问题。那么 Yanku,你想带走吗?

Unidentified Analyst

是的。第一个问题来自伯恩斯坦的 Akhilesh Kumawat。您对 ROCm 与 CUDA 竞争的策略是什么?衡量 ROCm 竞争力的关键技术里程碑有哪些?

Mark Papermaster

不,这是一个很棒的问题。谢谢。正如我之前所说,ROCm 是我们的软件启用堆栈。它至关重要,因为当客户运行时,他们经常在高级别和框架中进行编程。如今,越来越多的人在框架级别进行编程,这实际上与您最终运行的设备无关。您在 NVIDIA 上运行,您在 AMD 上运行。您必须拥有一个堆栈,可以转换那个高级框架或编程语言,例如 Triton,它再次是与供应商无关的。您必须对其进行优化,真正交付价值,即总拥有成本。

因此,我们已经开发多年,并确保我们拥有竞争力强的堆栈。ROCm 首先在高性能计算 (HPC) 方面进入完全竞争的位置,使用 ROCm 5.0,同时我们也在准备和 - 该堆栈也适用于广泛的 AI 应用。当我们在 12 月 6 日的 AI 活动上宣布 ROCm 6.0 时,它现在已经发布,它是开源的,这对我们来说是一个巨大的差异化因素,因为它不仅仅是我们开发的。我们将社区带到我们身边。所以它现在就在那里。它运行性能非常高。它支持当今所有广泛使用的 LLM。正如我之前所说,它现在也扩展到 Radeon。

但我谈到了我们如何针对从货运工人、与供应商无关的库运行的一般用例进行优化。但我们一直在投资的另一件事是,如果您确实以 CUDA 的低级别进行编码,如何非常非常悲惨地将其移植到 ROCm 中的堆栈中。我们已经做到了这一点,并且我们有很多客户推荐信。事实上,我们在 12 月的活动上分享了那些将现有 CUDA 应用程序移植过来的人。

再说一遍,我们就像 NVIDIA 一样是一个 GPU。我们拥有数十年的共同历史和共同旅程,因此,移植过程非常简单并不奇怪。下面还有很多工作要做,因为您需要非常详细和高性能的库,这些库可以从那些 GPU 类型的语义中调用。但我们已经做到了这一点。我们已经把它放在那里。我们已经测试过了。我们拥有非常非常强大的大规模套件。现在我们已经赢得了信誉。我们有一个座位。因此,我们正在与客户合作,构建越来越多的用例。

我现在要指出,例如,Hugging Face 拥有数千个开源 AI LLM。它们不仅在 NVIDIA 上回归,而且在 AMD 上也回归,在任何模型通过他们的夜间发布进行更新之前。

PyTorch,我们是 PyTorch 2.0 和 PyTorch Foundation 的创始成员。再说一次,我们是 PyTorch 的全面支持产品。每天与越来越多的客户一起,我们正在构建这些示例,我们以非常非常快的方式进行构建。我们的客户能够采用 ROCm 并真正获得 TCO 优势。因此,ROCm 6.0 对我们来说绝对是一个转折点。我们并没有放慢脚步。我们已经创建 - 我们正在真正发展我们拥有的部门。该小组是公司的一个完整部门,专注于我们的软件能力和 ISV 支持。

Unidentified Analyst

下一个问题来自 Polar Capital 的 Fred Holt。推特上昨晚有一些新闻,而且已经有一段时间了,关于一家名为 Groq 的公司,该公司声称其可以在 AI 推理方面击败所有人。他们设计并构建了一个使用 SRAM 内存和现在当然还有 HBM 的 LPU。鉴于 MT 正在寻求在推理市场占据份额,您对 Groq LPU 和 AMD GPU 有何看法?

Mark Papermaster

嗯,我要广泛地说,推理应用程序范围非常广泛。事实证明,您尝试做什么以及您的推理与模型的实际训练方式以及如何在非常广泛的推理应用程序中部署它之间的相关性确实很重要。因此,如果您查看在 GPU 上训练的最大 LMM 应用程序,事实证明推理需要在大规模 GPU 上运行。

这并不意味着推理没有创新空间。正如我之前所说,推理应用程序如此之多,我们将看到对我们基于 CPU/GPU 的集群在训练和推理方面持续存在巨大需求。您已经看到我们如何扩展我们的产品组合以满足特定的推理需求,这是有意义的。

我们之前讨论过大型超大规模者创建的 ASIC。当然,我们现在也有初创公司可以创建高效的推理应用程序。但诀窍是查看这些应用程序并说,应用程序需求的软件堆栈是什么?它可以广泛部署吗?或者它实际上是一个更定制的应用程序,这没关系。这仍然意味着它有市场。这正是您将看到的。

但再次,计算能力需求正在天文般增长,当您听到这些公告时,您不必想,哦,嗯,这肯定会扰乱行业中的其他人。根本没有必要。当然,我永远不会说没有破坏的机会,但我还没有在 AI 领域看到过。相反,我们看到的是可以应用于广泛训练和推理应用程序的引擎工具箱的扩大。

Unidentified Analyst

太棒了。下一个问题来自 Viking Global 的 Greg Hart。您能谈谈 AMD 的 AI 网络路线图和战略,以缩小与 NVIDIA 在构建多 GPU 训练集群方面的 GPU 网络差距吗?AMD 计划在多大程度上开发自己的网络芯片或新的网络架构来提高训练性能?

Mark Papermaster

谢谢。这是一个很棒的问题,并且与我们扩展功能以承担那些最大的训练集群绝对相关,我们对此非常关注。首先,我要说的是,我们在这一点上与竞争对手的区别在于,就像我们的软件堆栈是一个舰队开放式软件堆栈,并且明确地发布在那里以推动我们的协作和社区参与,一直到我们的库优化和最终应用程序堆栈。

同样,当您查看我们的硬件构建策略和我们的网络和扩展能力时,也是如此。这都是关于生态系统。我们在 12 月 6 日宣布开放我们 Infinity Fabric 的关键方面,该架构使我们的 CPU 和 GPU 以及 GPU 与 GPU 之间能够非常高效地进行通信。我们正在向网络供应商开放该规范的关键方面,以便他们可以在其当今利用以太网的口头解决方案中。

以太网是目前使用最广泛的扩展网络功能。因此,添加该协议以非常高效地扩展我们的 GPU 复杂性并构建最大型的训练集群不仅是我们训练能力的基础,而且也是围绕它的生态系统以及我们的客户在构建那些巨大的 AI 集群时可以选择他们可能想要使用的供应商配置。

另一个方面是吊舱本身的构建。您如何构建 GPU 集群?这确实涉及我们所拥有的诀窍,因为我们正在使用炼油厂来调整这些 - 扩展能力。我们在 AMD 拥有这项诀窍。因此,我们通过收购 Xilinx 和 Pensando,拥有出色的网络技能。他们专注于确保我们拥有最高效的扩展能力。

您还将看到围绕交换设备的创新,这些设备可以真正将这种能力带给使用行业标准交换机的更高基数扩展 GPU 集群,我们对此也感到兴奋。

Unidentified Analyst

下一个问题来自 Janus 的 Richard Clode。Sam Altman 和 [无法辨别] 都加入了 AI 芯片潮流,但如果你今天开始,即使拥有无限的资金,还需要多久才能生产出具有必要软件堆栈的可行芯片?

Mark Papermaster

嗯,这是一个很棒的问题,也是一个棘手的问题。我的意思是,我之前提到了我们旅程的类比。坦率地说,我们的旅程已经持续了数十年。人们可能会看看说,看这个,AMD 突然出现,这里有一个 AMD Instinct MI300,它正在承担 - 不仅承担 NVIDIA,而且在这些关键的大语言模型推理应用程序中击败他们。

它不是凭空出现的。它来自我们一直在进行的长期旅程,硬件和软件旅程,我们拥有的 GPU 遗产,这花费了多年的时间来制造。再说一次,所有这一切都使我们获得了进入谈判桌的资格,现在我们真正理解算法的发展方向。

对于今天的初创公司来说,最困难的事情是你如果没有赢得业界领袖的信任,你就无法理解新的算法走向何方。您无法理解新的需求在哪里,他们需要灵活性和可编程性,因为变化如此迅速。所以我认为这是一个进入门槛高的行业。当然,会有更多的竞争。

而且我认为您将看到最大的吸引力在于更定制的应用程序,您可以定制和开发独特的优势,并且可以在市场上站稳脚跟。对于这些广泛的高性能 GPU 应用程序,这将是进入门槛最高的地方,再次强调,我们多年来一直致力于实现我们今天拥有领先 Instinct 路线图的位置。

Brett Simpson

Yanku,下一个问题,如果可以的话。

Unidentified Analyst

下一个问题来自 [Peter Rector]。您是否会在某个时候将您的 CDNA 设备分为两叉:提供针对科学计算优化的设备,双精度优化;以及针对 AI 优化的设备,小型数据类型优化?

Mark Papermaster

不,这是一个好问题。我要告诉你的是,如果你看一下我们在整个路线图中所做的,我们首先通过 CDNA 和 RDNA 对我们的 GPU 路线图进行了分叉。因此,其中之一,RDNA 专注于游戏应用程序,它仍然支持 AI,并且将与我们的 CDNA 分享我们所做的 AI 优化基础结构和学习,但它以游戏为中心。

另一方面,CDNA 则专注于 HPC 和 AI。我们将随着时间的推移成熟该路线图。目前,我们所有的设备都支持 HPC 和 AI,这意味着对于 HPC,它确实支持那些高精度浮点运算,FP64、FP32、单精度和双精度浮点,这是 HPC 所需的。

但我们会继续关注这个领域。我要告诉你的是,我们确实看到 HPC 和 AI 处于最终的融合路径上。HPC 的开发人员发现,他们实际上可以在许多情况下利用数学近似。因此,我们将继续关注这个领域。如果需要一个版本的 CDNA - 一个支持双精度,另一个版本不支持,如果这能提供强大的 TCO 优势,我们绝对会考虑添加它。但我们会倾听客户的声音。这是我们在 AMD 最擅长的。我们合作,我们倾听,我们会根据客户需求调整我们的路线图。

Unidentified Analyst

最后一个问题来自 First Republic 的 McLane Cover。您能谈谈可以使用 AMD GPU 而非 NVIDIA H100 的实例和应用程序吗?

Mark Papermaster

任何应用程序,我的意思是,如果您没有一些针对一些独特 NVIDIA 结构的非常非常低级别的编写内容,您可以这样做。我的意思是,您实际上可以应对,以至于您被绑定到 H100,所以您必须将它们分开并放在一边。但我们是一款支持所有常见框架的高性能数据中心 GPU。我们甚至支持可以用 CUDA 编写的低级语义,除非您使用了一些非常独特且高度专有的元素,正如我所说,您可以移植。因此,我们确实在追求数据中心 GPU 计算的广泛目标市场。

Brett Simpson

马克只是为了澄清。今年您是否看到内部需求的更多需求?因此,您的某些客户保留了 GPU - 而不是将它们放入公共云,他们希望将 GPU 用于自己的使用?还是您期望大多数会部署到公共云?我们大约什么时候能在市场上看到带有 MI300 的实例?

Mark Papermaster

是。好问题。我的意思是,这是迄今为止我们发布产品最快的速度。我们首先 - Lisa 提出我们认为我们 2024 年拥有 20 亿美元的市场机会,她在我们最近的收益报告中将其修正为超过 35 亿美元。而且我们正在跟踪那个增长率。

它是由第一方应用程序引领的,因为您拥有迫切需要他们所需计算能力的超大规模者。但您将看到快速跟进。您将在今年上半年看到 - 现在是 2 月,但在上半年,您将看到第三方应用程序在那里出现实例。

您会看到将服务于企业市场及其产品上市的 OEM。因此,我们真的 - 这不仅仅是我们从坡道机会获得的最快坡道。这是我们从第一方应用程序、第三方应用程序和企业跨广阔数据中心应用程序套件所经历的最快坡道。

Brett Simpson

激动人心的时刻。是。这将是引人入胜的一年。

Mark Papermaster

说得好。

Brett Simpson

马克,我只是想对您今天来分享您对 AI 和 AMD 来说真正激动人心的时间的看法表示衷心的感谢。精彩的讨论,非常感谢。我也想向 Suresh 和 Mitch 表示感谢,他也在线上,使这一切成为可能。

马克,你想留给观众的最后评论吗?

Mark Papermaster

是。首先,感谢您的邀请。我的意思是,我们真的很兴奋。我们对我们在 AMD 所做的事情充满热情。我们很高兴能在最高级别的 AI 带来竞争,并且我们很高兴在整个产品组合中引入 AI,所有这些都使用我们在公司基本上开发和支持的一个软件堆栈。正如你所说,布雷特,激动人心的时刻即将到来。非常感谢。

全部讨论

提到crop公司

02-22 22:59

海 光 信 息 和 华. 为 就是我们AI产业的定海神针。如果没有它们,老 美会对我们限售所有规格的AI芯片,包括阉割版,直接釜底抽薪!老 美的第一目标是扼制我们AI产业的发展,第二目标才是赚我们的钱!