最前线｜CPU AI性能提升10倍！英特尔推第四代至强可扩展处理器，以及超1000亿晶体管GPU_全球快讯

作者｜韦世玮

获悉，1月11日下午，英特尔在中国市场正式推出第四代至强可扩展处理器（代号“Sapphire Rapids”）、英特尔至强CPU Max系列（代号“Sapphire Rapids HBM”），这是英特尔迄今为止最“绿色”、最具可持续性的数据中心处理器，其至强CPU Max亦是首款集成高带宽内存（HBM）的x86处理器。

英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰展示第四代英特尔至强可扩展处理器晶圆

除此之外，英特尔还发布了数据中心GPU Max系列（代号“Ponte Vecchio”），采用3D封装的Chiplet技术，集成超过1000亿个晶体管，其中集成的47块裸片来自不同的代工厂，涵盖5种以上的差异化工艺节点，异构集成技术大幅提升，能够为物理、金融服务、生命科学等领域的工作负载带来更高的吞吐量。

整体来看，英特尔Max系列产品采用可扩展、平衡的架构，整合了CPU、GPU和oneAPI开放软件生态系统，适用于高性能计算和AI领域要求严苛的各种工作负载。

与前一代相比，第四代英特尔至强可扩展处理器针对现代工作负载优化加速，面向人工智能、网络/5G、存储、科学计算、数据分析、安全等领域，其目标工作负载的平均每瓦性能提升了2.9倍，在优化电源模式下，每个CPU节能达70瓦，总体拥有成本降低52%至66%。

第四代英特尔至强可扩展处理器为真实工作负载打造差异化性能

值得一提的是，第四代英特尔至强处理器在一个封装上可集成多达4个采用Intel 7制程工艺的单元，并通过英特尔嵌入式多芯片互连桥接（EMIB）封装技术连接。其最大的特点是内置了7大加速器，覆盖人工智能、数据分析、网络、存储和科学计算等众多领域，也被称为“七大算力神器”：

高级矩阵拓展（英特尔AMX），作为一款内置加速器，AMX能够大幅提高深度学习训练和推理性能，适用于自然语言处理、推荐系统和图像识别等工作负载，如今AMX集成了调优功能，并支持中小型深度学习训练模型，能够进一步提升CPU上的深度学习与训练性能，其中将PyTorch实时推理和训练性能提升了10倍，将大型语言模型的处理速度提升多达20倍。

动态负载均衡器（英特尔DLB），能根据系统负载的变化，动态地在多个CPU内核上高效分配网络数据以进行处理，大幅提升多核平台的网络数据处理性能。

数据流加速器（英特尔DSA），专为卸载常见的、会导致数据中心规模部署开销的数据移动任务而设计，能帮助加速CPU、内存和缓存。通过优化数据移动和转换操作，英特尔DSA提高了存储、网络与数据密集型工作负载，实现更优性能。

存内分析加速器（英特尔IAA），适用于内存数据库、开源数据库以及RocksDB和ClickHouse等数据存储工作，可更快地运行数据库和分析工作负载，提升能效。

数据保护与压缩加速技术（英特尔QAT），可通过卸载加密、解密和压缩释放处理器内核，降低系统资源消耗，让系统能支持更多客户端运行。基于此，第四代英特尔至强处理器也成为单一数据流压缩并加密数据性能最高的CPU。

英特尔安全引擎（Security Engines），包含英特尔软件防护扩展（SGX）、英特尔TDX、英特尔控制流强制技术（CET）等，可提供工作负载保护、加密运算加速、预测性安全保护和平台安全启动，加强隔离敏感数据，实现数据中心更小信任边界。

至强CPU Max系列，集成64GB的高带宽内存（HBM2e），为更多内存敏感型工作负载带来显著性能加速，让关键数据更靠近算力。与第三代英特尔至强可扩展处理器的高端SKU相比，至强CPU Max系列可为能源、地球系统建模等一系列实际应用提供高达3.7倍的性能提升。

英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰现场展示

从发布第一代至强可扩展处理器以来，英特尔已经向全球客户交付了超过8500万颗至强可扩展处理器，支持着全世界的数据中心。其中，近两年第三代英特尔至强可扩展处理器出货近1500万颗。

目前，第四代英特尔至强可扩展处理器也已实现出货，客户订单超过400个，且获得了阿里云、AWS、百度智能云、东软、谷歌、火山引擎、红帽、IBM云、腾讯云、微软Azure、新华三、英伟达等多家生态合作伙伴的支持。

实际上，在本次发布前，等媒体与英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立，围绕第四代英特尔至强可扩展处理器的产品特点，以及未来落地规划进行了一场深入沟通。

以下为等媒体与英特尔专访的对话，经编辑：

Q：新一代至强处理器在碳中和方面有哪些新的特性和参数？

陈葆立：第四代至强处理器是我们最可持续的CPU。可持续发展不只是碳中和本身，它有比较丰富的概念，一个是运营减碳，一个是制造减碳。制造减碳是指在制造过程当中，无论是手机还是芯片，英特尔的工厂本身用了多少绿色能源，这是我们关注的方向。

英特尔也做出了承诺，在整个第四代英特尔至强可扩展处理器芯片生产流程当中，不管它是来自全世界的哪一个工厂，我们有信心其80%以上的工厂能源都是绿能，无论是风力发电还是水力发电，这些是英特尔作为一家企业能够做的部分。

大家在关注英特尔路线图的时候会发现，我们宣布了未来产品会有两条路线——性能核和能效核，其实在未来的产品上，英特尔也会为能效专门定制一款产品。不管是产品本身还是工厂使用的能源，或是与生态伙伴合作探索液冷技术，都展示了英特尔对于碳中和以及绿能的态度。

Q：至强CPU Max和GPU Max上都有HBM内存，英特尔对这一项技术的未来有什么看法和规划？

陈葆立：HBM（内置高带宽内存）是一种非常快的内存架构。过去三五年中，AI是一个非常火的领域，涌现了许多不同的芯片，在AI加速上也有不同的设计，比如AI ASIC专属的加速芯片，其中一个很重要的方式就是加HBM的内存，越靠近芯片的内存，数据的处理速度越快。

一个基本的数据中心架构，我们理解是有一个CPU，很靠近它的是一个内存，再远一点是SSD，更慢的是硬盘，越近速度越快。怎么能比内存更快呢？就是直接把高速的内存嵌入到CPU里面，HBM的方式就是将一个高速内存内置到芯片中，在CPU隔壁以封装的形式实现。这样在运行一些科学计算，包括AI工作负载时会有很大的性能提升。

之前是在AI加速芯片上这么做，现在我们首次在x86架构上做了尝试，因为我们觉得满足这类工作负载的需求非常重要，所以我们专门为此推出了一个优化的CPU Max系列，可以满足客户对AI、科学计算方面的需求。

Q：英特尔CPU在推动云上HPC方面的主要方向是什么？能够帮助云厂商解决哪些挑战？

陈葆立：如果把HPC作为工作负载来看，比如科学计算、天气预测，或是做一些大的模型分析，其实都是一些专门的工作负载。这个特点是对核数和内存需要非常高，因为它需要非常快速大量的计算，这点和AI有点像。

云厂商更多提供的是不同的商务模式，可能以前有一个HPC的最终用户，主要做基因处理，自己就需要做一台机器。现在有很多云厂商发现自己拥有很多算力，所以也想分享算力，去做HPC的云业务，我觉得这是很正常的一个云的业务的延伸，它支持更多的工作负载。

同时，我注意到国外还有一种混合模式。举例来看，因为HPC整个业务的计算量是高低不定的，比如欧洲某大车厂设计车，在某一个时间点需要做一个很大的模型去运算这个车辆的安全性，要去做撞击测试，在这一两个月中就可能有非常大的运算量。但如果买入很多机器，却只在这一两个月有需求，其他时间只需要一半的机器就可以负载，那其实机器量是存在冗余的。

所以有一个混合模式，客户可能只采购一半的量，大部分时候用自建的数据中心，但是在那两个月，当需要更多的CPU算力做计算时，可以找一个云厂商把这两个月的负载做一个混合云的模式，一半的东西自己算，一半的东西交给云厂商，把这个工作负载在两个月之内完成。因为确实有这个需求存在，所以从云厂商的角度来看，这是业务的机会，可以找到合适的最终用户谈一下如何合作，怎么解决这个问题。

Q：英特尔的Chiplet芯片有多少第三方公司的IP？以后会有更多第三方IP吗？

陈葆立：英特尔在做芯片的时候，大部分的IP都是我们自己的，但是并不是所有东西都是自己的。如果现在有一家公司想要做一个Arm的CPU，它要去使用Arm的IP，但是可能Arm还不够，涉及PCIe Gen 5或者DDR5，还要去找其他的公司。

我们发现，这当中也有很多业界的标准的东西，比如DDR5、PCIe Gen 5，我们现在都自己做。但是在未来的世界，比如刚刚讲过UCIe，其实未来我们在设计一个标准，以后小芯片大家可以互相合作能够标准化，英特尔也是其中的一个发起人，未来也是有更多可能性的。

比如Synopsys做了全世界最好的PCIe Gen 6的IP，这个IP Arm可以用，英特尔可以用，AMD可以用，谁都可以用，它的IP最好。如果大家以后设计的理念或者是基于UCIe的标准，都进入同一个标准之后，这个IP是不是大家就可以复用，这个是非常有可能的。所以，英特尔一直在投入和推动UCIe的发展，因为我们觉得未来的芯片设计往这个方向走是对的，之后会有更多合作的可能性。