奇妙的96核心,12通道DDR5

近日,AMD正式发布了代号“Genoa”(热那亚)的第四代霄龙EPYC 9004系列处理器,面向服务器、数据中心、高性能计算、人工智能等领域。

 

 

此前,我们已经介绍了EPYC 9004系列的型号规格、整体特性、性能能效,但是关于它,还有很多层次的东西可以挖掘,包括架构、SoC、内存、小芯片、CXL等等。

 

 

今天,我们就来仔细说道说道。

 

图片[1]-奇妙的96核心,12通道DDR5-栗子博客

 

一、Zen4架构

 

 

EPYC 9004系列基于和桌面锐龙7000系列同款的Zen4架构,只是针对服务器与数据中心应用做了适当的调整优化。

 

图片[2]-奇妙的96核心,12通道DDR5-栗子博客

 

整体而言,综合计算33种不同的服务器负载,Zen4架构的IPC相比Zen3提升了大约14%,这比锐龙7000系列的提升高了1个百分点。

 

 

不同模块的贡献差不多,最大的还是前端部分,接下来是载入/存储、分支预测、执行引擎、二级缓存。

 

图片[3]-奇妙的96核心,12通道DDR5-栗子博客
图片[4]-奇妙的96核心,12通道DDR5-栗子博客

 

架构总览,以及与Zen3的变化细节对比,都和桌面版Zen4几乎毫无二致。这里也就不再赘述了,感兴趣的可以参考我之前的解析。

 

图片[5]-奇妙的96核心,12通道DDR5-栗子博客
图片[6]-奇妙的96核心,12通道DDR5-栗子博客

 

AVX-512指令集其实也是一模一样的,但它在服务器数据中心显然更加如鱼得水,作用更加明显。

 

 

根据AMD提供的数字,双路96核心新旗舰EPYC 9654对比双路64核心老旗舰EPYC 7763,得益于规格性能的改进,尤其是AVX-512指令集的加持,NLP吞吐量、物体检测吞吐量、图像识别吞吐量分别增加了大约4.2倍、3.5倍、3倍之多!

 

图片[7]-奇妙的96核心,12通道DDR5-栗子博客

 

安全方面也更丰富,其中安全加密虚拟化(SEV)方面,除了继续支持SME、SEVES、SEV-SNP,还将内存加密升级到AES-256-XTS,并支持1006个加密客户机,支持多重主机密钥(SMKE)。

 

 

另外强化了对客户机的保护,尤其是可免于SMT攻击。

 

 

二、SoC总览

 

图片[8]-奇妙的96核心,12通道DDR5-栗子博客

 

这是EPYC 9004系列额整体布局图、核心特性。

 

 

这一代依然没有独立芯片组,而是一个完整的SoC,延续chiplet小芯片设计,内部包含一个IOD、最多12个CCD。

 

 

CCD每个集成8颗Zen4 CPU核心、32MB三级缓存,合计最多96核心、384MB三级缓存,同时也有8个CCD、4个CCD的版本,分别最多64核心、32核心。

 

 

IOD内集成了DDR5内存控制器、PCIe 5.0/CXL 1.1+控制器、第三代Infinity Fabric控制器、安全处理器。

 

 

内存为12通道,最高频率4800MHz。PCIe 5.0可提供128条。这两部分后边细说。

 

 

封装接口改为新的SP5,尺寸增加到约75×72毫米。

 

图片[9]-奇妙的96核心,12通道DDR5-栗子博客

 

单路配置下,EPYC 9004系列可搭配最多24条DDR5内存,每通道2条(2DPC),可提供128条PCIe 5.0、8条PCIe 3.0通道。

 

 

双路配置下,每个内存通道就只能装1条了(1DPC),最多还是12条,PCIe 5.0通道对外可用则是最多160条,每路80条对外、48条用于彼此互连,另外还有12条PCIe 3.0,每路6条。

 

图片[10]-奇妙的96核心,12通道DDR5-栗子博客

 

IF高速总线升级到了第三代,最高带宽32Gbps,可选3条或4条链接,前者是默认的,此时对应的系统可用PCIe 5.0通道数量就是刚才说的160条。

 

 

如果选择4链接,每路处理器就要贡献一半的PCIe 5.0通道用于彼此互连,留给系统可用的就是128条,这和上代是相同的。

 

 

当然,即便同样128条,从PCIe 4.0升级到PCIe 5.0,可用带宽也是翻倍的。

 

图片[11]-奇妙的96核心,12通道DDR5-栗子博客

 

160条之多的PCIe 5.0通道能干什么?那就很随意了。

 

 

xGMI、PCIe、SATA、CXL想怎么玩就怎么玩。x16、x8、x4、x2、x2想怎么拆分就怎么拆分。每一路x16都可以连接最多9个PCIe设备(一个x8和八个x1)。

 

图片[12]-奇妙的96核心,12通道DDR5-栗子博客

 

I/O性能方面,EPYC 9004支持新的高级虚拟中断控制器(AVIC),提升虚拟中断性能,并改善了中断处理吞吐量,包括CPU核心内部与SoC层面。

 

 

搭配PCIe 4.0 x16规格的200Gbps(20万兆)网卡,默认设置下效率即可超过90%,最高达94%,单向能跑到188Gbps,双向则能跑到375Gbps。

 

 

如果搭配PCIe 5.0 x16规格的400Gbps(40万兆) InfiBand高速网络,标准配置下效率也能超过90%,最高甚至达99%,能跑出396Gbps。

 

 

三、内存

 

图片[13]-奇妙的96核心,12通道DDR5-栗子博客

 

内存方面,一如桌面锐龙7000系列,EPYC 9004也仅支持DDR5,可以带来更高的频率与带宽、更低的电压与功耗、更好的电源管理(板载PMIC)、更多的通道与更低的延迟、更大的容量、更好的校验纠错(板载ECC),等等。

 

图片[14]-奇妙的96核心,12通道DDR5-栗子博客

 

EPYC 9004系列支持12个DDR5内存通道,单路最大容量6TB(单条512GB)。

 

 

标准的4800MHz频率下,峰值理论带宽可达460GB/s。

 

图片[15]-奇妙的96核心,12通道DDR5-栗子博客

 

延迟方面,EPYC 9004略有增加,但影响不大,其中SoC约73ns、设备约45ns,总计约118ns,比上代分别增加了3ns、10ns。

 

图片[16]-奇妙的96核心,12通道DDR5-栗子博客

 

EPYC 9004还支持每路多重内存节点(NPS),可以对12条内存进行分组管理,进一步优化性能。

 

 

四、小芯片布局

 

图片[17]-奇妙的96核心,12通道DDR5-栗子博客

 

EPYC 9004依然是chiplet小芯片布局,其中CCD最大数量从上代的8个增加到12个,布局更加紧密,对带宽、延迟也提出了更高的要求。

 

 

为此,小芯片间的通信通道升级为GMI3,最大带宽达到36Gbps,吞吐能力翻番,同时与内部基准频率的比例为20:1。

 

 

针对不同数量的CCD,GMI还提供宽、窄两种模式,其中超过4个CDD为宽模式,充分利用足够的带宽,小于等于4个则是窄模式,提高效率。

 

 

五、CXL

 

图片[18]-奇妙的96核心,12通道DDR5-栗子博客

 

CXL,也就是Compute EXpress Link,一种缓存一致性高速互连行业标准,主要用于处理器、内存扩展与加速器。

 

 

CXL有三种工作模式,EPYC 9004并不支持第一种(面向NIC网卡)、第二种(面向GPU/FPGA/加速器等密集计算),而仅支持第三种,也就是内存缓冲,可扩展内存带宽与容量,协议走的是cxl.io、cxl.mem。

 

图片[19]-奇妙的96核心,12通道DDR5-栗子博客

 

总的来说,AMD EPYC 9004系列在延续chiplet设计的同时,升级了工艺、架构,升级了内存、扩展连接等,整体规格、特性上了一个大大的台阶。

 

 

此外,Zen EPYC家族还会陆续还会推出采用3D V-Cache技术的更高性能版“Genoa-X”,面向云计算服务的“Bergamo”(贝尔加莫),以及面向电信基础设施和边缘计算的“Siena”(锡耶纳),组成完整的产品矩阵。

 

 

未来的第五代“Turing”(图灵)家族,还会再次升级全新的“Zen5”架构!

 

图片[20]-奇妙的96核心,12通道DDR5-栗子博客
举报/反馈

发表评论

发表

作者最新文章

图片[21]-奇妙的96核心,12通道DDR5-栗子博客

RTX 4090连烧几十起后 NVIDIA再度回应:仍在调查16Pin接口问题

16分钟前2阅读
图片[22]-奇妙的96核心,12通道DDR5-栗子博客

AMD Zen4锐龙太贵:人见人爱的便宜APU有消息了!

7小时前79阅读
图片[23]-奇妙的96核心,12通道DDR5-栗子博客

AMD Zen4锐龙7000 3D缓存版缩水:暂时仅8/6核心

9小时前137阅读

相关推荐

图片[24]-奇妙的96核心,12通道DDR5-栗子博客

大概什么时候,Windows笔记本的CPU,才能达到M1级别?

图片[23]-奇妙的96核心,12通道DDR5-栗子博客

AMD Zen4锐龙7000 3D缓存版缩水:暂时仅8/6核心

图片[22]-奇妙的96核心,12通道DDR5-栗子博客

AMD Zen4锐龙太贵:人见人爱的便宜APU有消息了!

图片[27]-奇妙的96核心,12通道DDR5-栗子博客

现阶段全新装机,锐龙7000和13代酷睿,哪种装机方案最香?

图片[28]-奇妙的96核心,12通道DDR5-栗子博客

SK海力士宣布DDR5和CXL解决方案已通过AMD验证,可支持EPYC 9004系列

© 版权声明
THE END
点赞0
抢沙发
头像
提交
头像

昵称

取消
昵称

    暂无评论内容

一言一语