近日,AMD正式发布了代号“Genoa”(热那亚)的第四代霄龙EPYC 9004系列处理器,面向服务器、数据中心、高性能计算、人工智能等领域。
此前,我们已经介绍了EPYC 9004系列的型号规格、整体特性、性能能效,但是关于它,还有很多层次的东西可以挖掘,包括架构、SoC、内存、小芯片、CXL等等。
今天,我们就来仔细说道说道。
![图片[1]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/72f082025aafa40f9a8fe4526b05424479f01964.png@f_auto.webp)
一、Zen4架构
EPYC 9004系列基于和桌面锐龙7000系列同款的Zen4架构,只是针对服务器与数据中心应用做了适当的调整优化。
![图片[2]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/cb8065380cd7912331df61566e551889b2b78046.jpeg@f_auto.webp)
整体而言,综合计算33种不同的服务器负载,Zen4架构的IPC相比Zen3提升了大约14%,这比锐龙7000系列的提升高了1个百分点。
不同模块的贡献差不多,最大的还是前端部分,接下来是载入/存储、分支预测、执行引擎、二级缓存。
![图片[3]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/43a7d933c895d143387187fecc91c3095baf0750.png@f_auto.webp)
![图片[4]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/bd3eb13533fa828b4c7a6dd63d7e003f970a5a13.png@f_auto.webp)
架构总览,以及与Zen3的变化细节对比,都和桌面版Zen4几乎毫无二致。这里也就不再赘述了,感兴趣的可以参考我之前的解析。
![图片[5]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/c995d143ad4bd113f9bce0279acee5044bfb051a.png@f_auto.webp)
![图片[6]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/d000baa1cd11728b8351b9e8099d82c5c2fd2c6c.jpeg@f_auto.webp)
AVX-512指令集其实也是一模一样的,但它在服务器数据中心显然更加如鱼得水,作用更加明显。
根据AMD提供的数字,双路96核心新旗舰EPYC 9654对比双路64核心老旗舰EPYC 7763,得益于规格性能的改进,尤其是AVX-512指令集的加持,NLP吞吐量、物体检测吞吐量、图像识别吞吐量分别增加了大约4.2倍、3.5倍、3倍之多!
![图片[7]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/e4dde71190ef76c6e1b1f3a75a77bcf1ae516743.png@f_auto.webp)
安全方面也更丰富,其中安全加密虚拟化(SEV)方面,除了继续支持SME、SEVES、SEV-SNP,还将内存加密升级到AES-256-XTS,并支持1006个加密客户机,支持多重主机密钥(SMKE)。
另外强化了对客户机的保护,尤其是可免于SMT攻击。
二、SoC总览
![图片[8]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/7e3e6709c93d70cfaa9db2d138bd900bbba12b77.png@f_auto.webp)
这是EPYC 9004系列额整体布局图、核心特性。
这一代依然没有独立芯片组,而是一个完整的SoC,延续chiplet小芯片设计,内部包含一个IOD、最多12个CCD。
CCD每个集成8颗Zen4 CPU核心、32MB三级缓存,合计最多96核心、384MB三级缓存,同时也有8个CCD、4个CCD的版本,分别最多64核心、32核心。
IOD内集成了DDR5内存控制器、PCIe 5.0/CXL 1.1+控制器、第三代Infinity Fabric控制器、安全处理器。
内存为12通道,最高频率4800MHz。PCIe 5.0可提供128条。这两部分后边细说。
封装接口改为新的SP5,尺寸增加到约75×72毫米。
![图片[9]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/30adcbef76094b365c0fad3162ad3dd28c109d3e.png@f_auto.webp)
单路配置下,EPYC 9004系列可搭配最多24条DDR5内存,每通道2条(2DPC),可提供128条PCIe 5.0、8条PCIe 3.0通道。
双路配置下,每个内存通道就只能装1条了(1DPC),最多还是12条,PCIe 5.0通道对外可用则是最多160条,每路80条对外、48条用于彼此互连,另外还有12条PCIe 3.0,每路6条。
![图片[10]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/09fa513d269759ee0c82ac757a9a021d6c22df2f.png@f_auto.webp)
IF高速总线升级到了第三代,最高带宽32Gbps,可选3条或4条链接,前者是默认的,此时对应的系统可用PCIe 5.0通道数量就是刚才说的160条。
如果选择4链接,每路处理器就要贡献一半的PCIe 5.0通道用于彼此互连,留给系统可用的就是128条,这和上代是相同的。
当然,即便同样128条,从PCIe 4.0升级到PCIe 5.0,可用带宽也是翻倍的。
![图片[11]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/a8014c086e061d95cadd5bc0bd954bda63d9ca18.jpeg@f_auto.webp)
160条之多的PCIe 5.0通道能干什么?那就很随意了。
xGMI、PCIe、SATA、CXL想怎么玩就怎么玩。x16、x8、x4、x2、x2想怎么拆分就怎么拆分。每一路x16都可以连接最多9个PCIe设备(一个x8和八个x1)。
![图片[12]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/279759ee3d6d55fb82d7a93fb7430e4120a4dd07.png@f_auto.webp)
I/O性能方面,EPYC 9004支持新的高级虚拟中断控制器(AVIC),提升虚拟中断性能,并改善了中断处理吞吐量,包括CPU核心内部与SoC层面。
搭配PCIe 4.0 x16规格的200Gbps(20万兆)网卡,默认设置下效率即可超过90%,最高达94%,单向能跑到188Gbps,双向则能跑到375Gbps。
如果搭配PCIe 5.0 x16规格的400Gbps(40万兆) InfiBand高速网络,标准配置下效率也能超过90%,最高甚至达99%,能跑出396Gbps。
三、内存
![图片[13]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/71cf3bc79f3df8dcdfee0a400e703380451028f8.png@f_auto.webp)
内存方面,一如桌面锐龙7000系列,EPYC 9004也仅支持DDR5,可以带来更高的频率与带宽、更低的电压与功耗、更好的电源管理(板载PMIC)、更多的通道与更低的延迟、更大的容量、更好的校验纠错(板载ECC),等等。
![图片[14]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/a1ec08fa513d269789f25d08949af3f04316d82b.png@f_auto.webp)
EPYC 9004系列支持12个DDR5内存通道,单路最大容量6TB(单条512GB)。
标准的4800MHz频率下,峰值理论带宽可达460GB/s。
![图片[15]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/960a304e251f95cae4e2da910c763e356709526a.png@f_auto.webp)
延迟方面,EPYC 9004略有增加,但影响不大,其中SoC约73ns、设备约45ns,总计约118ns,比上代分别增加了3ns、10ns。
![图片[16]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/37d12f2eb9389b50ca0722534254a4d6e6116ea0.png@f_auto.webp)
EPYC 9004还支持每路多重内存节点(NPS),可以对12条内存进行分组管理,进一步优化性能。
四、小芯片布局
![图片[17]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/3c6d55fbb2fb4316d7ea38f4e5c5072808f7d330.png@f_auto.webp)
EPYC 9004依然是chiplet小芯片布局,其中CCD最大数量从上代的8个增加到12个,布局更加紧密,对带宽、延迟也提出了更高的要求。
为此,小芯片间的通信通道升级为GMI3,最大带宽达到36Gbps,吞吐能力翻番,同时与内部基准频率的比例为20:1。
针对不同数量的CCD,GMI还提供宽、窄两种模式,其中超过4个CDD为宽模式,充分利用足够的带宽,小于等于4个则是窄模式,提高效率。
五、CXL
![图片[18]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/b8014a90f603738d09735a10717af15af819ecb0.png@f_auto.webp)
CXL,也就是Compute EXpress Link,一种缓存一致性高速互连行业标准,主要用于处理器、内存扩展与加速器。
CXL有三种工作模式,EPYC 9004并不支持第一种(面向NIC网卡)、第二种(面向GPU/FPGA/加速器等密集计算),而仅支持第三种,也就是内存缓冲,可扩展内存带宽与容量,协议走的是cxl.io、cxl.mem。
![图片[19]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/83025aafa40f4bfb9756d589c42e39fbf53618d1.png@f_auto.webp)
总的来说,AMD EPYC 9004系列在延续chiplet设计的同时,升级了工艺、架构,升级了内存、扩展连接等,整体规格、特性上了一个大大的台阶。
此外,Zen EPYC家族还会陆续还会推出采用3D V-Cache技术的更高性能版“Genoa-X”,面向云计算服务的“Bergamo”(贝尔加莫),以及面向电信基础设施和边缘计算的“Siena”(锡耶纳),组成完整的产品矩阵。
未来的第五代“Turing”(图灵)家族,还会再次升级全新的“Zen5”架构!
![图片[20]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/0d338744ebf81a4c50a19adc104b2152242da684.jpeg@f_auto.webp)
发表评论
作者最新文章
![图片[21]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/app106ampfJPEGampfm30ampfmtautoampu2471991672C188856728.webp)
RTX 4090连烧几十起后 NVIDIA再度回应:仍在调查16Pin接口问题
![图片[22]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/app106ampfJPEGampfm30ampfmtautoampu16026477572C188833056.webp)
AMD Zen4锐龙太贵:人见人爱的便宜APU有消息了!
![图片[23]-奇妙的96核心,12通道DDR5-栗子博客](https://www.lizi.tw/wp-content/uploads/2022/11/app106ampfJPEGampfm30ampfmtautoampu15124544332C188825910.webp)
暂无评论内容