拼 命 加 载 中 ...
上周AMD的锐龙9000处理器中的两款已经解禁,看过我们评测的朋友已经了解新的Zen 5架构在效能方面有非常大的改进,上周解禁的锐龙7 9700X和锐龙5
9600X都是单CCD的产品,它们的核心数量对于游戏玩家来说是够用的了,但对于用来干活的人来说今天推出的16核锐龙9 9950X和12核锐龙9
9900X才是他们所期待的。
AMD
Zen架构的每一次升级都会带来相当大的性能增幅,初代Zen架构较此前的挖掘机架构IPC提升幅度高达52%之多,对AMD来说是近些年来最重要的一次架构变动。随后的Zen+只是制程升级和一些小改动,真正第一次大改是Zen
2,它也奠定了后续Zen架构产品的MCM结构,IPC较初代提升了15%。Zen
3则是对CCX内部进行大改,8核CCX和环形总线也沿用至今,它的IPC提升了19%。Zen 4架构则改用了全新的AM5平台,带来了DDR5内存与PCIe
5.0,并且加入了对AVX-512指令集的支持,IPC增长了13%,而最新的Zen 5架构,AMD官方表示IPC比上代提升了16%。
Zen 5架构升级改动
Zen 5架构的改进方向大体可归纳为:每周期可执行更多指令;更宽的调度和执行单元;数据缓存带宽翻倍;更强的AI加速性能。
Zen
5架构的设计目标是提升单线程和2线程的性能,并为未来计算核心架构奠定新的基础,并为AVX512运算提供完整的512位数据位宽以提升吞吐量并提高AI运算性能。而平台方面,新架构包含Zen
5和Zen 5c两种针对不同方向优化的核心,虽然现在Zen 5处理器都是用台积电4nm,但未来会有3nm的版本,Zen
5支持可配置的FP512/FP256数据,并新增了ISA功能指令集。
先来看前端的改进,Zen
5直接升级成双管道预取和解码,优化分支预测与预取Zero-bubble分支,L1/L2分支目标缓冲区从上代的1.5K/7K大幅扩大至16K/8K,目标地址生成引擎也更大,返回地址堆栈现在扩大到52个条目,这些改动可提高处理器的分支预测准确性,减少分支重定向的开销,从而提升性能,现在每周期最多可采取2次预测,最多3个预测窗口。
内存管理采取了激进的取指隐藏了L2和表遍历延迟,L2指令地址转换缓存扩大到2048个条目。缓存延迟与带宽方面现在每周期64字节的取指,并有两个指令取指流。这些改动能让处理器够快速地从缓存中获取指令,并且支持多个指令同时进行取指,从而提高了处理器的吞吐量和效率。
解码部分同样升级成双管道,两个管道支持独立的并行指令流,每个管道每周期处理4条指令,在SMT模式则为每个线程提供一根管道,在工作分配上,有8-wide派遣到整数和浮点运算执行单元。Op
Cache方面,条目关联性从12-way增加到16-way,密集型条目存储6个指令,由于采用双管道设计所以每周期一共可存储12个指令。
整数执行单元加宽了指令分派和执行通道,分配和引退从以往Zen架构的每时钟周期6条指令增加到8条,整数调度听过age
matrix同一可以更堆成并简化挑选。
以往的旧Zen架构整数执行单元包括4个ALU和3个AGU,而Zen
5则增加到6个ALU和4个AGU,而这6个ALU包含3个多乘法器和3个分支单元,4个AGU可每周期处理4个内存地址。执行窗口也显著增长,调度器增长到88
ALU和56 AGU,并配备240条目的物理寄存器,在更复杂的计算工作负载下会有更好表现。
此外核心缓冲区从320条目增加到448条目,以更好地处理更广的调度和执行所产生的更多的未命中。
浮点执行单元获得重大更新,AMD自上代Zen
4开始支持AVX-512指令集,但那是使用256位SIMD用两个时钟周期来执行AVX-512指令的,而Zen
5则可提供完整的512位数据位宽。新的执行单元拥有更高的带宽与更低的延迟,拥有4条执行管线,2条LS/整数寄存器管线,每周期可执行2条512b的加载和1条512b存储,并配备2周期延迟的FADD。
执行窗口也变得更大,NSQ伴随8-wide派遣而有所增加,从64增加到96;调度器数量从2个增加到3个;物理寄存器从192翻倍到384;ROB/退休队列从320增加到448。这些改动让CPU可处理更多浮点指令,在CPU执行一些AI模型时,能够显著提高反应速度与效能,面对未来各种AI应用。
缓存方面,一级数据缓存容量从32KB增加到48KB,宽度也从8路增加到12路,4条L/S管道每周期4次读取2次写入;4条整数装载管道可以配对到2条浮点管道;每周期2条储存提交;与L2缓存的通信位宽上下行均从32B翻倍到34B,让L2带宽直接翻倍。DTLB数据转换旁路缓存也跟随增长,L1从72条目增加到96条目,L2则从3072增长到4096。一级缓存与浮点单元的最大带宽直接比上代翻倍,改善了数据预取的效率。
以上就是Zen
5架构的改进更新重点,改进方向大体可归纳为:每周期可执行更多指令;更宽的调度和执行单元;数据缓存带宽翻倍;更强的AI加速性能。
新架构包含Zen 5和Zen 5c两种采用同架构,但针对不同方向侧重优化而设计不同的核心。Zen
5是针对单线程性能优化的核心,目标是更高的时钟频率,每核心更大的L3缓存,因此Zen 5核心会更为耗电并且会占用更大的芯片面积。Zen
5c则是针对可扩展性而优化,拥有相同的IPC和指令集但频率会较低,而且每个核心的L3缓存也较少,所以芯片面积也更小,单个内核面积会比Zen
5少25%,算上L3的话缩小比例更多。
AMD这次为面向移动处理器的Strix Point同时配备了Zen 5和Zen
5c两种内核,并通过简单的软件调度核心工作,由于Zen 5和Zen
5c拥有相同的IPC和特性,所以调度程序不太需要担心性能上的落差以及调度错误的问题,而且Zen 5和Zen
5c都支持SMT同步多线程,所以软件只需要考虑核心的效能和效率即可。
至于桌面端的Granite Ridge,也就是锐龙9000,AMD认为不需Zen 5c核心来扩展多线程性能,用两个Zen
5的CCD即可获得较好的多线程性能。
Zen
5增加了ISA指令集,包括MOVDIR/MOVD64B可跳过缓存直接移动4、8或64字节数据至存储;VP2INTERSECT和VNNI/VEK都是针对AVX512所增加的指令集,前者是AVX-512的向量对相交操作,后者则扩展AVX512指令到VEK编码;PREFETCHI是软件预取指令行到缓存层次结构。PMC虚拟化则是针对安全所增加的指令集。
Zen 5对比Zen 4的改动汇总可见上表,Zen
5架构的性能提升主要由数据带宽、执行/退休、解码/指令缓存以及获取/分支预测这四大部分改进相互促进而成的,根据此前给出的数据,Zen 5的IPC较Zen
4平均提升了16%之多。
根据AMD给出的数据,Zen
5架构的性能提升主要由数据带宽、执行/退休、解码/指令缓存以及获取/分支预测这四大部分改进相互促进而成的,而Zen 5的IPC较Zen
4平均提升了16%之多,而使用VNNI的机械学习单核性能则比Zen 4提升了32%,使用AVX-512的AES-XTS加密负载单核性能则提升了35%。
这是Zen 5 CCX的缓存结构图,大致结构和Zen
4差不多,L1缓存的变动在上面内核介绍时已经说了,L2缓存容量依然是1MB,但从8-Way增加到16-Way,这直接让L2缓存带宽翻倍,L3缓存的延迟有所降低。
采用N4P工艺的Zen 5 CCD芯片面积是70.6mm2,晶体管数量是86亿,而上代采用N5工艺的Zen
4 CCD芯片面积是70mm2,晶体管数量是65亿,可见Zen 5和Zen
4的CCD芯片面积基本没啥差别,但晶体管数量增加了32.3%,算上芯片面积的微小变化,晶体管密度提升了31.2%左右,可见台积电新工艺的有明显的升级。
锐龙9000桌面处理器采用Granite Ridge SoC,它的结构和Zen 4的Raphael完全一样,继续使用上代的6nm
IOD,可配备两个Zen 5 CCD,最多16核32线程,IOD支持128bit DDR5-5600内存,配备两个RDNA
2架构CU的核显,可提供4路显示输出,有28条PCIe 5.0,5个USB接口。
锐龙9000桌面处理器
其实锐龙9000系列桌面处理器的规格早在Computex 2024上就公布了,基本和当年首发的锐龙7000是完全一样的,包括:
预览两颗锐龙9是双CCD,而锐龙7和锐龙5则是单CCD,而且锐龙9 9950X、锐龙9 9900X的最高频率和锐龙9
7950X、锐龙9 7900X也是一样的,而锐龙7 9700X和锐龙5
9600X则比锐龙7000的两款同型号的高100MHz,但处理器的基础频率是明显要比上代要低的,此外除了最高端的锐龙9
9950X外,其他三颗TDP都比上代降了一级,锐龙9 9900X只有120W,而锐龙7 9700X和锐龙5 9600X降到只有65W。
由于Intel的新一代桌面处理器估计要10月才上市,这次AMD给锐龙9
9900X找的对手是现在Intel现在的旗舰酷睿i9-14900K,而锐龙7 9700X的对手则是酷睿i7-14700K,锐龙5
9600X是酷睿i5-14600K,具体的性能对比大家看图就好了,至于顶级的锐龙9 9950X,就等着对手的下一代处理器来挑战。
AMD没给出锐龙7 9700X与锐龙7 7800X3D的性能对比,而是放出了锐龙7
5800X3D的对比,根据官方数据,65W的锐龙7 9700X在游戏性能上领先于105W的锐龙7
5800X3D,平均要快12%,而且功耗更低,实际上锐龙9000X3D应该也不远了,到时候再和锐龙7 7800X3D对比吧。
除了最顶级的锐龙9
9950X外,这代每个型号的TDP都要比上代有所降低,性能方面则有11%到22%不同幅度的增长,此外得益于新架构和新工艺,处理器的热阻降低了15%,同TDP下温度要比上代低7℃,对散热器的要求明显降低。
内存支持也有所改进,默认的JEDEC内存从DDR5-5200提高到DDR5-5600,但新的AGESEA可让内存频率直达DDR5-8000,同时支持内存实时超频,可在系统内对内存时序经行更改,可随时使用Ryzen
Master软件进行内存超频,也可随时切回默认状态。
CPU超频可直接交给PBO,可实现6%~15%的性能提升
此外AMD在原有的Curve Opitimizer功能基础上推出Curve
Shaper功能,可进一步允许玩家最大化调整降压曲线,可提供最多15组频率与温度的组合,玩家可以在稳定区降低电压并在必要时增加电压,这允许玩家把锐龙9000处理器的潜力挖掘到极致,这设置适用于所有核心,不能单独对某个核心进行调节。
主板方面,且和之前透露的消息差别不大,X870E是双芯片,与X670E相比就是多了USB4的支持。X870变成了单芯片,现在GPU和M.2都强制支持PCIe
5.0,同时也支持USB4,可看作是多了USB4的B650E。B850其实就是B650的平替,但显卡插槽升级支持PCIe
5.0。B840大家把它理解成A620就行了,不支持CPU超频但支持内存超频,只支持USB 10Gbps,显卡和M.2口都是PCIe
4.0的,其他扩展则是PCIe 3.0。
锐龙9 9950X/9900X处理器图赏
预览测试平台与说明预览本文测试的是16核的锐龙9 9950X与6核的锐龙9 9900X,对比的对象包括上代产品同型号的是锐龙9 7950X和锐龙9
7900X。其实原本只想对比酷睿i9-14900K的,但由于此前测试在默认设置时酷睿i9-14900KS和酷睿i9-14900K有明显性能差异,所以两个处理器都加进来了。
AMD平台使用华硕 ROG CROSSHAIR X670E HERO主板,而Intel平台则使用使用华硕 ROG MAXIMUS Z790
DARK HERO主板,
测试的时候会分别测试处理器默认状态以及解锁功耗或开启PBO后的性能,游戏测试就只会放出默认性能的结果,实际上解锁功耗或开PBO对游戏性能的改善有限。
其他配件包括雅浚 ECONOMIC AIO 5 360一体式水冷散热器,芝奇焰峰戟DDR5-6000 CL30 16GB*2 EXPO内存,长城猎金部落
N17 1700W电源。显卡则是目前AMD最顶级的RX7900XTX,使用的是盈通 Radeon RX RX7900XTX-24GD6 樱瞳水着 SUGAR。
基准性能测试预览测试使用的软件版本是Sandra 2021.12.31.137,它的处理器计算测试可以测试出处理器的运算能力。首先要说的是,锐龙9
7900X和7950X开PBO在所有的测试中基本都没啥提升,因为它们两个默认设置下就能出发过热保护,就别提什么PBO了,两颗新的锐龙9
9900X和9950X散热明显改善,PBO是有效的。从测试来看,两颗新锐龙9000的在默认设置下整数性能都比上代提升了18%左右,但浮点性能提升幅度不高,开PBO后会性能会提升3~5%左右。
在默认状态下,锐龙9
9950X的整数和双精度浮点算力是要高于酷睿i9-14900KS的,单精度浮点算力则介于酷睿i9-14900K和酷睿i9-14900KS之间。
在处理器多媒体测试中,由于该测试可以使用AVX-512指令集,测试结果则是一边倒向AMD这边,两颗锐龙7000已经比对手酷睿i9高不少,而新的Zen
5架构有完整的512位数据位宽,所以在该测试中算力几乎是上代的两倍,这是新架构性能提升最为明显的一个改动。
预览wPrime的测试的单线程测试就不存在这个问题,锐龙9000比锐龙7000略有提升,比14代酷睿好多了。多线程方面,其实大家都是默认状态的话,锐龙9
9900X是要比酷睿i9-14900KS还要快一点的,不过解锁功耗的话就得16核的旗舰上才能击败对手了,多线程测试中两颗锐龙9000的性能增幅要比单线程测试增幅大一些,但也不算特别大。
预览国际象棋测试由于最多只能测试16个线程,所以这里只用来测试处理器的单线程性能,两个Zen 5架构的锐龙9000处理器单线程性能都比上代产品有所提升,但增幅并不是很大
,开PBO后单线程性能也有略有提升。
预览Dolphin是一款对应任天堂游戏主机GameCube和Wii的模拟器,测试使用的是Dolphin 5.0
Benchmark,这是一个纯粹的单线程测试,该测试中锐龙9000处理器较上代提升非常大,两颗处理器用时均比上代大幅缩短,锐龙9
9950X和酷睿i9-14900K打平,但低于酷睿i9-14900KS。
预览7-zip使用内置的Benchmark测试,该测试中两颗锐龙9000相对锐龙7000来说略微有的提升,由于两代的IOD是相同的,瓶颈可能出在内存带宽上面,在这测试中两代16核的锐龙9处理器表现都优于对手的酷睿i9。
预览3DMark CPU Profile单线程的测试可以看出Zen 5的单核性能确实比Zen
4有提升,幅度达到17%之多。到了最大线程时这个涨幅就没这么多了,不过开了PBO依然比上代提升了10%的性能。
创作能力测试预览预览x264以及x265是两个老牌开源编码器,应用相当广泛,这次我们使用了新版本的Benchmark,它能更好的支持AVX
2指令集,此外x264的测试还支持AVX-512。在x264测试中,默认的锐龙9 9950X比解锁后的酷睿i9-14900KS表现都要好,当然了它和锐龙9
7950X其实相差并不大。
x265的测试并不能把处理器全部吃满,但测试出来的结果比上面的x264相差更大,该测试中锐龙9000较上代的性能提升更明显,而且默认状态下锐龙9
9900X的表现优于酷睿i9-14900KS,大家都解锁功耗的话性能依然比酷睿i9-14900K要好,而16核的锐龙9表现要远优于酷睿i9-14900KS。
预览Corona Renderers是一款全新的高性能照片级高真实感渲染器,可以用于3DS Max以及Maxon Cinema
4D等软件中使用,有很高的代表性,这里使用的是它的独立Benchmark。两颗新的锐龙9000处理器在开启PBO后性能比上代提升了10%左右,锐龙9
9900X开启PBO后性能和默认的酷睿i9-14900K还是比较接近的,至于锐龙9 9950X默认状态下就比解锁后的酷睿i9-14900KS更强。
预览POV-Ray是由Persistence OF Vision
Development开发小组编写的一款使用光线跟踪绘制三维图像的渲染软件,其主要作用是利用处理器生成含有光线追踪效果的图像帧,软件内置了Benchmark程序。锐龙9000的单线程性能较上代提升了11~13左右%,多线程在开PBO后
大概比上代提升12%,锐龙9 9950X在开启PBO后表现比酷睿i9-14900KS解锁功耗的表现要更好。
预览V-Ray是由专业的渲染器开发公司CHAOSGROUP开发的渲染软件,是业界最受欢迎的渲染引擎,其内核可应用在3Dmax、Maya、Sketchup、Rhino等多个软件内,测试使用的是官方Benchmark。
两颗新的锐龙9默认时测试结果比上代高12%左右,开PBO后性能提升18~20%之多。锐龙9
9900X开启PBO后性能表现和酷睿i9-14900K解锁后相近,锐龙9 9950X默认状态就比两颗解锁功耗的酷睿i9更强。
预览Blender是一个开源的多平台轻量级全能三维动画制作软件,提供从建模,雕刻,绑定,粒子,动力学,动画,交互,材质,渲染,音频处理,视频剪辑以及运动跟踪,后期合成等等的一系列动画短片制作解决方案,
测试使用官方的Benchmark工具,软件版本是4.2.0。两颗新的锐龙9较上代的性能提升是比较一致的,
默认状态性能提升大概10%左右,开启PBO后增幅提升至17%左右。
预览预览CINEBench R23使用MAXON公司针对电影电视行业开发的Cinema
4D特效软件的引擎,而更新的2024版则使用先进的Redshift引擎并更换更复杂的测试场景,该软件被全球工作室和制作公司广泛用于3D内容创作,而CINEBench经常被用来测试对象在进行三维设计时的性能。从CINEBench的测试可以看出,
开启PBO后的锐龙9 9950X多线程表现是要优于对面酷睿i9的,单线程的话其实2024的测试两者差不了多少,R23的话则要低一些。
游戏性能测试游戏测试为了反映CPU的真实性能,测试全部都是在1080p分辨率下进行的,尽量减少显卡上的瓶颈,不过画质依然是开启非光追下的最高,此外游戏测试只会使用CPU的默认设置。
预览这次我们测试了8款游戏,在大部分游戏中锐龙9 9950X和锐龙9 9900X处理器的表现都相当优秀,战胜了对手最强的酷睿i9-14900KS,
但有些游戏中出现了上代处理器表现更强的情况,就挺奇怪的,不过AMD的这些双CCD的处理器玩游戏时都可能出现跨CCD调度的情况,但是整体来说它们两的游戏性能都不弱,锐龙9还是更加偏重多核性能为主,真看重游戏性能的朋友应该都在等后面的锐龙9000X3D。
温度与功耗测试在功耗测试方面,我们使用专用的设备直接测量主板上CPU供电接口的供电功率,但也会给出软件记录的CPU
Package功耗数据,虽然CPU的供电主要来源是CPU供电接口,但我们也发现有一小部分是来自24pin接口的。
此外必须说明的是,目前我们测量的是主板上CPU供电接口的输入功率,并非直接的CPU供电功率,因此从该理论上来说应该是略高于CPU的实际供电功率,而且会更因为主板的不同而产生变化,但是这个测试数据仍然有很高的参考价值,因为电源实际上是对主板进行供电而非直接对CPU进行供电,因此对于电源的选择来说,直接测试CPU供电接口的供电功率更有实际意义。
会分别测试所有处理器解锁功耗或开启PBO后的温度功耗,AIDA 64
FPU烤机并没有使用AVX-512,环境温度是28℃。
预览预览在默认状态下,锐龙9 9950X和锐龙9 9900X烤机时的CPU封装功耗只有200W和162W,这其实就是AMD给它们的功率限制,不过这代开启PBO是有用的,不会像上一代X系列那样开了和没开一样。得益于解决了CPU积热问题,锐龙9
9950X和锐龙9 9900X在开启PBO后能达到更高的功率,前者能到243W,后者也可达到202W,可释放出更强的性能。值得注意的是,锐龙9
9950X在开启PBO后功耗依然没达到对手酷睿i9-14900K默认的水平,可见新一代锐龙9000系列在能耗比方面十分出色。
此外AMD这些双CCD处理器在烤机时多少会出现两个CCD核心频率不一样的情况,这次我们把两个CCD的频率都记录下来了,可以看得出锐龙9
9900X两个CCD的频率相差其实并不算大,在开启PBO前甚至就差20MHz,开启PBO后也就相差50MHz。但锐龙9
9950X差别还蛮大的,在开启PBO前一个CCD平均频率是4.99GHz,而另一个则是4.63GHz,开启PBO后就变成一个5.21GHz,另一个4.91GHz。
CPU的发热是这代锐龙9000处理器明显改善的一点,默认的锐龙9 9900X烤机时只有73℃,而锐龙9 9950X也只有78℃,
比上代那两个默认直接摸温度墙好多了。锐龙9 9900X在开启PBO后温度会升至90℃,而锐龙9 9950X则是直接摸到95℃的温度墙,
想发挥它们的全部性能,两个都得上360水冷。
预览预览待机并不是完全的桌面待机,而是开着HWinfo监控着,Windows的电源计划选的是平衡。锐龙9000的待机功耗也是这次的一大亮点,这次的待机功耗只有上代的一半左右,有了明显改善,
双CCD的处理器待机功耗从上代的30W降低至只有17W。待机功耗虽然下去了,然而温度并没有下去,毕竟IOD没换,待机时温度最高的其实是IOD,待机时CCD可能真休息去了,但IOD依然要干活。
全文总结和上一篇一样,这次我们会把锐龙9 9950X和锐龙9 9900X默认和开启PBO后的性能都放上去,由于锐龙9 7950X和锐龙9 7900X开启PBO后性能变化太少所以就不单独列出了,后续出现类似的情况也会按这方法处理。
预览默认状态下锐龙9 9950X的单线程性能比锐龙9
7950X提升了12%,多线程性能则提升了6%,得益于散热能力的改善,这代处理器开启PBO后有明显作用,多线程性能增幅会进一步提升至11%。而锐龙9
9900X默认状态单线程性能比锐龙9 7900X提升了8%,多线程提升了6%,开启PBO后单线程性能增幅略微增加到9%,多线程增幅则达到12%之多。
在天梯榜上锐龙9 9900X开启PBO后的成绩是要高于解锁功耗后的酷睿i7-14700K的,至于酷睿i9-14900KS,其实上代的锐龙9
7950X就比它高,锐龙9
9950X把优势进一步扩大,实际上相比与Intel的混合架构,在桌面市场上AMD这种纯大核设计消费者对其的接受程度更高,实际的性能表现也更佳。
此外锐龙9000在发热与能效比方面的表现也比上代锐龙7000有更好的表现,锐龙9 9950X与锐龙9
9900X的温度比上代低不少,这让它们有一定的发热冗余去开PBO,让性能进一步提升,而且AMD处理器在功耗上的表现要远优于竞争对手,锐龙9
9950X即使开启PBO后的烤机功耗都比酷睿i9-14900K默认状态更低。
售价方面,锐龙9 9950X定价是4899元,而锐龙9 9900X则是3399元,比锐龙9 7950X和锐龙9
7900X的上市价低不少,两者的价格刚好一个比酷睿i9-14900K高,一个低,把它夹在中间,至于酷睿i9-14900KS在讨论范围之外,它太贵了,两颗新的锐龙9处理器更适合那些既要多核性能也要游戏性能的用户。
当然了锐龙9000的真正竞争对手是未来的Arrow Lake-S,从目前的消息来看,Intel的新一代酷睿Ultra处理器两种内核的IPC都会涨,但多线程性能谨慎不看好,因为从多个消息来看桌面处理器的超线程也被砍了,处理器规格依然保持8P+16E,想用单核性能来弥补多线程的缺失有些难度,个人认为未来AMD在多线程性能依然会占优。
上周的锐龙7 9700X和锐龙5 9600X首发两天不到就售罄,看得出AMD这次的锐龙9000系列势头还是很猛的,这次京东还有一个月的价保,也不用担心首发破价了,两颗新的锐龙9强劲的多核表现相信会让很多发烧友有了新的选择。
京东购买链接:锐龙9 9950X / 锐龙9 9900X