1月4日,RTX40系列的第三位成员RTX4070Ti性能正式解禁,RTX4070Ti具备NVIDIAAdaLovelace全新架构的一系列新特性与黑科技,包括第三代RTCores与第四代Tensor......
1月4日,RTX40系列的第三位成员RTX4070Ti性能正式解禁,RTX4070Ti具备NVIDIAAdaLovelace全新架构的一系列新特性与黑科技,包括第三代RTCores与第四代TensorCores,以及可以让游戏帧率大幅提升的DLSS3技术。本次测试我们使用了来自技嘉的GeForceRTX4070TiAEROOC12G雪鹰(以下简称RTX4070Ti雪鹰),这款颜值与性能双绝的超公版RTX4070Ti到底表现如何,一起来看看吧。
AdaLovelace架构带来革命性的进化之前我们已经对NVIDIAAdaLovelace架构进行过全面的解析,这里概括一下重要的技术亮点。
●NVIDIAAdaLovelace架构中全新设计的流式多处理器具有最高83TFLOPS的着色能力,吞吐量超过上代产品2倍。
●第三代RTCores有效光线追踪计算能力达到191TFLOPS,是上代产品的2.8倍。
●第四代TensorCores新增FP8引擎,具有高达1.32PFlops的张量处理性能,超过上代5倍。
●支持着色器执行重排序(SER),通过即时重新安排着色器负载来提高执行效率。SER可为光线追踪带来最高3倍的性能提升,整体游戏性能可最高提升25%。
●新增Ada光流加速器带来2倍的性能提升,使DLSS3能够预测场景中帧和帧之间的运动变化,让神经网络能够在保持图像质量的同时提高帧率。
●架构进行大幅改进,采用TSMC定制4N工艺,此工艺专为GPU优化,实现高达2倍的能效飞跃。
ShaderExecutingReordering(SER)着色器执行重排序
GPU在完成大量并行计算的时候效率最高,而随着游戏中光追效果越来越复杂,着色器面临的可能就是大量发散的、无序的低效率工作任务,从而影响了渲染效率。SER技术的出现,就可以把这些杂乱的工作任务进行分类,动态重组为更高效的任务,从而提升着色器的执行效率。从NVIDIA官方数据来看,SER技术大约会带来2倍的着色器性能提升。
第三代RTCore
从RTX20到RTX30再到RTX40,RTCore进化到了第三代。简单地从有效光线追踪计算能力来看,NVIDIAAdaLovelace架构GPU的第三代RTCore吞吐量达到了191TFLOPS,是上一代的2.8倍之多。
另外,NVIDIATuring和Ampere架构GPU中的RTCore包括了用于加速边界体积层次(BVH)数据结构遍历的加速单元,并执行射线三角形和光线边界框相交测试计算。Ampere的RTCores中,BVH遍历由BoxIntersectionEngine进行加速,射线三角形相交测试由三角形相交引擎进行加速,这已经被证明是迄今为止处理光追工作负载最高效的引擎。而在AdaGPU的第三代RTCores中,除了以上两个功能外,还引入了称为“微映射透明度引擎”(OMM)和“微网格置换引擎”(DMM)。
微映射透明度引擎的作用是优化光线追踪渲染,大幅降低着色器的工作负载,这对于处理复杂物体光追特性来讲提升是很大的。具体的原理是将光线追踪特性烘焙到不透明的蒙版中,让那些不规则的形状与半透明的对象都能更快更精准地被渲染出来。
微网格置换引擎则可以将面数非常多的复杂图形做简化,创造出更加简单的模型,从而实现用基本三角形渲染复杂几何图形的目的,大大减少了计算量和对显存的占用。从官方数据来看,微网格置换引擎可以让光线追踪的BVH速度最多提升15倍以上,而显存占用最多可降低到原先的1/20,总之就是越复杂的模型,微网格置换引擎的优化效果越突出。
第四代TensorCore
在AdaGPU上,TensorCores已经进化到了第四代,而这次TensorCores的升级尤其重磅。它配备了全新的FP8引擎,张量处理性能高达1.32PetaFlops(相对上代提升了五倍之多)。第四代TensorCores最具革命性的进步当然是全新加入的光流加速器(OpticalFlowAccelerator),而它就是NVIDIADLSS3黑科技的核心所在。
DLSS3技术
DLSS技术作为RTX系列显卡提升画质与帧率的专用黑科技,到RTX40这一代进化到了DLSS3,跨度之大证明其改进是革命性的,NVIDIA官方称其代表了“神经网络渲染新时代”。
和之前的DLSS不同,DLSS3在原有的超分辨率功能基础上进一步引入了光学多帧生成技术,简单来说就是可以通过AI计算生成新的帧,而不像之前那样只是生成像素。而这个帧生成的工作,这个帧生成的工作是在Ada架构中新的光流加速器完成的,当然这就意味着DLSS3中的“光学帧生成”功能是RTX40独享的。
光流加速器可以在DLSS2的基础上计算两帧之间的光流场,捕捉游戏画面中从第1帧到第2帧之间变化的方向与速度,包含粒子、光线照射、反射等像素信息,通过计算运动矢量和光流场来精确重建画面。
总的来说,DLSS2做的是通过AI计算出画面上剩余的像素,而DLSS3则在此基础上还能计算出下一帧完整的画面,这样算下来DLSS3等于是完全重建了实际显示画面7/8的像素,也可以说是重建了相当于实际渲染像素7倍的像素。此外,由于DLSS3的“帧生成”在GPU中后处理,所以即便是CPU性能出现瓶颈,也能提升游戏帧率。
按照官方数据,DLSS3最多可带来4倍的游戏性能提升。DLSS3包含了“光学多帧生成”、“超分辨率”和“NVIDIAReflex”三大部分,开发者只要整合DLSS3,就可默认支持DLSS2。目前DLSS3已经得到了游戏开发者与游戏引擎的广泛支持,在后面的详细测试中我们会进一步介绍DLSS3游戏的情况。
NVIDIAStudio优化
在生产力方面,NVIDIAGPU打造的CUDA生态圈已经是业界无可匹敌的存在,RTX显卡也是设计师们优先考虑的高效工具,因此RTX40系列在NVIDIAStudio方面的优化配合NVIDIAStudio驱动也将会为内容创作者们提供更加出色的选择。总的来说,目前RTX可以加速100多款主流创意应用,此外,SDK的提供使这些应用更加高效,并提供独家的功能,例如Optix、DLSS和Maxine。NVIDIAStudio还提供了全套创意应用,包括NVIDIAOmniverse、Broadcast、Canvas和RTXRemix。
AV1与AI直播
RTX4070Ti规格解析:性能与定位的黄金平衡作为RTX40系列第三位登场的成员,RTX4070Ti其实从某种意义上来讲原本应该是和RTX4090一起发布的“RTX408012GB”,不过考虑到实际的规格和定位,NVIDIA最终决定将它重新命名为了RTX4070Ti。从核心图上可以看到,RTX4070Ti并不是在之前RTX4080的AD103核心上进行缩减而来,而是换上了规模更小一点的AD104核心。晶体管数量从AD103的459亿个减少到了358亿个,相较于完整的AD103,AD104精简了1组完整的GPC和一组“不完整”的GPC,因此总共具备5组GPC。
使用完整版AD104核心的RTX4070Ti拥有30组TPC,比RTX4080少了8组,CUDA核心从4080的9728个缩减到了7680个,综合来看它拥有了RTX4080近8成的核心规模,理论性能定位其实也比较清晰了。此外,RTX4070Ti拥有80个光栅单元,虽说比RTX3070Ti少8个,但它还具备60个第三代光追单元和240个第四代张量单元,比RTX3070Ti多出不少。
RTX4070Ti同样也采用了NVIDIA定制的台积电4N工艺,GPU加速频率可以达到2610MHz(公版),游戏加速频率则更高。显存部分用上了12GBGDDR6X,比RTX3070Ti要多4GB。显存位宽为192bit,虽说低于RTX3070Ti的256bit,但它的二级缓存有48MB,是RTX3070Ti的12倍,同时显存频率也要高一些,所以综合计算下来的显存实际工作效率反而更高。
功率部分,RTX4070Ti的整卡功率为285W,比RTX3070Ti低了5W。官方表示,RTX4070Ti的平均游戏功率其实只有225W左右,而官方测试成绩表明,RTX4070Ti跑Overdrive模式光追的《赛博朋克2077》只有RTX3090Ti一半的功率,可见RTX40这一代的能效比非常高。
接下来看看我们手中这款超公版RTX4070Ti中的颜值担当:技嘉GeForceRTX4070TiAEROOC12G雪鹰。
游戏工作通吃,RTX4070Ti雪鹰规格给力颜值高作为超公版RTX4070Ti中的高颜值代表作,RTX4070Ti雪鹰独特的银白配色外观尤其引人注目,虽说它更倾向于定位设计师用户群,但其强劲的游戏性能一样让它能够担当个性玩家的游戏利器。
散热方面,RTX4070Ti雪鹰搭载了高效的风之力3风扇散热系统,由均热板直触GPU表面,配合7根复合式热管将热量快速传递出来。3个100mm风扇的扇叶上都有3D条纹曲线,能引导气流平滑通过,每个风扇的旋转方向与相邻风扇相反的正逆转设计可以减少扰流并增加气压,再配以背板上的进气格栅以及比PCB更长的散热鳍片,可大幅提高散热能力。
此外,显卡风扇都采用了纳米石墨烯润滑油,可以大幅延长油封轴承风扇的寿命,达到滚珠轴承风扇的水平,而且更为安静。风扇支持智能启停功能,当GPU负载较低时,风扇将会自动停止运转,提供零噪音的舒适体验。在稳定性方面,RTX4070Ti雪鹰采用了长寿命固态电容、合金电感、2oz铜PCB与低电阻式晶体管等超耐久用料,充分保证稳定性和使用寿命。
RTX4070Ti雪鹰还配备了强化金属背板,带来全方位的保护。只需拨动BIOS切换开关,就能在静音和高性能两种BIOS之间进行切换。显卡供电接口处设置了指示灯,当遇到供电异常时,指示灯将闪烁提醒玩家。另外,技嘉还为RTX4070Ti雪鹰量身定制了显卡支架,能够提供更好的支撑性,隐蔽性也好于传统支架。
接口部分,显卡提供了3个接口和1个接口,轻松满足游戏玩家和设计师用户对于多个显示设备的连接需求。
接下来就是大家最关心的实战测试部分。
开启DLSS3帧率暴涨,RTX4070Ti实力诠释黄金甜品测试平台
显卡:技嘉GeForceRTX4070TiAEROOC12G雪鹰
处理器:Intel酷睿i913900K
内存:技嘉AORUSDDR5600016GB×2
主板:技嘉Z790AORUSMASTER超级雕
硬盘:技嘉钛雕AORUSGen47000s2TB
电源:技嘉UD1000GMPG5
操作系统:Windows11专业版22H2
测试中我们解锁了处理器功耗墙,并开启BIOS中的ResizeBAR选项。内存选择XMPDDR56000模式,分频设定为自动。此外,还根据不同测试项目选用了RTX4080/3080Ti/3090Ti/3070Ti进行对比。
基准性能测试
首先看看3DMark的GPU得分。在DX11的FireStrikeExtreme项目中,RTX4070Ti得分相比RTX3070Ti高出了约55%,比RTX3080Ti也高出了约21%,提升幅度相当可观。相对RTX4080则有17%左右的差距。DX12的TimeSpy项目中,RTX4070Ti轻松实现23000+的得分,大约是RTX3070Ti的1.57倍,是RTX3080Ti的1.23倍,表现也非常抢眼。在DX12U专属的SpeedWay测试中,RTX4070Ti相对RTX3070Ti高出46%,比RTX3080Ti高出7%。
光追性能部分,PortRoyal测试中,RTX4070Ti领先RTX3070Ti大约61%,领先RTX3080Ti大约13%;DXR纯光追测试中,RTX4070Ti领先RTX3070Ti大约104%,领先RTX3080Ti大约28%。可以看到,光追特效越多,RTX4070Ti领先RTX3080Ti和RTX3070Ti的幅度越大,甚至相对RTX3070Ti做到了翻倍。
DLSS3测试中,默认为4K/性能模式,RTX4070Ti在开启DLSS3后帧率大约达到原生4K的4.4倍,而用来对比的RTX3080Ti开DLSS提升则是2.6倍左右,可见RTX40特有的“光学多帧生成”功能对帧率的提升效果多么大。同时,在这里也可以看到,RTX3070Ti不开DLSS时只有5fps,8GB显存真的不够用了。
综合基准测试得分来看,RTX4070Ti的性能差不多是RTX4080的80%,而相对上代RTX3070Ti的综合提升则超过了50%,光追效果足够多的场景下甚至有翻倍的提升,而相对RTX3080Ti也有10%~30%不等的优势。同时,在开启DLSS3的情况下,RTX4070Ti的优势就更加夸张了,相对RTX3080Ti和RTX3070Ti分别有86%和152%的帧率提升。由此可见,如果玩家买了RTX4070Ti,那么一定要在游戏中开启DLSS3从而获得成倍的性能提升。
光栅游戏性能测试
虽说NVIDIA官方给RTX4070Ti的定位是2K/120fps畅玩光追游戏大作,但既然性能都明显超越上代RTX3080Ti了,玩4K游戏也应该是游刃有余的,所以我们也加入了4K游戏测试。
首先看看2K下的表现。综合12款游戏大作的测试成绩,RTX4070Ti平均领先RTX3070Ti大约46%,领先RTX3080Ti大约14%,相当于RTX4080约84%的水平。这个提升幅度也是比较符合基准性能测试结果的。当我们把分辨率提升到4K之后,RTX4070Ti平均领先RTX3070Ti大约44%,领先RTX3080Ti大约10%,相当于RTX4080约80%的水平,这个表现也是达到了预期的目标。
而且我们还注意到,在优化比较好的游戏中RTX4070Ti的提升幅度尤其大,例如2K下的《COD19》相对RTX3070Ti提升幅度高达60%,4K下的《毁灭战士:永恒》相对RTX3070Ti的提升幅度更是高达69%。
综合来看,RTX4070Ti在不开启光追的极限画质设置情况下,可以轻松驾驭现有主流游戏大作,2K下保持120fps以上帧率轻而易举,4K下大部分游戏可以达到70fps以上、半数游戏可以过百帧、所有游戏都能达到60fps以上。这个表现不但比RTX3070Ti强很多,甚至比RTX3080Ti也要强一个级别,升级价值还是很明显的。
光追游戏性能测试
接下来看看光追游戏和DLSS2测试的情况。首先是《古墓丽影:暗影》,之前在4K下不开光追,RTX4070Ti相对RTX3070Ti的提升有43%,开启光追后,优势进一步加大到64%,开启DLSS2后,更是有高达86%的提升。考虑到RTX4070Ti的光追单元和张量单元数量都要多于RTX3070Ti并领先了一代,这应该也是一个合理的成绩。
《杀手3》中,RTX4070Ti相对于RTX3070Ti的优势也比较大,各分辨率下保持了56%~68%的提升。《地铁:离去》增强版4K分辨率下,RTX3070Ti不开DLSS已经只有26fps了,即使开启DLSS2质量模式也只有40fps,RTX4070Ti在4K下领先了62%,但也没到60fps,不过开启DLSS后就可以跑到65fps。
《看门狗:军团》的硬件要求比较高,因此也是同样的情况,RTX3070Ti在开启DLSS的情况下也只有42fps,如果不开则只有25fps,8GB显存已经捉襟见肘了。RTX4070Ti同样也需要开启DLSS才能满足4K下达到60fps的需求,不过相对RTX3070Ti来说,优势达到了50%。
《控制》中,4K开启DLSS下,RTX4070Ti相比RTX3070Ti的提升为40%左右,不开启DLSS,RTX4070Ti相对于RTX3070Ti的优势就要稍微小一些,4K原生下领先35%。《孤岛惊魂6》中的表现和《控制》比较接近,4K下RTX4070Ti相对于RTX3070Ti的提升大约为41%。赛车游戏《F12022》中,4K开启DLSS时RTX4070Ti相对于RTX3070Ti的提升在45%以上。
《我的世界》开启RTX后就成了硬件杀手,光追地图默认会开DLSS。如果关闭DLSS,RTX3070Ti就只有25fps了,RTX4070Ti也不过40fps。开启DLSS情况下,RTX4070Ti可以跑到104fps,相对于RTX3070Ti提升为44%。
最后来说说一向优化良好的《毁灭战士:永恒》,RTX4070Ti在2K下相对于RTX3070Ti有93%的提升,差点实现翻倍,而RTX3070Ti因为只有8GB显存,已经无法满足在4K最高画质下开启光追时的显存需求,甚至开启DLSS也不行,所以也没法进行测试了。看来8GB显存的对于4K下的次世代3A大作来说,确实已经不够用了。
总体来看,平均这些游戏的表现,在开启光追后,RTX4070Ti在2K下相对于RTX3070Ti提升为55%,4K下相对于RTX3070Ti的提升为63%。开启DLSS后,RTX4070Ti相对于RTX3070Ti的提升则为55%,也是非常令人满意的。
DLSS3测试
DLSS3可以说是RTX40系的核心功能了,开启之后能让游戏帧率得到极大的提升。从测试来看,《赛博朋克2077》在2K超级光追预设下,RTX4070Ti开启DLSS3性能模式后,帧率从48fps暴增至129fps,达到了RTX3090Ti开DLSS2性能模式的1.6倍。
《生死轮回》中RTX4070Ti开启DLSS3后可以提升近100fps,RTX3090Ti开DLSS2的话只有124fps,RTX4070Ti在这里的帧速是后者的1.4倍。
《瘟疫传说:安魂曲》原生2K最高画质下RTX4070Ti能跑到接近100fps,开DLSS3后暴增至195fps,超过原生的2倍。对比RTX3090Ti开DLSS2的性能则是1.37倍。
《光明记忆:无限》开启DLSS3后,RTX4070Ti能跑到相当于原生2K大约2倍的帧率,大概是RTX3090Ti开DLSS2的1.34倍。
《F12022》中,RTX4070Ti原生画质可以跑到接近120fps,开启DLSS3后帧数接近翻倍,和RTX3090Ti开启DLSS2相比则是1.23倍。
从几款DLSS3游戏测试可以看到,RTX4070Ti开启支持“光学多帧生成”技术的DLSS3之后,游戏帧率的提升非常夸张,虽然没有实现翻倍,也能让2K光追游戏大作实现100fps以上的流畅帧率,像《赛博朋克2077》《生死轮回》这样要求较高的光追大作更是从几十帧的普通流畅度直接提升到上百帧的高流畅度,可玩性上了几个台阶。
目前来看,已经有超过35款游戏和APP对DLSS3提供了支持,未来这个数量还会不断增加。因此对于希望体验未来光追游戏大作的玩家来讲,选择支持DLSS3的RTX40系显卡无疑是最佳的解决方案。
生产力性能测试
接下来看看生产力方面的表现。中,RTX4070Ti相对RTX3070Ti提升比较明显,其中monster和classroom的性能接近RTX3070Ti的1.9倍和1.8倍,junkshop也有40%的提升。
RTX4070Ti在V-Ray中的表现也比较不错,无论是使用RTX还是CUDA相对于RTX3070Ti都能实现50%以上的渲染效率提升。而OC渲染器中的性能提升则是57%以上。由于RTX4070Ti有12GB内存,所以其在3D渲染中的生产力性能自然比8GB的RTX3070Ti更好。
达芬奇中做MagicMask魔法遮罩时RTX4070Ti的效率提升也非常明显,RTX3070Ti需要近43秒完成的工作RTX4070Ti只要27秒就可以搞定。至于新的AV1编码,我们简单看看达芬奇的输出效率,RTX4070Ti和大哥RTX4080区别不大,而具备双编码器的它相对RTX3070Ti来说在H265的转码测试中却真的有成倍的效率提升。
总的来说,如果不考虑显存容量,其实RTX4070Ti的单卡生产力性能是超越RTX3080Ti且可以比肩RTX3090Ti的,甚至还略强一点。
考机与超频测试
RTX4070Ti雪鹰作为一款超公版RTX4070Ti,频率设定方面自然要高于公版标准。从GPU-Z截图可以看到,它的加速频率为2640MHz,高于公版的2610MHz。
默认设置下使用FurMark考机,可以看到RTX4070Ti雪鹰的GPU考机频率达到了2700MHz,整卡功率达到了279.4W,接近官方给出的285W整板功率上限。同时,我们也注意到满载考机的情况下,GPU最高温度不过49.5℃,热点温度不到59℃,显存温度也仅有32℃,可见RTX4070Ti雪鹰的散热系统确实非常出色。
RTX4070Ti雪鹰在TimeSpy中的实际游戏频率高达2880MHz,整卡峰值功率不到282W,GPU温度也仅有51.4℃。
既然RTX4070Ti雪鹰散热系统性能出色,我们就来尝试一下超频。经过简单的设置,我们上调了功率墙上限,最终在TimeSpy中让RTX4070Ti雪鹰的GPU频率跑到了3030MHz,同时显存也上调了200MHz,来到了1337.7MHz的实际工作频率。可以看到,超频后TimeSpy得分又提升了接近800分,同时温度也继续保持了凉爽的水平。
总而言之,RTX4070Ti雪鹰在性能释放方面达到了超公版的一流水准,同时其强大的散热系统也保证显卡在满载工作情况下维持较低的温度,不管是对于游戏玩家还是设计师来讲,可靠性方面都是完全值得信赖的。
总结:颜值与实力双绝的“70”甜品,选RTX4070Ti雪鹰很靠谱
NVIDIAAdaLovelaceGPU架构为RTX40系列带来了革命性的进步,除了从TSMC4NNVIDIA定制工艺获得的超大芯片规模与高频率增益之外,第三代RTCores和第四代TensorCores也大显神威,特别是全新加入的光流加速器,让DLSS3技术的光学多帧生成得以实现,从而大幅增加了游戏帧率并降低了延迟。
RTX4070Ti作为RTX40系列登场的第三位成员,从实测来看在DLSS的加持下也能让主流游戏以2K极致光追设定超过100fps高帧率流畅运行,在支持DLSS3的游戏中帧率提升更是惊人,不但远超上代RTX3070Ti,甚至还超过了RTX3080Ti,升级价值尤为突出。
在性能大幅提升的同时,RTX4070Ti的能效比同样也是比较不错的。大部分游戏中的平均功耗都在225W~230W水平,在提供高性能的同时,也减小了玩家选购高功率电源的压力。
因此,对于追求发烧级游戏体验的玩家和追求高效率的设计师用户来讲,RTX4070Ti绝对算得上是“黄金级甜品”。而技嘉GeForceRTX4070TiAEROOC12G雪鹰作为超公版中的颜值标杆,不但能提供2K光追游戏极致流畅体验和出色的生产力性能,还拥有超高颜值的外观,非常值得发烧级玩家入手!