AMD RDNA全新GPU架构探秘:三管齐下 迎接光追

  • 时间:
  • 浏览:1
  • 来源:5分6合注册平台-5分6合官网平台_5分6合官网

AMD发布的新一代RX 5700系列显卡基于7nm新工艺和Navi新核心,而在底层是全新的RDNA架构,可能走过七年半的GCN架构就此挥手作别。

这个 年来,就是我用户玩家尤其是A饭4个劲期待4个全新的GPU架构,但这个 事儿的难度远超一般人想象,三种程度上设计4个新的GPU架构甚至要比设计4个新的CPU架构需要难。RDNA架构就花费了AMD研发团队长达四年的时间,凝聚了无数人的心血,也开启了AMD显卡历史上第五代重大架构的新时代。

5000年前,R5000核心是A卡的第一代架构,用的还是固定单元设计,3D几何转换和光照效果如今看起来都极为原始。

5001-5007年的R500-R5000是第二代架构,简单的VS纹理着色器、PS像素着色器分离式设计,不同的就是我比例不同,整个渲染流水线就像4个单通道的单行道。

5008-2011年的第三代TeraScale架构(代表核心R5000)实现了4个飞跃,VS、PS融合为统一着色器,也就是我让我们让我们 常说的流处里器,支持VLIW(超长指令字),后后就是我2011-2019年的GCN架构(代表核心Southern Islands),统一着色器加独立的标量、矢量单元,二者比例为1:4。

如今,让我们让我们 迎来了全新的RDNA(Radeon DNA),还是统一着色器,但标量和矢量单元走向融合,支持SIMT(单指令多守护线程池池) ILP(指令集并行),之类CPU处里器的SIMD(单指令多数据流),单守护线程池池性能和指令集执行传输下行速率 大大提升。

需要强调的是,RDNA是4个全方位重新设计的架构,并时会GCN的又4个升级版,也时会与GCN的混合体,就是我集成了GCN架构的指令以保持向下兼容,现有技术仍然可不都可以 在RDNA架构上得到支持。

RDNA架构将是AMD GPU显卡未来多年的基石,接下来让我们让我们 将想看 采用7nm+工艺的第二代版本RDNA 2,看路线图有望明年初和让我们让我们 见面。

除了RDNA新架构,Navi核心还有7nm工艺、GDDR6显存、PCIe 4.0总线、Radeon媒体引擎、Radeon显示引擎等诸多全新内部人员。

Navi 10核心集成了103亿个晶体管,相比Vega 64 125亿个少了合适18%,而核心面积非要251平方毫米,相比Vega 64 495平方毫米更是小了足足一半,后后单位面积性能提升了足足1.3倍。

尽管晶体管更少、面积更小,Navi 10核心的性能相比于Vega 64却提升了14%,同去功耗降低了23%,能效比后后大涨500%。

纯架构性能上,Navi相比于Vega在同等功耗、同等配置下提升多达500%,反应到实际产品上,这贡献了产品性能提升的500%左右,另外有合适25%来自7nm新工艺的加持,还有约15%来自频率以及功耗的改进。

AMD表示,RDNA架构的设计理念主要有十个 方面,性能上要满足在现代游戏负载需求,能效上要充分优化功耗和传输下行速率 利用率,功能上要壮大生态,扩展性上要从移动到桌面到云端通吃。

为实现上述目标,RDNA架构主要从三大方面进行了变革,包括CU计算单元、缓存、流水线,接下来让我们让我们 逐一和让我们让我们 分享,但鉴于GPU架构的技术性太强,让我们让我们 就是我蜻蜓点水地大致看一下,最后还有AMD关于光线追踪的规划。

新的计算单元设计一共分为40组,每组4个标量处里器、64个流处里器、4个64位双线性过滤单元,总计500个、25500个、1500个,执行延迟更低,单守护线程池池性能更强,缓存传输下行速率 更高,整体计算能效比GCN架构有着巨大的提升,后后可适应从游戏到计算各种负载。

多级缓存一致性可不都可以 带来更低的延迟、更高的传输下行速率 、更低的功耗,包括各处零级缓存、512KB一级缓存、4MB二级缓存。

整个图形引擎也做了重新调整,更加顺畅高效,包括几何引擎、64个纹理单元、4个异步计算引擎(ACE),负载分配更加均衡,可不都可以 在更低的功耗下达成更高的频率,能效更高。 

CU计算单元方面,着实看起来每一组还是64个流处里器,数量没变,但这个 数字是AMD反复设计后与处里资源最为平衡的的组合,同去整个计算单元的内部人员进行了彻底重组,和GCN时代完正不一样了。

RDNA架构下,每个CU计算单元的标量解码和发射单元、矢量解码和发射单元、调度器的数量都增加了一倍来到4个,指令处里率后后也提升一倍。

同去,十个 SIM16矢量单元、十个 SIMD4特殊功能单元变为4个SIMD32、4个SIMD8,比如64个守护线程池池可组合为4个Wave32,后后由4个SIMD32执行4个Wave32,实现单时钟周期指令发射(事先需要十个 ),SIMD ALU单元的利用率也从25%来到了5000%,后后支持Wave32、Wave64三种执行模式,以应对不同负载需求。

此外,为了强化资源调度和利用的传输下行速率 ,RDNA架构还将每4个CU计算单元紧密地捆绑在了同去,组成4个工作组处里器(Work Group Processor),使得可用ALU单元、寄存器数量翻番,缓存传输下行速率 更是事先的四倍。

缓存方面,RDNA收集了一套多级一致性内部人员,每个双CU组合内时会当事人的零级缓存,与ALU单元的载入传输下行速率 翻番,增加了四组新的一级缓存(时会16-way 128KB),降低了二级缓存(16-way 4MB)的拥堵,整体延迟和功耗大大减低。

按照AMD的说法,零级缓存的延迟降低了21%,一二级缓存降低24%,内存延迟也低了7%。

另外在一致性多级缓存下,到处都支持Delta数据压缩(DCC/图中箭头黄色部分),提高传输率,同去还改进了色彩压缩算法,可供显示引擎读取,着色器不可不都可以 同去读写压缩的色彩数据。

图形引擎流水线方面进行了大刀阔斧的重组,包括十个 增强的ACE异步计算引擎,地位更加中心化的结合处里器(富含十个 原语单元),64个像素单元。

异步计算4个劲是A卡的独门绝技,也是起在DX12、Vulkan API下表现更好的关键,如今得到增强后,可不都可以 更精准地实时控制这个模块。

有趣的是,RDNA GPU收集也借鉴了Zen CPU收集的这个先进理念,尤其是在时钟门控方面,传输下行速率 和能效极高,同去还减少了达到更高频率所需要的逻辑层级。

Radeon显示引擎也大幅跃进,支持FreeSync 2 HDR、HDMI 2.0/DisplayPort 1.4 HDR,针对高分辨率HR显示器优化,可输出4K/240Hz、8K/500Hz,后后都只需根小绳子 数据线即可达成,同去还优化了VR头显显示。

Radeon多媒体引擎则大大改进了视频编解码,增加了新的H.265 HDR/WCG编码器,全面支持H.264 10500p5000、4K5000、8K500解码和10500p3500、4K90编码,H.265 10500p3500、4K90、8K24解码和10500p3500、4K500编码,VP9 4K90、8K24解码,整体编码传输下行速率 加快40%。

对于让我们让我们 非常关注的光线追踪支持,GCN、RDNA架构都没法专门的硬件单元加速,不过事实上,AMD ProRender、Radeon Rays都早就支持了光线追踪,分别面向内容创作渲染和游戏开发。

在下一代RDNA架构上,AMD会通过硬件单元,支持特定的光线追踪效果在游戏中实时渲染,而即便到了更遥远的未来,AMD就是我会将光线追踪完正一股脑扔给硬件来本占据 理,后后传输下行速率 会非常低下,就是我将借助云计算,实现全场景的光线追踪,保证画面效果的同去,无需给本地硬件不要 的压力。

微信公众号搜索"

驱动之家

"加关注,每日最新的手机、电脑、汽车、智能硬件信息可不都可以 我就一手全掌握。推荐关注!【

微信扫描下图可直接关注