● Cayman并行体系与几何端
基于Cayman芯片的Radeon HD 6900系列显卡在2010年末发布,同时与Radeon HD 6800系列做好由高到中端的顺畅布线,直到Cayman发布的最后一刻我们才感受到了架构改进带来的特性提升,而在此之前AMD的很多方向性问题都是保密的。
Cayman芯片架构示意图
首先Cayman在几何执行端做到了并行处理,这是AMD一直希望自己做到的,也是对当今GPU架构设计最具挑战性的难题。我们知道NVIDIA方面Fermi架构GF100 GPU基于图形处理团簇(翻译为GPC),每个GPC包含一个光栅引擎和四个SM单元。GPC是GF100占主导地位的高层次的硬件模块。
Fermi架构GPC架构图
如果按照多核心CPU的角度去分析Fermi架构GPU,所有的GPC都集成了关键的图形处理单元,它包括顶点,几何,光栅,纹理均衡设置和像素处理资源。随着ROP单元功能的不断增强,一个GPC单元可以被看作是一个配置齐全的GPU,而GF100拥有4个这样的核心。本次Cayman则拥有两个不完全的“GPC”,因为Cayman芯片的流处理器、纹理和后端部分还是没有分开。
并行双图形引擎
Cayman之前的几代产品在几何性能上几乎没有遭遇到任何瓶颈,不过对于暴力放大的RV870芯片,其三角形生成和曲面细分能力已经成为重要障碍,特别是面对NVIDIA架构原生16个曲面细分单元时,AMD从顶级的HD5870到低端HD5450都仅有一个曲面细分单元,几何性能只能用频率划分高低。
本次从架构图上分析AMD为Cayman核心放置了两个几何单元,其实这背后牵扯到极其复杂的线程管理问题,这种设计意义非凡。双图形引擎设计,不言而喻Tessellation单元将会由此设计倍增,从而更好的适应目前DirectX 11应用。当然加倍的不仅仅是Tessellation单元,在顶点、几何等计算中也会相对老核心架构有双倍提升。
几何端并行化更加透彻
双几何单元打破了AMD向来坚持的单一GPU流水线套路,三角形生成能力和曲面细分能力翻倍提升,也让AMD开始走上并行化几何处理道路。其实并行化构想在Barts时代已经提出,Barts以及Cayman构架的线程管理发放机制名为Ultra Threaded Dispetch Processor,简称UTDP,整个构架体系使用2套UTDP对线程进行管理,但Cayman的努力让几何端实现了完整彻底的并行化。
三秦IT网的官方微信:更多资讯请关注:三秦IT网官方微博