从Cayman架构改进看下一代AMD显卡发展_三秦IT网_

　　● VLIW4单元改进细节

　　本次在Cayman芯片中所采用的VLIW4线程处理器单元中的ALU阵列减为4个（删除了1个较大的ALU.transcendental单元），ALU阵列数量减少了20%，但是这种设计减少了指令调度和寄存器管理，反而提升了利用率。

　　由于取消了原本5-WAY VLIW中带ALU.Trans的1D ALU，现在Cayman将通过占用3个1D ALU的资源来完成特殊函数的运算。按照AMD的说法，调整VLIW粒度为4指令Co-issue后，可以让VLIW core的性能/面积比提升10%，同时降低指令排序以及寄存器空间配置的难度，提升单位周期内电路的重复使用率，实现比5-way VLIW更佳的利用率。

全新的VLIW4线程处理器

　　Cayman 的 4-way VLIW包含4个对等的ALU，每周期可执行4个单精度浮点算术指令（例如 FMA/MAD、ADD、MUL、或者2个双精度浮点加法指令、或者一条双精度乘加融合（FMA）或乘法指令、或者1条特殊功能单元指令。

从Cayman架构改进看下一代AMD显卡发展
流处理器之变革

　　1、首先ALU.trans处理的超越计算（如正弦余弦平方根等）任务在全新的VLIW4线程处理器中可以被3个普通ALU来替代，所以删除ALU.trans之后，处理器功能不会发生缺失。

　　2、其次Cayman芯片线程处理器的ALU阵列组合方式更为自由，有一种传闻认为Cayman核心的3个普通ALU计算超越函数的同时，剩下的1个1D ALU可以进行常规计算，而以往ALU.trans在进行超越函数计算过程中其他单元必须等待。

　　3、同时Cayman芯片线程处理器的寄存器和发射端能力得到加强，所以ALU阵列数量虽然少了但是这种设计减少了指令调度和寄存器管理，反而提升了利用率。

　　4、最后宏观来看Cayman芯片的线程处理器数量得到了提升。RV870是320个（1600个ALU阵列/5），Cayman芯片是384个（1536个ALU阵列/4）。AMD目前架构的障碍主要在VLIW线处理器内部而不在数量，所以VLIW4线程处理器单元降低了10%的晶体管占用，换来了数量提升。

三秦IT网的官方微信：更多资讯请关注：三秦IT网官方微博