● VLIW4单元改进细节
本次在Cayman芯片中所采用的VLIW4线程处理器单元中的ALU阵列减为4个(删除了1个较大的ALU.transcendental单元),ALU阵列数量减少了20%,但是这种设计减少了指令调度和寄存器管理,反而提升了利用率。
由于取消了原本5-WAY VLIW中带ALU.Trans的1D ALU,现在Cayman将通过占用3个1D ALU的资源来完成特殊函数的运算。按照AMD的说法,调整VLIW粒度为4指令Co-issue后,可以让VLIW core的性能/面积比提升10%,同时降低指令排序以及寄存器空间配置的难度,提升单位周期内电路的重复使用率,实现比5-way VLIW更佳的利用率。
全新的VLIW4线程处理器
Cayman 的 4-way VLIW包含4个对等的ALU,每周期可执行4个单精度浮点算术指令(例如 FMA/MAD、ADD、MUL、或者2个双精度浮点加法指令、或者一条双精度乘加融合(FMA)或乘法指令、或者1条特殊功能单元指令。
流处理器之变革
1、首先ALU.trans处理的超越计算(如正弦余弦平方根等)任务在全新的VLIW4线程处理器中可以被3个普通ALU来替代,所以删除ALU.trans之后,处理器功能不会发生缺失。
2、其次Cayman芯片线程处理器的ALU阵列组合方式更为自由,有一种传闻认为Cayman核心的3个普通ALU计算超越函数的同时,剩下的1个1D ALU可以进行常规计算,而以往ALU.trans在进行超越函数计算过程中其他单元必须等待。
3、同时Cayman芯片线程处理器的寄存器和发射端能力得到加强,所以ALU阵列数量虽然少了但是这种设计减少了指令调度和寄存器管理,反而提升了利用率。
4、最后宏观来看Cayman芯片的线程处理器数量得到了提升。RV870是320个(1600个ALU阵列/5),Cayman芯片是384个(1536个ALU阵列/4)。AMD目前架构的障碍主要在VLIW线处理器内部而不在数量,所以VLIW4线程处理器单元降低了10%的晶体管占用,换来了数量提升。
三秦IT网的官方微信:更多资讯请关注:三秦IT网官方微博