从Cayman架构改进看下一代AMD显卡发展

中关村在线 作者:ZOL 编辑:王旭 07-08

 ● Cayman图谋线程处理器改进

  我们经常把GPU的Shader单元称为流处理器,这一概念是在Geforce 8时代开始的,后来因为AMD在Radeon HD 2000时代也提出了流处理器的称谓,但是其流处理器的计算方式实际上是VLIW Core单元内部ALU阵列数量,所以线程处理器应该是对VLIW Core单元最贴切的形容。

  R600开始每个VLIW Core是分“1大4小”,即一个全功能SP单元和4个仅能执行乘加运算而无法执行连乘运算的部分功能SP。R600为每个US配备了1个发射端,所以如果要保证指令吞吐不受限制就通过VLIW,也就是超长指令打包的形式将若干个短指令打包在一起。理论上可以做到1个4D+4个1D打成一个包一起丢进VLIW Core,这是VLIW结构的优势所在。


超越图形界限 AMD并行计算技术全面解析
R600到R800统一渲染流处理器架构

  由于内部的5个1D ALU共享同一个指令发射端口,因此宏观上R600应该算是SIMD(单指令多数据流)的5D矢量架构。但是R600内部的这5个ALU与传统GPU的ALU有所不同,它们是各自独立能够处理任意组合的1D/2D/3D/4D/5D指令,支持Co-issue(矢量指令和标量指令并行执行),因此微观上可以将其称为5D Superscalar超标量架构。

  不过在GPU进化发展的过程中AMD看到了这种VLIW Core线程处理器的两个核心问题:

  首先是打包方式容易造成拥堵;
  其次是5个ALU阵列构成一个线程处理器还不是最为灵活和经济的选择。

无心插柳柳成荫 GPU通用计算十年发展
AMD历代着色器演进

  VLIW打包方式可以最大限度的避免发射端不足的问题,可是如果这个包里面有一个1D指令的结果很不凑巧是同一个包里另外一个1D指令的初始条件,效率就非常低下了。同样的2个关联1D,R600需要打包—在所有寄存器中转一圈,运算第一个1D同时第2个1D挂起等待,从寄存器出来解包,把第一个1D的结果和第二个等待的1D都释放进LDS,等待再次打包,打包完成进入线程处理器计算。

  但是面对现实我们看到要想解决VLIW打包方式只有弃用VLIW结构,AMD目前的GPU资源充裕度特别是线程处理器发射端显然不能满足这一要求,解决的办法转移到了在线程处理器内部下功夫——VLIW4线程处理器应运而生。

三秦IT网的官方微信:更多资讯请关注:三秦IT网官方微博

图片新闻
ZOL产品报价:手机报价 笔记本报价 数码相机报价 服务器报价 MP3报价 MP4报价 投影机报价 数码摄像机报价 硬盘报价 内存报价
ZOL笔记本报价: 戴尔笔记本 联想笔记本 惠普笔记本 ThinkPad笔记本 神舟笔记本 索尼笔记本 华硕笔记本 三星笔记本 东芝笔记本 苹果笔记本
ZOL手机报价:诺基亚手机 MOTO手机 三星手机 索爱手机 多普达手机 联想手机 CECT手机 IPHONE手机 魅族手机 天语手机 LG手机
ZOL数码相机报价:佳能数码相机 索尼数码相机 三星数码相机 尼康数码相机 松下数码相机 理光数码相机 奥林巴斯数码相机 柯达数码相机