首页| 论坛| 二 手| 模拟攒机| 代理商大全| 方案查询| 手机| 笔记本| 视频| 软件下载| 排行榜| 经销商| 全国行情| 招聘|小游戏| 黄页| 博客| 商城

从10年前说起 Intel新独立显卡万字解析

中关村在线 作者:ZOL 编辑:白林 02-23
 

  我们已经多次提到了矢量运算单元(Vector Processing Unit),那么什么是矢量运算单元呢?Larrabee的运算密度来自16宽幅矢量处理单元(vector processing unit,VPU),这些VPU可以执行整数运算、单精度浮点以及双精度浮点指令集。VPU以及VPU的寄存器虽然仅约占CPU核心面积是三分之一,但是却提供了大部分整数运算和浮点运算性能。下图描述的是VPU以及L1高速缓存的结构图。 


Intel制霸显卡新起点 Larrabee全解析

  我们把16宽幅VPU当成是提高运算密度与获得VPU高利用率的难度之间的一种权衡。之前有分析认为,如果16通道每次可以处理16个分离的像素的话,16 shader像素的利用率可以达到88%。可以这么说,在处理16个像素时,16宽幅VPU 的每个指令处理一种颜色,而不是采用多颜色通道一次性处理。Nvidia GeForce 8的操作模式与此相似,内建了32组标量SIMD处理器,这些标量处理器可以执行相同的指令。Larrabee与Nvidia GeForce 8系列的最大不同之处在于,Larrabee内部的环形控制、缓存管理以及其他操作都是以代码的形式出现的,这些代码与矢量处理单元进行平行运算,而不是像GeForce 8系列那样,在执行这些操作时依赖于固定功能逻辑芯片。

  Larrabee的VPU指令集可以支持3源操作数(Source Operands),其中1个可直接从L1高速缓存中调用。当数据被预先取出并发送到缓存中时,L1高速缓存实际上就成了一个扩展寄存器文件。8-bit unorm、8-bit uint、16-bit sint以及16-bit float数据可以从高速缓存中读取,并且转换成32-bi浮点或者32-bit整数,此过程不会造成任何性能损耗。这在很大程度上增加了存储在高速缓存中的数据量,同时也可以降低了分离数据转换指令的需求。

Intel制霸显卡新起点 Larrabee全解析

  下面就该将寄存器以及存储单元中的数据与VPU单元中的处理通道一线排开。首先,寄存器中的数据以多种多种的方式swizzled,比如说支持矩阵乘法(Matrix Multiplication);此外来自存储单元的数据可以通过VPU处理通道进行复制。这种操作可以大大提高缓存效能,事实上,在其他图形以及非图形平行数据处理过程中这种操作也很常见。

  VPU单元可支持大量以整数以及浮点数据形式存在的指令集。其指令系统可以提供标准算术运算,包括积和熔加运算(fused multiply- add, FMA)以及标准逻辑操作(standard logical operations),包括从像素单元中提取non-byte-aligned field的指令集。这些都是load-op格式指令,可以从某些寄存器或者存储单元中读取出来,而且可以将运算结果写入矢量寄存器中。其他加载以及存储指令可以更好的支持数据在有效浮点和比较罕见或比较复杂的数据格式之间转化,这种比较罕见或比较复杂的数据格式在目前的GPU中就可以看到。得益于这些数据格式的分离式指令集,Larrabee用非常小的性能代价便换来了相当客观的功耗节省以及die面积缩小。

  此外,VPU指令系统还可以支持Scatter/Gather(分散-收集)功能,可以实现对存储器非相邻地址的数据进行加载与存储操作。16个元素并不是从单一地址加载16宽幅矢量单元,而是从16个不同的地址加载或者存储到16个地址中,这16个地址被制定在另外一个矢量寄存器中。这种方式支持16个着色实例平行运行,这些实例都是在不间断的运行。尽管如此,很多工作量都是以高度相连的模式出现,所以完成这些任务实际上并不用16个周期。

  最终,Larrabee VPU指令集将会被每个矢量通道为1个字节的屏蔽寄存器(mask register)断定。比如说,通过利用某个指令集将屏蔽寄存器基于一种对比,从而某个标量if-then-else控制结构就可以被映射到VPU单元,然后以屏蔽寄存器的反向执行if和else分句,并控制是否写入结果;如果屏蔽寄存器内全部都是“0”或者“1”的话,待执行分句将会被完全跳过执行。这样的话,就可以降低由于某些短分句而造成的分支预测错误损失(branch misprediction penalties),并且给与程序编写人员在编写指令时充分的自由度。

  此外,VPU还利用这种屏蔽功能批量加载、存储指令,这可以更加有效的处理某些连续存储单元,而且可以让编程人员收集比较稀有的执行股,更加有效的执行矢量运算。

文章评论
相关新闻
关于我们 联系我们 三秦IT网在线论坛 商家注册 商家列表 人才招聘 硅谷BLOG
建议使用:1024*768分辨率、32Bit颜色、FLASH Player 6.0、IE6.0或Firefox1.5以上版本浏览器和中文大字符集
Copyright 1999 - 2009 3QIT, All Rights Reserved 三秦IT网 版权所有

陕ICP备05007135号