首页| 论坛| 二手| 模拟攒机| 代理商大全| 方案查询| 手机| 笔记本| 视频| 软件下载| 排行榜| 经销商| 全国行情| 招聘|小游戏| 黄页| 博客| 商城

55nm新GTX260当教材显卡超频扫盲培训

CNET中国·ZOL 作者：ZOL 编辑：白林 01-10

二、技术分析

1、GTX200核心新架构解析：大幅扩充流处理器

就65nm的GTX260来说，都是基于第二代的统一渲染架构，GTX260的TPC数量是8个，而且在每个TPC内部，SM从2个增加到3个，SM依然是8核心设计。如此一来，GTX260核心的流处理器数量就是，8×3×8=192个，几乎是G80的两倍！纹理单元部分，GTX260的每个TPC内部拥有8个TF，这样总共就是8×8=64个纹理单元。这里GTX260的纹理过滤单元和定址单元的数量是相等的。

应用为王超频也疯狂
举例图片

2、 NVIDIA的512Bit交叉总线显存控制器

NVIDIA方面，大家都知道G92核心未能超越G80，原因主要就出在显存位宽上面，G92虽然拥有更高的频率、更强的纹理单元，但是256Bit无论如何都无法超越384Bit，9800GTX只是勉强接近于8800GTX的性能，高带宽在DX10游戏和开高倍AA的情况下有着决定性作用。而NVIDIA则是沿用了传统的交叉式总线（Crossbar），每组显存控制器都与光栅单元（ROP）和纹理缓存（L2）绑定，从G70到G80增加了两个64Bit控制器，这就构成了64×6=384Bit位宽。现在从G80到GTX200，NVIDIA又增添了2个64Bit控制器，这就组成了64×8=512Bit位宽。Crossbar相比RingBus的优势就是数据存取延迟低，但是遇到大规模数据传输时，为了提高命中率就必须把控制器设计的相当复杂，由此导致晶体管开销很大。

3、GTX200图形架构细节方面的改进

为了能够更加胜任于未来的DX10游戏，NVIDIA针对图形渲染的三大重要环节进行了改良：几何着色、纹理单元和光栅单元。改进几何着色性能几何着色（Geometry Shader）是DX10的新增的着色器，它允许GPU来动态的生成和销毁几何图元数据，通过和新的数据流输出功能配合使用，许多以前无法实时使用的算法现在都可以在GPU中使用了。相比以往由CPU来处理简单的几何坐标变换，现在DX10渲染的效能增加不少（相同画质下DX10的效率高与DX9C），而且图形变换也可以做的更加复杂。在GTX200核心中，NVIDIA主要通过改进数据流输出（Stream Output）及帧缓冲（Frame Buffer Memory）的方式，有效地提高了几何着色器的效能。数据流输出也是DX10新增的特性，它允许数据从顶点着色器或几何着色器中直接被传入帧缓冲，这种输出可以被传回渲染流水线重新处理，当几何着色器与数据流输出结合使用时，GPU不仅可以处理新的图形算法，还可以提高一般运算和物理运算的效率。GTX200的帧缓冲达到了G80的6倍之多，由此可以允许更多的数据往返于着色器之间，避免重复性的数据处理，提升执行效能。

4、GTX260并行计算架构方面的改进

GTX200系列芯片组提高了双指令执行（Dual-Issue）效率，在每个SM（多核流处理器）内部，除了包括8个流处理器之外，还有包括1个SFU（Special Function Unit，特殊功能单元），这个处理单元可以用来辅助SP处理特殊的函数运算、插值属性的顶点+像素着色、执行浮点乘法运算指令（MUL）。

应用为王超频也疯狂
单精度浮点运算

GTX260核心的每个流处理器都能够单独的执行一条乘加指令（Multiplu-Add，也就是同时执行一条乘法和一条加法指令），与此同时SFU还能够在相同的时钟周期执行另外一条乘法指令，相当于每个流处理器都能同时执行3条指令！如此一来，GTX260的浮点运算能力计算公式为：流处理器数×指令数×频率＝216×3×1242=804GFLOPS。我们知道，G80/G92刚发布时并不支持Dual-Issue，所以其浮点运算能力仅为128×2×1350=346GFLOPS，后来NVIDIA为其追加了Dual-Issue支持，理论浮点运算能力就达到了518GFLOPS。不过Dual-Issue对于3D游戏的贡献非常微小，只是在特殊条件下比如通用计算时才会有显著的改善。此次NVIDIA将GTX260核心设计成为图形渲染架构和并行计算架构的统一体，对于Dual-Issue的效率进一步优化，达到了93%-94%之高，这样的双指令执行效率可以让GTX200的实际性能无限接近于理论值！还有就是GTX200系列显卡支持双精度64Bit浮点运算，IEEE754标准要求支持单精度32Bit浮点，双精度64Bit浮点也是标准之一但只是可选，但双精度64Bit浮点运算正是高精度科学计算（如工程分析、财政计算、计算机模拟）梦寐以求的功能。GTX260提供了对双精度的支持，显然更有利于进军通用计算领域，向传统集群式CPU超级计算机发起挑战！GTX260核心的每一个SM都包括了一个双精度64Bit浮点运算单元，这样GTX200就相当于一个30核心的双精度64Bit处理器，但GPU的频率要比CPU低很多，因此GTX260的理论64Bit浮点运算能力大概与Intel顶级八核心至强处理器相当。双精度的运算量是单精度的八倍，因此理论浮点运算能力只有原来的1/8，GTX260的双精度64Bit浮点运算能力大概在80GFLOPS左右。

应用为王超频也疯狂
双精度浮点运算

5、NVIDIA打造自主GPU新的运算开发平台

CUDA是Compute Unified Device Architecture的简称，也是NVIDIA树立的一个新的行业标准和未来趋势，CUDA到底是什么呢？NVIDIA CUDA技术是当今世界上唯一针对NVIDIA GPU（图形处理器）的C语言环境，为支持CUDA技术的NVIDIA GPU（图形处理器）带来无穷的图形计算处理性能。

应用为王超频也疯狂
CUDA演示（举例图片）

6、三路SLI——性能巅峰

GTX260比起早期的8800GT来说支持3路并行SLI技术，显卡提供了2个SLI接口，通过特制的3路SLI桥接器可以让GTX260发挥3路SLI的性能巅峰。3路SLI对性能的提升非常惊人，3个GPU同时运算，并支持NVIDIA PhysX和NVIDIA CUDA应用程序，并加入了多显示器支持，实现了最大效能和显示灵活度。能够让你置身于令人叹为观止的图形世界以及激动人心的物理学效果当中，为你亟需高性能支持的应用程序加速。三路并行SLI是NVIDIA继SLI和Quad SLI后，又推出的一项更为灵活的SLI技术，弥补了2GPU/4GPU并行加速的空缺，允许3个GPU并行加速处理数据。但是和普通的SLI相比，3路SLI对配套的设备和主板都提出了更高的要求，第一显卡要有2个MIO接口，第二就是主板支持3卡SLI的PCI Express X16显卡插槽，第三就是由配套的3路SLI桥接器和驱动程序的支持。只有满足以上几点才能正确地组建三路SLI达到性能的巅峰。

应用为王超频也疯狂
3卡SLI平台

而且使用NVIDIA控制面板可对你的PhysX配置进行全面的控制。使用一块显卡来执行图形渲染，用另一块显卡来专门进行PhysX处理，以实现令游戏大为改观的物理学效果。或者，你还可以使用两块或三块同型号显卡来实现SLI以及PhysX，从而体验令人惊叹的最高逼真度。

7、HybridPower节能技术

NVIDIA在GeForce9系列显卡上就推出了全新的“Hybrid Power”（混合动力）的功能技术。该技术主要是通过System Management Bus(简称Smbus，系统管理总线)传输命令控制独立显卡的开启与关闭。这项技术应用后，当用户只运行3D及Light 3D程序时，Smbus会自动发出命令关闭独立显卡，只有集成显卡在运作。这里需要说明的是，如果需要运行“Hybrid Power”技术，显示器必须连接到主板的集成显卡接口之上，因为当我们关闭独立显卡的时候，独显是处于完全的不工作状态，此时无论核心还是显卡本身显存都无法运行，因此独立显卡上没有任何的信号输出，也就不会有图像显示了。在GTX260多卡SLI中Hybrid Power技术的应用大大节约了，整个平台的功耗问题，让GPU处于一种效能最佳的状态。

8、第二代PureVideo技术

NVIDIA PureVideo技术让影像栩栩如生。PureVideo使用了大量仅存在于非常高端的播放器和电视上的技术。在播放Blu-ray、HD DVD、标准分辨率DVD电影、PC和移动设备上的内容时，该项技术能使画面看起来锐利、清爽、流畅、生动。无论您使用LCD显示器还是等离子电视，使用PureVideo技术，画面将始终如一的精确、生动、栩栩如生。

PureVideo模块包含在NVIDIA GPU（图形处理器）的处理核心以及手持设备中，提供解码和视频播放的功能。如果PC安装了这些GPU（图形处理器）中的任意一款，就可以使用PureVideo和PureVideo HD技术。

应用为王超频也疯狂
PureVideo

该技术的硬解码升级，动态对比度增强。动态对比度增强是按照一定的算法比较智能的调整亮度对比度，因此就无需手动调节了，非常方便。而“色彩增强技术”专门调整影片中的蓝绿色调合皮肤色调，从而使得画面表现更加生动。除此之外还提供了“去交织”、“反锯齿”和“降噪”等高清视频最重要的画面后期处理技术。

应用为王超频也疯狂
动态对比度增强

9、 CUDA技术功能

在GPU（图形处理器）上提供标准C编程语言，为在支持CUDA的NVIDIA GPU（图形处理器）上进行并行计算而提供了统一的软硬件解决方案。CUDA兼容的GPU（图形处理器）包括很多：从低功耗的笔记本上用的GPU到高性能的，多GPU的系统。支持CUDA的GPU（图形处理器）支持并行数据缓存和线程执行管理器。标准FFT（快速傅立叶变换）和BLAS（基本线性代数子程序）数值程序库，针对计算的专用CUDA驱动经过优化的。从中央处理器（CPU）到支持CUDA的GPU（图形处理器）的直接上传、下载通道，CUDA驱动可与OpenGL和DirectX图形驱动程序实现互操作，支持Linux 32位/64位以及Windows XP 32位/64位操作系统。为了研究以及开发语言的目的，CUDA提供对驱动程序的直接访问，以及汇编语言级的访问。

10、NVIDIA PhysX

NVIDIA PhysX是一种功能强大的物理加速引擎，可在顶级PC和游戏中实现实时的物理学计算。PhysX设计用途是利用具备数百个内核的强大处理器来进行硬件加速。加上GPU超强的并行处理能力，PhysX将使物理加速处理能力呈指数倍增长并将您的游戏体验提升至一个全新的水平，在游戏中呈现丰富多彩、身临其境的物理学游戏环境。其中特色如下：

应用为王超频也疯狂
爆炸产生的效果

应用为王超频也疯狂
PhysX测试软件

● 爆炸引起的烟尘和随之产生的碎片
● 复杂、连贯的几何学计算使人物的动作和互动更加逼真
● 其视觉效果令人叹为观止的全新武器
● 布纹的编织和撕裂效果非常自然
● 运动物体周围烟雾翻腾
● 采用NVIDIA支持PhysX的GeForce处理器是实现真实物理加速效果的唯一途径，其可缩放、复杂、逼真、高度互动的特性将彻底颠覆您的娱乐体验。