CUDA技术普及在望 95GT做主力
而在GeForce GTX 200系列发布同时CUDA 2.0应运而生,这也让桌面级产品也能够实现强大的并行处理能力,并且这项技术已经延伸至GeForce 9000系列,下一步还会延伸至第一代DirectX 10产品——GeForce 8000系列产品中。GeForce 9500GT的出现,将成为NVIDIA的CUDA 2.0技术迈向平民化、普及化的重要一步。
● 与GeForce GTX 200一同发布的CUDA 2.0
2008年6月16日,NVIDIA不仅为世人打造一款顶级3D产品——GeForce GTX 280,还同时为世人送来了一款“超级计算机”,通过使用CUDA 2.0技术G200核心能够发挥接近1TFLOPS的浮点运算能力。
通过上图我们能够看到,目前主流的双核(Core 2 Duo E8400)及四核(Core 2 Extreme 9650)CPU的浮点运算能力仅为48GFLOPS和96GFLOPS。反观GeForce GTX 280的G200核心拥有240个流处理器,他们能够实现240条并行处理,也就是说它是一个拥有“240核”的处理器,所以在浮点运算和科学计算中拥有强大的实力。
同理,拥有32个流处理器的G96核心在CUDA 2.0技术应用中,这款仅为500元的产品在浮点运算能力上仍然能够比目前的主流桌面级高端CPU快很多。
● CUDA到底是什么?
说道CUDA很多用户就会联想到当初NVIDIA提出的GPGPU,那么GPGPU和CUDA有和渊源,CUDA作为全新的技术及名词它又会有和优势呢?
虽然GPGPU也是由NVIDIA提出并且要实现的目的也基本相同,但是CUDA是一种更加优化、更加易于操作使用的并行处理技术。CUDA全称Compute Unified Device Architecture,它不需要像GUGPU一样基于图形API运算,这样的设计降低了开发者的要求。首先减免了软件开发者使用CUDA必须了解图形API的痛苦,其次CUDA专用API更接近C语言和Fortran语言,能够令绝大多数软件开发者在极短时间内上手。
也就是说目前最新的CUDA 2.0是一种更加人性化、更容易上手的并行处理技术,最重要的是CUDA 2.0现在已经随着GeForce 9500GT的面世彻底普及中低端,然不同的用户在不同的需求下享受在3D之外更广泛的功能。
● 为何GPU更适合高密度并行计算
由于图形渲染需要高密度、并行计算,因此GPU不会像CPU一样将更多的晶体管投入到数据缓存和流量控制,而是将绝大多数晶体管用于数据处理(例如Geforce GTX 280的240个流处理器)。图形渲染这点需求上与很多科学运算不谋而合,GPU的多流处理器在解决一个问题上实现独立并行高速处理,可以大大降低运算复杂度,并且多数据元素高运算密度可以近似忽略内存访问的延迟,这也就为GPU应用于科学计算奠定基础。
实际上,在图形渲染和处理领域外还有很多算法同样可以通过并行数据处理得到加速,从一般信号处理或物理模拟、到金融计算或者生物计算等。目前主要应用于数学运算、金融分析、医学检查、气像预测、电子线路设计、生物分子结构分柝、光学模拟运算等传统借助超级电脑作运算的领域。