增强高速缓存拆分负载功能(Split Load Cache Enhancement)
在45nm酷睿架构处理器设计中,每个独立的核心都有自己的一级缓存,通过核心内部的“Shared Bus Router”来共享的二级缓存,例如当一个核心处理完数据并将其存放在二级缓存中时,另外一颗核心便可通过“Shared Bus Router”来读取另一个核心存放在二级缓存中的数据,这样的数据读取和交换速度要远远大于通过前端总线进行数据传递。而L2 & DCU Data Pre-fetchers及Deeper Write output缓冲存储器的采用更是加大了缓存的命中率,“Shared Bus Router”和“Bandwidth Adaptation”技术还分别优化了数据传输排程和共享前端总线时候的效率。这也是酷睿微架构具有优异性能的一大原因。虽然具有上述这些技术让酷睿微架构具有强劲的性能,但是面对通过前端总线进行数据交换的四核心处理器来说,酷睿微架构的性能发挥却收到了一定的制约。
Penryn 45nm处理器的二级缓存容量相比65nm的二级缓存增加了50%,双核心产品二级缓存容量最大可达至6MB、四核心更是达到了12MB,Intel也是考虑到了四核心的一些限制问题,因此提升到了24路组相联(24-way set Associative) ,令二级缓存命中率进一步提升,从而让性能获得更好表现。
此外,Penryn 45nm处理器加入了名为“增强高速缓存拆分负载功能(Split Load Cache Enhancement)”的全新技术。当需要数据读取时,如果数据位于两个不同的高速缓存当中时,将会对在高速缓存中的数据进行拆分,让一个高速缓存进行数据读取,其速度要高于数据在两个高速缓存中进行读取和处理要快上许多。该技术我们可以看成是酷睿微架构中高速智能缓存技术的增强版本。
快速Radix-16除法器(Fast Radix-16 Divider)
原有的酷睿微架构可以支持每个周期同时处理4个指令,并且重新使用了较高效率的14层“Pipeline Stages”(流水线处理站)。
Penryn 45nm处理器在原有的架构上对除法器进行了改良,Intel称其为“Fast Radix-16 Divider快速Radix-16除法器”。改良之后的除法器在运行科学计算、三维坐标转换和其他数学密集型运算的时候,会带来比原来高两倍的运算速度,并可以加速浮点和整数运算的速度。其重要原理就在于,通过Radix-16除法器的采用,使得当面对基数提升到16的运算时,该功能会每次运算出4位商值,将运算延迟缩短了一倍。
超级流水线引擎(Super Shuffle Engine)
Intel在酷睿微架构中加入128Bit-SIMD 整数运算(Interger Arithmetic)及128bit SIMD双倍精准度浮点运算(Floating-Point Operations)单元。旧有的处理器执行128Bit的SSE、SSE2及SSE3指令时,需要把指令分拆为2个64Bit指令,在2个频率周期完成,但酷睿微架构则只需要一个频率周期便能完成,执行效率提升了一倍。经过多年的推广,SSE指令集已经被目前的绘图、影音、压缩、加密、数学运算等应用所广泛采用,而单周期128Bit的处理器能力则成倍地提高了运算效率。
Penryn 45nm处理器在这些方面也进行了改良,其加入全新Super Shuffle Engine(超级流水线引擎),可以让SSE指令更具效率的运行。以往在处理128Bit宽度的字节(Byte)、字(Word)及双字(DWord) SSE数据时,是无法在一个周期内完成,而超级流水线引擎的加入可让这些不同性质的128Bit SSE指令,在1个周期内便可完成,减低延迟及吞吐量。
据Intel资深工程师兼Penryn微架构主管Stephen Fischer表示,与上代65nm处理器产品相比,45nm处理器在绘图效能约超过15%、视讯编码平均可提高20%、3D内容制作可提高逾30%,3D游戏效能更可高达40%,视乎软件设计而定。
(以上介绍主要引自IT专家网)
让大家看了这么多的枯燥知识其实都是铺垫,主要就是让大家从性能上对两者有了深刻的理解,也许心里已经基本有数了,再听笔者对市场上的处理器进行一定的分析,相信究竟选择什么样的处理器就一清二楚了,废话不多说,直接进入下一环节,来了解下究竟什么样的处理器才是最值得选购的吧。