Larrabee采用有序Pentium处理器,支持64-bit指令集、多线程技术,内建宽幅VPU(矢量处理单元)。Larrabee的每颗核心可以快速与相应的256KB L2缓存的本地子集相连。L1高速缓存包括32KB Icache以及32KB Dcache。Larrabee内部每颗核心可以通过L2高速缓存组成环形网络。
为了让larrabee架构更简单,larrabee CPU核心的标量以及矢量单元采用了分离式寄存器组,在标量以及矢量单元中相互转移的数据首先会被写入内存,然后再从L1高速缓存中读取数据。
Larrabee内建的L1高速缓存在与标量和矢量单元连接时可以支持低延迟接入,而且可以和Larrabee的VPU(矢量处理单元)指令集协同工作,也就是说,在某种程度上,我们可以把Larrabee的L1高速缓存看做是一种扩展寄存器文件。这种设计模式大大提升了Algorithm(演算法)的性能,特别是在缓存控制指令集下,演算法的性能提升更加明显。单线程Pentium处理器内建8KB Icache(instruction cache,指令缓存)和8KB Dcache(data cache,数据缓存)。
Larrabee内建的所有L2高速缓存将会按照CPU核心的个数多少分为若干个单独的本地子集,每颗CPU核心共享一个本地子集。每颗CPU核心具有一条与各自L2本地子集相连的快速通道。每颗CPU核心读取的数据将会被储存在L2高速缓存子集中,而且存储速度非常快;每颗CPU核心写入的数据将会存储到各自的L2高速缓存子集中,而其他CPU核心的子集并不会接收这些数据。这种环形网络可以确保数据分享的连贯性。