GT300显卡架构详解

2009-10-12 作者: 艾炜翔 来源: IT世界

关键字: NVIDIA GT300 架构 

随着AMD在北京时间9月23日正式推出了Cypress(RV870),从而拉开了DX11时代的序幕《三大至尊特性 HD5800显卡发布会报道》,而作为老竞争对手,NVIDIA全新支持DX11技术的显卡Fermi(GT300)也在10月3日的国庆假期内在国外GPU技术会议上曝光《黄仁勋亲展示NV Fermi GT300实物卡》,那么这款NVIDIA的新一代显卡究竟有什么跨时代的技术呢,今天就让我们一起来看看。

  Fermi(GT300)架构详细介绍(三)“Warp”

  先前我们提到的“warps”——将32个线程组称为一个“Warp”。我们知道,CPU和GPU执行的都是被称作线程的指令集合。而目前高端CPU现在每次最多只能执行8个线程(Intel Core i7),而这样看来,GPU的并行计算能力就是天文数字了,像G80可实现12288个、GT200可实现30720个、而Fermi(GT300)可实现24576个。

  可以看到,Fermi(GT300)的线程还没有GT200多,这是因为NVIDIA发现GPU计算的瓶颈在于共享内存大小,而不是线程数,所以将共享内存从16KB翻两番达到64KB,而将线程减少了20%,每个SM经调度和指派可以控制两个“Warp”,使被命令的CUDA技术核心可同时进行工作。换句话说,就像是一条双车道,16个核心控制和16个加载/存储单元一起工作,然后在执行的情况下实现独立调度和援助。这种双重结构的设计显然让Fermi(GT300)将达到接近其理论性能极限的标准。

  而在G80和GT200上,每个时钟周期只有一半Warp被送至SM,换言之SM需要两个循环才能完整执行32个线程;同时SM分配逻辑和执行硬件紧密联系在一起,向SFU发送线程的时候整个SM都必须等待这些线程执行完毕,严重影响整体效率。如果说要论真实水平的话,Fermi(GT300)的线程可实现24576*2个,性能提升相当的可观。

  这种线程架构也不是没有缺点,就是要求Warp的每个线程都必须同时执行同样的指令,否则会有部分单元空闲。每组SM每个循环内可以执行的不同操作数:FP32 32个、FP64 16个、INT 32个、SFU 4个、LD/ST 16个。




<<首页 <上一页  1  2  3  4  5  6  下一页>  末页>>  
责任编辑:熊东旭