硬件工程师培训教程（七）

365 阅读 0 评论 241 点赞

我是靠谱客的博主羞涩犀牛，这篇文章主要介绍硬件工程师培训教程（七），现在分享给大家，希望可以做个参考。

第六节新款CPU 介绍

一、I ntel 公司的新款C P U

1 .P Ⅲ C o p p e r m i n e(铜矿)处理器

2000 年最惹人注目的莫过于Intel 公司采用0.18 微米工艺生产的P Ⅲ Coppermine 处理器了。尽管Intel 公司早在1 9 99 年10 月25 日便发布了这款代号为Coppermine 的Pentium Ⅲ处理器，但其真正的普及是在2 0 00 年。

虽然取名为“铜矿”，C o p p e r m i ne 处理器并没有采用新的铜芯片技术制造。从外形上分析，采用0.18 μm 工艺制造的Coppermine 芯片的内核尺寸进一步缩小，虽然内部集成了256KB 的全速On- D i e L 2 C a c he，内建2 8 10 万个晶体管，但其尺寸却只有1 0 6 mm 2 。从类型上分析，新一代的 C o p p e r m i ne 处理器可以分为E 和EB 两个系列。E 系列的C o p p e r m i ne 处理器采用了0 .18 μm 工艺制造，同时应用了I n t el 公司新一代O n -D ie 全速2 5 6 K B L 2 C a c h e;而EB 系列的C o p p e r m i ne 不仅集合了0.18 μm 制造工艺、O n -D ie 全速2 5 6 K B L 2 C a c he，同时还具有1 3 3 M Hz 的外频速率。

从技术的角度分析，新一代C o p p e r m i ne 处理器具有两大特点:一是封装形式的变化。除了部分产品采用S E C C2 封装之外，I n t el 也推出了F C -P GA 封装及笔记本使用的MicroPGA 和B GA 封装；二是制造工艺的变化。C o p p e r m i ne 处理器全部采用了0.18 μm 制造工艺，其核心工作电压降到了1. 6 5 V (S E C C 2)和1 .6 V (F C -P G A)，与传统的P Ⅲ相比大大降低了电能的消耗和发热量。

P Ⅲ C o p p e r m i ne 的整体性能与传统的P Ⅲ相比有了较大幅度的提高。作为新一代处理器， Coppermine 强劲的高速On-Die L2 Cache 值得称道，而且P Ⅲ Coppermine 的可超频性也是非常出色的。

2 .P Ⅲ C o p p e r m i n e -T 和T u a l a t in

2001 年末，P Ⅲ Coppermine 会进一步改进制造工艺采用0.13 微米制造，新版本T u a l a t in 也即将问世。其核心技术大致如下：最初时钟频率应该是1 .1 3 /1 .2 6 G Hz；内核集成512KB 二级缓存；采用新的总线结构；封装结构上采用F C P G A2 替换F C P GA 。

我们注意到Tualatin 在电压和总线规格上和过去的P Ⅲ处理器有了不同，因此未来似乎应该有全新的平台来支持P Ⅲ处理器　。当前只有一款芯片组宣布支持Tualatin，它就是A l m a d or 或者被称之为 i 8 30 。

而P Ⅲ Coppermine-T 内核则可能是过渡产品，它既能运行于当前的i815 、694X 等产品，相信也能在A l m a d or 平台上使用。从时间表上看这两款处理器都在2 0 01 年三季度发布。但由于Intel Pentium 4 战略的延展，也许它们会悄无声息地来临，甚至缩减至一款。

3 .C e l e r o n Ⅱ处理器

为了进一步扩大在低端市场的占领份额，2 0 00 年3 月 Intel 终于发布了其代号为“C o p p e r m i n e 1 28 ”的新一代的 Celeron 处理器——Celeron Ⅱ(Intel 仍称其为Celeron，但为了和前面的C e l e r on 区分，我们暂且这样称呼)。C e l e r on Ⅱ与老Celeron 最显著的区别在于采用了与P Ⅲ Coppermine 相同的核心及同样的FC-PGA 封装方式，同时支持S SE 多媒体扩展指令集。

从技术角度分析，C e l e r o n Ⅱ与P Ⅲ C o p p e r m i ne 有着诸多明显的区别:一是Celeron Ⅱ的L2 Cache 容量只是P ⅢC o p p e r m i ne 处理器的一半，并且缩减P Ⅲ C o p p e r m i ne 的8 路缓存通道为4 路，延迟时间也由P Ⅲ Coppermine 的0 变成了2 。由此不难看出，相同主频的Celeron Ⅱ在性能方面比P Ⅲ Coppermine 要差很多;二是功耗方面。C e l e r o n Ⅱ的核心电压只有1 .5 V(最新款有1 .7 V)，而P Ⅲ C o p p e r m i ne 的核心电压为1.65V，功耗相对较低;三是外频方面。Celeron Ⅱ出人意料地沿用了古老的66MHz 外频，面对低端市场早已使用100MHz 外频的AMD K6-2，Intel 此举除了商业行为的理由外恐怕无法解释。而66MHz 外频的Celeron Ⅱ与100MHz 外频的P Ⅲ Coppermine 相比，也就注定了其要在性能方面牺牲更多。C e l e r on 系列向来有着如奔腾系列一样优秀的浮点运算性能，C e l e r on Ⅱ集成的全速缓存使得其整数性能也得以大幅度提高。但是，糟糕的66MHz 外频可能会是Celeron Ⅱ最终不敌 A MD 同型产品的致命之处，不过如果将其与老C e l e r on 放在一起，其实还是我们要求太高了。与C o p p e r m i ne 同样的FC-PGA 封装方式必定会使Celeron Ⅱ的兼容性有所提高。正是由于高性能的二级缓存和低功耗， C e l e r o n Ⅱ同样也具有良好的超频性能。

4 .P e n t i u m 4 处理器

美国东部时间2 0 00 年6 月28 日，I n t el 公司正式宣布将该公司开发的下一代微处理器命名为

Pentium4 。新一代的P e n t i u m 4 处理器即原先研发代号为W i l l a m e t te 的W i l ly 芯片，是I n t el 公司继C o p p e r m i ne 处理器之后推出的面向普通用户的主流产品。

2 0 00 年11 月20 日，I n t el 公司正式发布P e n t i u m 4 处理器。该处理器采用了不同于P6 总线的全新N e t B u r st 架构，其管线长度是P6 架构的两倍，达到了20 级。这将使P e n t i u m 4 达到更高时钟频率。现在的P e n t i u m Ⅲ处理器由于管线长度的限制，最高时钟频率在1.2GHz 左右，P e n t i u m Ⅲ1 .1 3 G Hz 处理器出现的问题就是最好的证明。不过，管线长度的加长，也意味着entium 4 每一个时钟周期执行的指令要比P e n t i u m Ⅲ少，这就是为什么在相同的速度下，P e n t i u m Ⅲ或Athlon 处理器的性能看起来要比P e n t i u m 4 处理器更强一些的原因。不过，随着 P e n t i u m 4 速度的提升，这一现象会逐渐消失。

Pentium 4 处理器采用新的系统总线代替了原有的 GTL 总线，总线速度达到400MHz 。最初版本的核心频率为1 .4 G Hz 和1.5GHz，内部集成了8 KB 一级数据缓存和2 5 6 KB 同速二级缓存(I n t el 称之为L2 超级传输缓存)，带宽大于44.8GB/s，大大超过Pentium Ⅲ 1GHz 处理器的1 6 G B /s 。初期的P e n t i u m 4 采用0 .18 μm 工艺制造，包含4 2 00 万个晶体管，芯片面积为2 1 7 mm 2 ，核心电压为1 .7V，目前采用S o c k e t 4 23 接口，此外I n t el 还推出了一款S o c k e t 4 78 接口的P e n t i u m 4，这才是最终版本。P e n t i u m 4 的算术逻辑单元(A L U)以核心频率的两倍运行。此外，P e n t i u m 4 还包含1 44 条重新设计过的S S E2 指令。 Intel 预计P e n t i u m 4 将于2001 年下半年占其C PU总产量的一半，并采用0.13 μm 铜工艺制造。 Pentium 4 的架构被I n t el 称之为N e t B u r st 。其中最容易被关注到的变化就是它的新系统总线。

虽然真实时钟频率只有100MHz，位宽还是64 位，但由于利用了与APG 4x 相同的工作原理，它的速度实际相当于4 0 0 M Hz 是传统P6 总线的四倍，可传输高达3.2GB/s 。明显超过AMD Thunderbird 处理器266MHz(133MHz ×2)2.1GB/s 的数据传输率。

Pentium 4 的二级缓存与Pentium Ⅲ的二级缓存大小相同，都是256KB 并皆为8 路联合方式运作。但Pentium 4 的二级缓存每线为128 字节，并分成2 个等量的64 字节。当它从系统(无论是内存、AGP 显卡或是P CI 等)取出数据时，都是以64 字节为单位，这样一来确保批量传输的最大性能。

一级缓存方面，P e n t i u m 4 仅有8 KB 的一级数据缓存，没有指令缓存　，这样便于降低一级的延迟，采用4 路联合方式，并使用64 字节的缓存管道。双端口结构使得能在一个时钟内，一个读取而另一个写回的方式来同时运作。过去在P e n t i u m Ⅲ或A t h l on 处理器中，都有一级指令缓存。代码会先被放入此块缓存中，直到要真正被处理单元执行时才会取出。糟糕的是某些x 86 指令非常复杂，因此解码过程可能会阻塞整个执行管道，同时这些指令中的部分重复频率很高，常常刚解码一次后又需要再次解码。基本上讲，P e n t i u m 4 的执行追踪缓存就是在解码器底下的的一级指令缓存，如果缓存里存放有已经解码过的复杂指令，下一次它进入流水线时就不需要再解码，而只直接提取微指令即可。

另外Pentium 4 新加有硬件预取的机制。这块新的处理单元可辨认Pentium 4 核心执行软件的数据存取样本，并依此猜测下次会被处理的数据，然后将这些数据预先载入缓存中。在应用大量的有规则数据情况下比如矩阵，P e n t i u m 4 的硬件预取功能将大幅加速执行效能。

还有Pentium 4 最有名的特性之一就是该处理器具有非常长的流水线工位。Pentium Ⅲ的流水线工位有10 个，A t h l on 为11 个，而P e n t i u m 4 不少于20 个。如此多的工位数量保证了每个工位执行的任务足够简单，很显然Pentuim4 已经做好了足够的准备向更高的GHz 频率进军，这显然是Pentium Ⅲ和Athlon 所不具备的，也是他们注定无法在更高频率上和P e n t i u m 4 抗衡的致命伤。

Pentium 4 的流水线能保留多达126 个将要被执行指令，其中最多可包含48 个载入及24 个存储运算。而追踪缓存分支预测单元，就是用来确保清空整个管道内容的情况不会经常发生的。I n t el 声称用了这个单元后，可减少P e n t i u m Ⅲ 3 3%的预测失败。但一旦发生预测失败，所带来的损失也相当惊人。

其余的新特性包括两组双速ALU 及AGU 。因为他们可以每半时钟内处理一个微指令，因此四个中的每一个时钟皆为处理器时钟的两倍。快速执行引擎无法处理的指令，将被送到唯一的S l o w A LU 处处理。不过好在程序指令绝大部分都是一些简单的指令。加入流式单指令多数据扩展技术的第二版棗 SSE2 。这一次新开发的SIMD 指令了包括浮点S I MD 指令、整形S I MD 指令、S I MD 浮点和整形数据之间转换以及数据在XMM 寄存器和MMX 寄存器中转换等几大部分。其中重要的改进包括引入新的数据格式，比如128 位SIMD 整数运算和64 位双精度浮点运算等等。为了更好的利用C a c he，P4 还另外增加了几条操作缓存的指令，允许程序员控制已经缓存过的数据。由于SSE2 更多是在架构内部的加强和优化，其最大好处是并不需要因此而开发全新的操作系统，只要稍微打个补丁之类，就能享受到SSE2 带来的好处。

Intel 公司于2001 年8 月底发布的1.9 和2.0GHz 的Pentium 4 仍然采用0.18 微米的Willamette 内核。我们曾经很希望看到此次发表的S o c k e t 4 78 接口P e n t i u m 4 采用代号为N o r t h w o od 的新核心。

不过，I n t el 可能在0 .13 微米制程上碰到了一些麻烦。

5 .I t a n i um 处理器

大多数熟悉计算机的爱好者一定都听过M e r c ed 这个名字，现在I n t el 已经正式把它命名为

Itanium 。这将是Intel 第一款执行IA-64 指令的微处理器。它采用了EPIC(Explicitly Parallel In-s t r u c t i o n C o de，显性并行指令计算)技术，可实现每时钟周期高达20 次运算。I t a n i um 有128 个整数和多媒体寄存器，1 28 个82 位浮点寄存器，64 个论断寄存器，8 个分支寄存器。这么多的寄存器允许Intel 整合动态寄存器堆栈引擎，这将大大提高处理能力。第一代IA-64 的处理器通过它们的浮点单元可每秒执行60 亿次浮点操作。

(1)Itanium 的主要物理参数

· 该处理器具有3 级高速缓存，包括2 MB 或4 MB 三级高速缓存、9 6 KB 二级高速缓存和3 2 KB 一级高速缓存，缩短了内存等待时间。

· 首批产品采用733MHz 和800MHz 主频。

· 2 2 6 6 M Hz 数据总线，以2 .1 G B /s 带宽支持快速系统总线处理。

· “机器检查体系结构”(M C A)、完善的错误记录、高速缓存和系统总线纠错码(E C C)设计提供了先进的错误检测、纠正和处理能力。

· 64 位数据总线(以及8 位E C C)。

· 3 英寸×5 英寸插盒，包括安腾处理器和高达4 MB 的盒上3 级高速缓存。

· 专用的边缘电源接头为处理器和高速缓存设备提供单独电压，从而提高信号的完整性。

· 硬件内建I A -32 指令二进制兼容性。

· C C PU 中晶体管数量为2 5 00 万个，高速缓存中有3 亿个。

(2)Itanium 的主要性能指标

· 一体化的2 MB 或4 MB 盒上三级高速缓存。以处理器主频全速运行，采用4 路成组相联设计和 64 字节高速缓存线。采用全面的流水线和优化设计，使用1 28 位宽高速缓存总线以12.8GB/s 带宽实现快速数据访问。

· 一体化的9 6 KB 二级高速缓存，6 路成组相联结构，采用全面的流水线设计和64 位高速缓存线。

· 一级高速缓存为3 2 KB，数据高速缓存与指令高速缓存分开(1 6 KB 数据/1 6 KB 指令)。4 路成组相联结构，采用全面的流水线设计和32 字节高速缓存线。

· 高度并行的流水线硬件，10 级流水线。

· 两个整数单元和两个内存单元，每时钟周期能够执行4 条A LU 指令。

· 浮点(FP)计算单元包含两个以82 位运算数运行的FMAC(浮点相乘累积)单元。每个FMAC 单元每时钟周期能够执行两次浮点运算，支持单精度、双精度和扩展双精度。

· 两个额外的FP 多媒体单元，每个单元能够执行两条单精度FP 运算。与常规的F M AC 相结合，每时钟周期能够执行8 次单精度FP 运算，最高结果可达6 .4 G F L O PS 。

· 44 位物理内存寻址能力。

· 集成的系统管理特性，提供温度监测和插盒识别信息。

· 先进的载入地址表(A L A T)，包括32 个条目，采用2 路成组相联高速缓存设计，支持推测执行，最小的内存等待时间和更高性能。

· 两层数据转换后备缓冲器(D T L B)——在D T L B 1(全部相关联)中有32 个条目；在DTLB2 中有96个条目。另外，系统软件(O S)可以单独使用48 个转换寄存器(T R)，存储关键的虚拟到物理地址转

换。

· 指令转换后备缓冲器(I T L B)包含64 个条目，并且相互之间完全相关。

· “显性并行指令集计算”(E P I C)技术，通过最大限度地发挥硬件和软件的协同作用，提高了指令级并行运算能力。Itanium 体系结构为编译器提供了多种机制，用于与处理器交流编译器时间信息，如分支和高速缓存提示。此外，这种体系结构使编译代码能够通过创新的指令格式来更有效地管理处理器硬件。这些交流机制能够最大限度地减少分支损耗，减少高速缓存未命中的次数，同时实现更强的并行运算能力，而这一点要比代码中固有的并行运算能力显著得多。

· 推测:使编译器在进行分支和存储之前提前安排载入指令，以缩短内存等待时间，进而实现更高性能。

· 预测:通过消除分支和分支预测错误造成的相关损耗来提高性能。

· 并行运算:使编译器能够为处理器提供更多信息，确保处理器能够持续并行执行多项运算，进而提供更高的性能和可扩展性。

· 寄存器堆栈:利用由寄存器堆栈引擎(RSE)管理的灵活的整数寄存器模型来减少呼叫/返回程序开销。

· 寄存器循环:在硬件中自动为寄存器重命名，以提高软件循环性能　，不需要满足传统方式中的额外要求。

· 分支/存储提示:提高分支预测率并缩短内存等待时间。

· SIMD 指令集:通过使每条指令在多个整数运算数或浮点运算数上执行而显著地提高了多媒体应用的性能。

· 海量寄存器资源:1 28 个整数寄存器，1 28 个浮点寄存器，8个分支寄存器和64 个分支预测寄存器。

· 增强的延迟事务处理能力，提高总线效率。　　

· 增强版低电压AGTL (AdvancedGunningTransceiverLogic)信号技术。

当然　，这款全新的CPU 也有缺点，由于它对I A -64 的关注，使得它在当前的I A -32 架构上表现欠佳。我们不知道市场对这种抛弃过去来换取性能的做法到底能承受到什么程度？但一开始，支持它的软件一定很少，而且售价昂贵，主流市场不可能有它的容身之处，只有高端工作站和服务器市场才是它适合待的地方。