并行计算机体系结构简介

文档格式：PPT| 38 页|大小 504KB|2024-10-26 发布|举报 | 版权申诉

下载文档

下载文档到电脑，查找使用更方便还剩页未读，继续阅读>>

侵权申诉举报

1 / 38

此文档下载收益归作者所有下载文档

版权提示

文本预览

常见问题

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第11章并行计算机体系结构简介,并行技术是针对大型机和巨型机的:,第一种：多处理器（一个处理器指一个单片,CPU,芯片）,第二种：多机组成,目前通常把后者并行技术称为并行计算机体系结构11.1 并行计算机结构分类,并行计算机系统可以分成两大类：,SIMD,系统和,MIMD,系统SIMD,（,Single Instruction Multiple Data,）,计算机可以同时在多个数据集上并行执行同一条指令这种类型计算机包括阵列处理系统和向量处理机MIMD,（,Multiple Instruction Multiple Data,）,计算机可以同时执行多条指令并同时处理多数据集，它是目前并行技术的主流MIMD,计算机又分成多处理器系统和多计算机系统两大类如图,11,1,所示图,11,1,并行计算机分类,11.2,SIMD,并行计算机,SIMD,计算机：用于解决使用向量和阵列这样比较规整的数据结构的复杂的科学计算和工程计算问题这种计算机特点：只有一个控制单元，每次只能执行一条指令，但是每一条指令可同时对多个数据进行操作。

SIMD,分为：阵列处理机和向量处理机1.阵列处理机（,array processor）,特点：一个单一的控制单元提供信号驱动多个处理单元同时运行，如图,11,2,所示组成：,PU,由,1,个处理单元,PE,同它的局部存储器组成控制部件方式：向全体,PE,“,播送”控制信号，所有,PE,在同一个总的时钟信号下同步工作PE,组成：,可以简单到每个,PE,由,1,位,ALU,组成，也可大到,32,位,ALU,，,或者带浮点计算能力的,ALU,图,11,2,阵列处理机组成图,2.向量处理机,SIMD,计算机中另一类是向量处理机（,vector processor）70,年代前后，为了处理向量计算研发两种类型的巨型计算机系统：流水线处理机和并行处理机两者比较优缺点：并行处理机的结构复杂，成本高，因而流水线处理机发展很快它是处理向量计算的主要手段，因此已把它称为向量处理机向量运算举例,假定有一个向量运算：,D=A（B+C）,式中,A，B，C，D,都是长度为,N,的向量若按常规处理，则流水线不能连续流动D1=A1（B1+C1）,D2=A2（B2+C2）,DN=AN（BN+CN）,计算这个向量流水线要反复进行加法和乘法的切换，即流水线功能切换。

如改变处理顺序，先对所有元素执行加法运算（,N,个加法），然后对所有元素执行乘法运算（,N,个乘法），其顺序如下:,B,i,+C,i,D,i,（i,从1到,N）,D,i,A,i,D,i,（i,从1到,N）,这样就能保证流水线畅通Cray,1,的体系结构与后来的,RISC,体系结构类似，它成为了很好的研究范例，许多现代的向量超级计算机都受到它的影响图,11,3,Cray,1,体系结构,Cray,1,机采用多功能部件结构，一共有,12,个功能部件，分为,4,组：,3,个向量整数单元部件（加、逻辑、移位），,3,个浮点标量,/,向量浮点单元部件（加、乘、求倒数），,4,个标量整数单元部件（加、逻辑、移位、“,1,”个数计数），,2,个地址功能部件（加、乘）这些功能部件本身都采取流水线结构，只要不发生寄存器冲突，这些功能部件都能并行工作11.3,MIMD,并行计算机,MIMD,系统可以分为多处理器系统和多计算机系统两大类多处理器系统特点：所有,CPU,共享同一个物理内存，每个,CPU,不带自己的内存或少量带有，由统一操作系统管理，整个物理内存空间由许多内存模块组成多计算机系统特点：每个,CPU,都有自己的内存，即自己独立的物理地址空间；执行自己的操作系统，再加上对外通信的通信处理器。

图,11,4,a,和图,11,4,b,分别说明了多处理器系统与多计算机系统的区别多处理器系统特点：软件设计简单，易实现，硬件设计比较复杂多计算机系统特点：正好相反图,11,4,a,多处理器系统,图,11,4,b,多计算机系统,MIMD并行计算机设计中的互连网络问题,MIMD并行计算机设计中面临的问题之一：互连网络多计算机系统中用互连网络把多个计算机连接是显而易见的，多处理器系统同样存在这个问题11.3.1,多处理器系统,根据共享内存的实现方式可以把多处理器系统分成三类：,分别是一致性内存访问（,Uniform Memory Access,UMA,）,非一致性内存访问（,Non Uniform Memory Access,NUMA,）,基于,cache,的内存访问（,Cache Only Memory Access,COMA,）,1.,UMA,多处理器系统,UMA,计算机的特点是,CPU,访问所有的内存模块的时间都相同，即读取每个内存字的时间是相等的访问速度按最慢内存模块为准程序员不会感觉有速度问题存在，这就是一致的含义这种一致性可以保证系统的性能可以预测，也有利于程序员编写高效率代码如图,11,5,所示,图,11,5,基于总线的多处理器系统,每个,CPU,都带有,Cache,，,当同时操作内存中某一块数据时，会出现,Cache,一致性问题。

例如，,CPU1,与,CPU2,同时读取内存中一块数据到自己的,Cache,中，,CPU1,先对,Cache,内容进行了修改，此后,CPU2,读自己,Cache,中数据就已成为旧内容，因为,CPU1,修改自己的,Cache,后还没有写回内存，而,CPU2,读的数据相对,CPU1,来讲是旧数据解决,Cache,一致性问题有两种方法，一种是监听型的,Cache,（,本书不再详述，请查阅有关书籍），另一种是“,MESI,”,Cache,一致性协议MESI,协议是一种比较常用的写回,Cache,一致性协议，它是用协议中用到的四种状态的首字母（,M、E、S、I）,来命名的目前，,Pentium 4,和许多其他的,CPU,都使用了,MESI,协议来监听总线每个,Cache,项都处于下面四种状态之一：,（1）无效（,Invalid）,该,Cache,项包含的数据无效2）共享（,Shared）,多个,Cache,中都有这块数据，内存中的数据是最新的3）独占（,Exclusive）,没有其他,Cache,包括这块数据，内存中的数据是最新的4,）修改（,Modified,）,该项的数据是有效的，内存中的数据是无效的，而且在其他,Cache,中没有该数据项的拷贝。

2.,NUMA,多处理器系统,NUMA,系统也为所有,CPU,提供单一的地址空间，与,UMA,不同处是靠近,CPU,的内存模块的访问速度比其他的内存模块快得多NUMA,计算机的主要特点：,（1）所有的,CPU,都看到一个单一的地址空间2）使用,LOAD,和,STORE,指令访问远程内存3,）访问远程内存比访问本地内存慢NUMA,计算机也存在,Cache,一致性问题，除前面介绍过的,MESI,协议外，还有一个,SCI,（,Scalable Coherent Interface,，,可伸缩的一致性接口）的,Cache,一致性协议3.,COMA,多处理器系统,在,COMA,系统中，把每个,CPU,的主存看成,Cache,来处理，物理地址空间被划分成,Cache,块，这些块根据需要在系统中来回移动，,Cache,块不再有宿主计算机了它要解决的新问题:如何对,Cache,块进行寻址和,Cache,块丢弃了最后一个拷贝怎么办COMA,系统号称比,NUMA,有更好的性能，但实际建造的,COMA,系统很少11.3.2 多计算机系统,多处理器系统的缺点:规模扩展受到限制，通常百个左右,CPU,规模，同时要用大量硬件实现，它的最大规模是几百个,CPU,以内。

多计算机系统的特点:每个,CPU,都有自己的私有内存，,CPU,不能访问其他,CPU,内存，不能再用,LOAD,和,STORE,指令访问任意内存模块，而要用,send,和,receive,这样的原语相互传递消息每个结点通过高性能互连网络连接起来,图,11,6,多计算机系统结构,多计算机系统一般分成两大类：,MPP,和,COW1.MPP,大规模并行处理机（,Massively Parallel Processor）,这是一种价值数百万到上亿美元的超级计算机系统MPP,系统已取代了原有,SIMD,计算机、向量超级计算机和阵列处理机，成为当今大型机、巨型机的主流大多数的,MPP,系统都使用标准的,CPU,作为它们的处理器大的系统都使用几百片以上的,CPU,集合而成，巨型机使用几千片,CPUMPP,有三大特点，第一为它使用了高性能的私用的互连网络，可以在低时延和高带宽的条件下传递消息另一特点是它们具有强大的输入输出能力第三个特点是如何进行容错在使用数千个,CPU,的情况下，每星期有若干,CPU,失效是常见的事情如果，因一个,CPU,失效，而导致运行一天的任务被中止是不能容忍的MPP,系统还需要使用大量定制的软件和库。

2.,COW,工作站集群（,Cluster of Workstation）,它是另一种多计算机系统，也被称为工作站网络COW,系统是由数百台,PC,机或者工作站通过商用网络连接在一起构成的COW,系统主要有两种：集中式和分散式,集中式的,COW,是装在一个大机架上的工作站或者,PC,机的集群，这些计算机都是同构的，而且除了网卡和磁盘之外没有其他的外设这是当今第五代计算机的模型11.3.3,集群机系统,Cluster,1.Cluster简介,计算机体系结构的研究就是当时的超级计算机的研究，超级计算机共经历了五代第一代为早期的单芯片系统，第二代为向量处理系统，第三代为大规模并行处理系统，第四代为共享内存处理系统，第五代为集群系统，目前全球五百强超级计算机排名已经有半数以上是集群式系统第三代计算机（,MPP,）与第五代计算机:,相同：（,Cluster,）在体系结构上是同构的，同属于分布式内存处理方式（,DMP,Distributed Memory Processing,）,差别：是否采用物美价廉的普通商品组件MPP,与,Cluster,从互连角度看，区别在于,MPP,使用专用高性能互连网络，而,Cluster,使用商用网络。

从,CPU,角度看,MPP,要用单独设计的高性能处理器，而,Cluster,采用高性能成品处理器，从价格方面看，,MPP,比,Cluster,要贵的多集群机系统的主要生命力来自其经济有效性，它采用高性能的普通日用品,IA,芯片、公开系统的主板、免费的公开源码操作系统与并行编程接口，使超级计算机系统的造价告别了天文数字，让具有一般规模的公司都用的起基于集群机特点，它的规模可大可小2.Linux集群的特点,集群机根据采用的,操作系统不同而称为某某集群，例如采用,Linux,就称为,Linux,集群，采用,UNIX,就称为,UNIX,集群下面介绍,Linux,集群的特点Linux,集群可分为三类：,第一类是高可用性集群，运行于两个或多个节点上，目的是在系统出现某些故障的情况下，仍能继续对外提供服务第二类是负载均衡集群，目的是提供和节点个数成正比的负载能力，这种集群很适合提供大访问量的,Web,服务第三类是超级计算集群，按照计算关联程度的不同，又可以分为两种一种是任务片方式，要把计算任务分成任务片，再把任务片分配给各节点，在各节点上分别计算后再把结果汇总，生成最终计算结果另一种是并行计算方式，节点之间在计算过程中大量地交换数据，可以进行具有强耦合关系的计算。

CSM,包含多种组件，使,Linux,群集的管理更加容易：,分布式管理服务器,事件应答资源管理器远程硬件控制,配置文件管理,分布式,Shel。

点击阅读更多内容