22核心Xeon服务器平台来了!

分享到:
12402
下一篇 >
采用Broadwell微架构、14奈米制程的Xeon E5-2600 v4处理器,终于在今年3月底正式发布,内建的运算核心*高已突破20个,而在2路伺服器架构下,支援的执行绪逼近90大关。此外,针对虚拟化应用也新增3大特色,主打低延迟与主机容错支援

针对资料中心的2路伺服器应用,英特尔今天(3月31日)正式推出v4系列的新一代Xeon E5-2600处理器(代号为Broadwell-EP),距离先前的v3系列(代号为Haswell-EP)首度发布,v4系列花了超过1年半的,比起前几个系列之间的间隔,都要来得长久。

这次Xeon E5-2600 v4的推出,各种应用层面的效能提升,自然是重头戏。跟v3相比,运算速度超越的幅度*高可达44%;在虚拟化应用环境当中,因为支援直接送入中断请求(Posted Interrupts)的机制,延迟可降低到8倍之多;在网路互连的环境下,v4处理器搭配英特尔Omni-Path Architecture的网路Fabric架构,能够比v3处理器平台传输的讯息量高出24%。

对于储存应用上,Xeon E5-2600 v4继续强化了ISA-L程式库(Intelligent Storage Acceleration Library)的性能。跟开始支援ISA-L的Xeon E5-2600 v3相比,效能提升了一些,但相较于不支援ISA-L的Xeon E5-2600 v2或是停用ISA-L的v4环境下,增长幅度更为明显。例如针对密码杂凑运算处理工作,像是SHA-256、SHA-512、MD5,启用ISA-L的v4*高可提供8.2倍效能;对于资料保护的作业,像是RAID-5、RAID-6、Erasure Code,启用ISA-L的v4效能是3.3倍。

拥有88个执行绪的2路伺服器

在英特尔*新发表的Xeon处理器当中,E5-2699 v4这款产品*高可提供22颗实体核心、44个执行绪,因此,若在2路伺服器搭配两颗E5-2699 v4,理论上可获得44颗核心、88个执行绪。而我们在英特尔举办的新品发表工作坊活动期间,看到他们在现场特别设置了一台测试设备,里面安装Windows Server 2012 R2作业系统,我们不只亲眼目睹搭配这颗处理器的2路伺服器,并且从工作管理员看到系统的确能支援88个执行绪。

采用14奈米制程,内建运算核心冲破20大关

这批处理器都导入Broadwell微架构,并使用了更为先进的14奈米制程(v3系列是22奈米),现有Xeon E5-2600 v3处理器所搭配的LGA 2011-v3插槽(或称为Socket R3),新的v4系列处理器一样相容,因此现有针对Xeon E5-2600 v3系列处理器所设计的伺服器,均能搭配。

除了设计制程,v4系列处理器在硬体规格与过去产品*为显着的差异是,**的Xeon E5-2699 v4内含的实体核心,*大可达22颗,L3记忆体容量高达55 MB,若启用超执行绪(Hyper-Threading)技术之后,可提供44个执行绪;若以搭配2颗2699 v4的伺服器组态而言,单台设备就拥有44核88绪。

而在前代Xeon E5-2600 v3系列处理器当中,**的2699 v3*大可提供18颗实体核心、36个执行绪,L3记忆体容量为45 MB。新旧款Xeon E5-2699处理器的基础频率分别为2.2 GHz与2.3 GHz,有些出入,但热设计功耗都是145瓦。

2路伺服器配1.5 TB记忆体不是梦!英特尔松手,Xeon E5正式支援更大量的记忆体

就搭配的系统记忆体规格而言,Xeon E5- 2600 v3和v4都是DDR4,但在支援的*高存取速度规格又更上一层楼,到达2400 MT/s(v3支援到2133 MT/s)。而对于DDR4记忆体规格的支援,Xeon E5- 2600 v3已经开始支援4通道的存取方式,而对于每条通道,可支援3支RDIMM或LRDIMM规格记忆体的配置,到了v4,又额外支援了3DS(three-dimensional stacking)LRDIMM规格的记忆体──它是近年来相当受到瞩目的记忆体,相较于传统的封装堆叠方式,3DS LRDIMM不只提供更大的容量,能源使用效率与执行效能也较佳。

在记忆体的稳定度与可靠度确保机制上,Xeon E5- 2600 v3支援错误修正检查(ECC)、巡查抹除(Patrol Scrubbing)、需求抹除(Demand Scrubbing),以及冗余(Sparing)、镜射(Mirroring)、连续同步模式(Lockstep Mode)、针对x4/x8记忆体的单一装置资料修正(SDDC)。到了v4,英特尔增加针对DDR4记忆体写入的循环冗余校验(CRC)容错支援。

此外,对于新推出的v4系列处理器,英特尔终于正式放宽了2路伺服器搭配的记忆体容量,*大可达1.5TB。因为,若你使用的伺服器是v3以前的Xeon E5-2600系列处理器平台,*大记忆体仅支援到768 GB。

有趣的是,许多厂商在先前推出的Xeon E5伺服器当中,有不少机型的记忆体规格上,已经标示*大容量可达到1TB或1.5TB,但是,相对地,在英特尔官方公布的规格里面,始终没有正式认可这件事。

不论过去如何,2路伺服器能搭配超过1TB的记忆体容量,终究成为定局。在更早之前,用户必须购买支援Xeon E7系列处理器的伺服器,才能获得如此巨大的记忆体延展性,而这类设备通常搭配的是4路或8路的处理器组态。

但现在居然在Xeon E5-2600系列处理器平台上,利用较为平价的2路伺服器,就能支援TB等级的记忆体,对于想要大规模导入记忆体内运算(In-Memory Computing)应用的企业来说,将是一大福音,因为当企业能以价格相对低廉的2路伺服器,来支配超大量的记忆体资源使用,将可省下相当多费用。

针对虚拟化,新增直接置入中断请求与记忆体分页修改记录

在Xeon处理器架构与功能推陈出新的过程中,强化伺服器虚拟化应用效能,一直是历代伺服器平台发展的重头戏,*知名的研发成果,就是VT(Virtualization Technology)系列指令集。

到了Haswell微架构之后,该公司又加入了VMCS(Virtual Machine Control Shadowing),因此采用该架构的Xeon E5-2600 v3处理器平台,对于巢状虚拟化应用(nested virtualization,也就是在虚拟化环境当中,再建立一层虚拟化环境)更加得心应手。

因为,这么一来,能将*外层/**层(根)Hypervisor的权限控管,延伸到所模拟的里层(Guest)Hypervisor上──在这里所执行的应用程式,将会耗用*少的效能,不会严重影响到整体伺服器与其他虚拟机器的运作。该功能有助于云端服务业者使用,因为IaaS租户将因此能对本身所用的Hypervisor环境,获得更大的主控权,而不需要业者介入协助。

而在下一代的Broadwell微架构当中,英特尔又加入新的虚拟化应用特色,例如:直接置入中断请求(Posted Interrupts)、记忆体分页修改记录(Page Modification Logging,PML),以及虚拟机器进出延迟减缓(VM Enter/Exit latency Reduction)。这些新的加速机制,都在采用该架构的Xeon E5-2600 v4系列处理器开始提供。

直接置入中断请求

以Posted Interrupts来说,是在Hypervisor存取虚拟机器时,若进入VM-exit状态时,不需要每次都提出中断处理请求,系统可将中断处理视为已经写入到记忆体上,只在必要时,才会对虚拟机器送出中断处理。

不论是系统要指派装置,或是在执行迁移虚拟处理器的作业,都可以更有效率地导引中断请求。这种新的作法,还可以搭配Xeon E5-2600 v2之后,所新增的APIC虚拟化(Advanced Programmable Interrupt Controller Virtualization,APICv),改良虚拟环境下的中断处理效能。

免除了VM-exit相关的中断处理之后,成效有多大?根据英特尔本身的测试,对伺服器里面执行的虚拟机器而言,平均的网路存取延迟可缩短8倍以上,而网路吞吐量*高可提升41%。

记忆体分页修改记录

Xeon E5-2600 v4与虚拟化应用相关的新特色当中,PML是针对两台虚拟化主机之间的自动容错切换。在两台相互备援的伺服器虚拟环境下,处理器将会针对另一台提供容错机制的次要虚拟化主机(secondary host),定期进行快速检查(Rapid Checkpointing),查核主要的虚拟化主机(primary host)的可靠度(Availability),以及网路连结(Link),确认状态是否异常。一般而言,检查点的资料将会传送到备援的主机上,等到检查点套用后,来自主站点的I/O作业就会停止,不会持续连线、占用频宽;一旦主要虚拟化主机发生故障,备援虚拟化主机就能透过这种方式回复、接手相关的工作。

比起纯粹基于VM层级的容错备援机制,现在能运用这种方式,将可减少许多不必要的负担。就运作原理而言,Page Modification Logging的功能,主要是建立在Haswell架构新增的EPT A/D(Extended Paged Table Accessed/Dirty bits),透过硬体机制,提供记忆体区块残留位元资料(Dirty bits)的分页记录表,可加速虚拟化软体执行切换这些工作负载的效率,甚至还可以提升虚拟机器的线上不停机迁移(Live Migration)效率,连带受惠。

虚拟机器进出延迟减缓

Xeon E5-2600 v4新增的第三个虚拟化特色,则是VM enter/exit Latency Reduction,主要效果是减少VM存取状态改变时所引发的额外负担。

这项机制是从Haswell架构就开始发展,当虚拟机器在切换为VM-enter或VM-exit时,延迟大约需要5百个周期,而到了Broadwell架构,可减少至400个周期,因此采用该架构的Xeon E5-2600 v4的VM存取延迟,也跟着降低。

提升多种运算指令集的执行效能,强化**性处理能力

针对**性应用的强化,也是这次Xeon E5-2600 v4发布的重点特色。根据英特尔内部进行的测试结果,相较于v3,这一代的Xeon处理器平台在进行金钥加密演算法时,每核心效能的提升幅度可达到70%。

这部分的改进,主要是因为英特尔在Broadwell微架构下,新增了ADCX/ADOX的指令集,并且降低ADC、SBB、PCLMULQDQ等指令集的执行延迟度,进而能够针对现行基于RSA、ECC、SHA等演算法的各种**通讯初始协定,提供加速处理的效果。

以ADCX和ADOX指令集为例,主要针对的是大型整数运算,可用于公钥的加密处理,它们是基于ADC指令集而演变出来的作法,差异在于搭配不同的旗标行为(flag behavior)——ADCX运用Carry旗标,而ADOX是运用Overflow旗标,当中也运用了在Mathmatica 这类应用软体支援的GNU多重精度程式库(multiprecision library),以及常见的RSA公钥加密处理技术。

而对于ADC、SBB、PCLMULQDQ的加速处理,Xeon E5-2600 v4改善的部分是针对演算法的延迟性,而且,执行相关运算的程式码不需重新编写。此外,处理器执行ADC/SBB指令集时,将能在单一运算周期内完成工作;至于PCLMULQDQ的运算,也将从7个���期减至5个周期。

除了这些与演算法相关的**性特色,Xeon E5-2600 v4也针对系统执行的架构增加了保护机制,称为管理者模式的存取防护(Supervisor Mode Access Protection,SMAP),这是一种透过处理器的机制,来保护使用者模式下的记忆体位址空间存取。

英特尔早在Xeon E5-2600 v2时期,就提供了OS Guard(Supervisor Mode Execution Prevention,SMEP)防护技术,而SMAP也是很相似的技术,但防护面向不同。

两者的差别在于:SMEP预防的目标,主要是透过使用者记忆体分页来执行管理者模式的行为;而SMAP所要抵挡的,则是特别针对另一种藉由管理者模式,到使用者记忆体分页来存取资料的可疑行为。

*后,在伺服器虚拟化应用的**防护上,Xeon E5-2600 v4也特别新增了一个名为#VE(Processor Virtualization exception)的功能。这项技术可强化伺服器平台侦测潜藏恶意程式的能力,并且以处理器即时判断的机制,预防零时差的应用程式漏洞攻击,透过这种不需完全仰赖作业系统层级以上的记忆体深度检测机制,英特尔希望能降低相关的防护负担。

虚拟化效能增强是Xeon E5历代发展重点

在系统的效能强化上,每一代Xeon E5-2600系列处理器都会增添一些针对伺服器虚拟化应用环境的特色,早期是发展与扩充VT系列指令集,到了*近则是聚焦在更细致的底层资源管理,像是v2新增的APICv,v3加入的VMCS、EPT A/D,而*新推出的v4系列,则增添了Posted Interrupts、Page Modification Logging,以及VM enter/exit Latency Reduction等特色。

Posted Interrupts演进历程

关于伺服器虚拟化环境的中断处理作法,可分为3个时期:*早是基于Hypervisor(VMM)的软体APICv,来进行所有的外部中断处理,VM-exit也会经过VMM执行的软体APICv,对于少量的VM-exit切换还可以应付。

接下来,从Xeon E5-2600 v2开始,是能够搭配处理器内建的硬体式APICv机制,可因应少量的VM-exit切换,但外部中断处理仍须经由VMM的软体APICv来递送。

在Xeon E5-2600 v4所支援的Posted Interrupts下,可透过软体传送或直接进行外部中断处理,并同时搭配上述的处理器硬体APICv的作法,如此将能支援SR-IOV的网路介面应用,以及直接穿透虚拟层的Direct I/O周边装置指定。

专攻虚拟化主机备援容错的PML架构

Xeon E5-2600 v4加入了Page Modification Logging(PML),可针对工作负载的层级,提供系统容错能力,如此能为虚拟化的企业关键应用系统环境,提供高可靠度的保护机制。PML主要运用了Rapid Checkpointing的作法,对于VM层级容错机制所产生的额外负担,可望因此降低。

Xeon E5-2600系列*近三代处理器的规格比较

资料来源:英特尔ARK网站,iThome整理,2016年4月

你可能感兴趣: 企业动态 图片 服务器 PIC 处理器
无觅相关文章插件,快速提升流量