Nvidia超级电脑解析 存储器共构加速运算效率

分享到:
164
下一篇 >
此次在GTC 2016主题演讲中揭晓的Nvidia超级电脑DGX-1,本身主要是针对深度机器学习应用所设计,在4U规格的伺服器机架内配置8组搭载Pascal显示架构与HBM2记忆体的Tesla P100加速卡模组,并且配置7TB SSD作为运算资料缓冲,同时藉由两组Intel XEON处理器处理运作指令集,以此提供等同250组伺服器的运作效能。

就现场资料来看,可确认由8组Tesla P100加速卡所构成显示效能,将藉由NVLink技术形成单组超高效能运算元件,同时所有HBM2记忆体模组也能共构为总计达128GB的资料暂存缓冲空间,并且可作为各个加速卡之间资料交换传递媒介,藉此让DGX-1*高达170TFLOPS的运算量能以更快效率执行运作。

本身着重在深度机器学习应用设计的DGX-1,整体是以4U规格伺服器机架配置8组搭载Pascal显示架构与HBM2记忆体的Tesla P100加速卡模组,并且透过NVLink建构成单组超高效能运算元件,并且透过将所有HBM2记忆体模组共构为总计达128GB的资料暂存缓冲空间,让各个加速卡之间可更快进行运算资料交换传递。

此外,相对HBM2记忆体模组作为快取用途,在DGX-1配置内加入的7TB SSD主要用于容量较大的运算资料暂存缓冲,使DGX-1*高达170TFLOPS的运算量能以更快效率执行运作。

但由于Tesla P100加速卡模组并非藉由PCIe介面连接,而是藉由NVLink技术对应更大传输频宽需求的运算量,因此实际架构并不会让Intel XEON处理器直接与加速卡运算资源连接,必须透过桥接方式让两边进行沟通,但基本上绝大多数的资料运算均由加速卡部分完成,处理器端主要负责执行相关运作指令集,并非处于对等运作沟通模式。

简单地说的话,就是由8组Tesla P100加速卡模组完成所有运算量,并且将*终运算结果交由处理器端执行指令集,让运算结果能应用在各类x86架构软体内容,例如不同深度机器学习架构等。而因为减少每组加速卡与处理器间频繁沟通,使得整体运算效率能因此大幅提升。

就目前DGX-1设计情况来看,本身也会作为公版参考设计,因此除预计在今年**季由Nvidia向美国市场供货之外,预计在今年第三季也将开放其他OEM厂商采用此设计打造的客制化版本,但基本上运算架构应该不会有太大差异,大致上可能仅在搭配的处理器、SSD与散热设计有所不同,但Tesla P100加速卡模组配置方式预期将维持相同设计。

你可能感兴趣: 企业动态 图片 NVIDIA 存储器 电脑
无觅相关文章插件,快速提升流量