Nvidia超级电脑解析存储器共构加速运算效率-电子网

此次在GTC 2016主题演讲中揭晓的Nvidia超级电脑DGX-1，本身主要是针对深度机器学习应用所设计，在4U规格的伺服器机架内配置8组搭载Pascal显示架构与HBM2记忆体的Tesla P100加速卡模组，并且配置7TB SSD作为运算资料缓冲，同时藉由两组Intel XEON处理器处理运作指令集，以此提供等同250组伺服器的运作效能。

就现场资料来看，可确认由8组Tesla P100加速卡所构成显示效能，将藉由NVLink技术形成单组超高效能运算元件，同时所有HBM2记忆体模组也能共构为总计达128GB的资料暂存缓冲空间，并且可作为各个加速卡之间资料交换传递媒介，藉此让DGX-1*高达170TFLOPS的运算量能以更快效率执行运作。

本身着重在深度机器学习应用设计的DGX-1，整体是以4U规格伺服器机架配置8组搭载Pascal显示架构与HBM2记忆体的Tesla P100加速卡模组，并且透过NVLink建构成单组超高效能运算元件，并且透过将所有HBM2记忆体模组共构为总计达128GB的资料暂存缓冲空间，让各个加速卡之间可更快进行运算资料交换传递。

此外，相对HBM2记忆体模组作为快取用途，在DGX-1配置内加入的7TB SSD主要用于容量较大的运算资料暂存缓冲，使DGX-1*高达170TFLOPS的运算量能以更快效率执行运作。

但由于Tesla P100加速卡模组并非藉由PCIe介面连接，而是藉由NVLink技术对应更大传输频宽需求的运算量，因此实际架构并不会让Intel XEON处理器直接与加速卡运算资源连接，必须透过桥接方式让两边进行沟通，但基本上绝大多数的资料运算均由加速卡部分完成，处理器端主要负责执行相关运作指令集，并非处于对等运作沟通模式。

简单地说的话，就是由8组Tesla P100加速卡模组完成所有运算量，并且将*终运算结果交由处理器端执行指令集，让运算结果能应用在各类x86架构软体内容，例如不同深度机器学习架构等。而因为减少每组加速卡与处理器间频繁沟通，使得整体运算效率能因此大幅提升。

就目前DGX-1设计情况来看，本身也会作为公版参考设计，因此除预计在今年**季由Nvidia向美国市场供货之外，预计在今年第三季也将开放其他OEM厂商采用此设计打造的客制化版本，但基本上运算架构应该不会有太大差异，大致上可能仅在搭配的处理器、SSD与散热设计有所不同，但Tesla P100加速卡模组配置方式预期将维持相同设计。

你可能感兴趣：企业动态图片 NVIDIA 存储器电脑

资讯发现

Nvidia超级电脑解析存储器共构加速运算效率

*新资讯

资讯发现

Nvidia超级电脑解析 存储器共构加速运算效率

*新资讯

Nvidia超级电脑解析存储器共构加速运算效率