就现场资料来看,可确认由8组Tesla P100加速卡所构成显示效能,将藉由NVLink技术形成单组超高效能运算元件,同时所有HBM2记忆体模组也能共构为总计达128GB的资料暂存缓冲空间,并且可作为各个加速卡之间资料交换传递媒介,藉此让DGX-1*高达170TFLOPS的运算量能以更快效率执行运作。
本身着重在深度机器学习应用设计的DGX-1,整体是以4U规格伺服器机架配置8组搭载Pascal显示架构与HBM2记忆体的Tesla P100加速卡模组,并且透过NVLink建构成单组超高效能运算元件,并且透过将所有HBM2记忆体模组共构为总计达128GB的资料暂存缓冲空间,让各个加速卡之间可更快进行运算资料交换传递。
此外,相对HBM2记忆体模组作为快取用途,在DGX-1配置内加入的7TB SSD主要用于容量较大的运算资料暂存缓冲,使DGX-1*高达170TFLOPS的运算量能以更快效率执行运作。
但由于Tesla P100加速卡模组并非藉由PCIe介面连接,而是藉由NVLink技术对应更大传输频宽需求的运算量,因此实际架构并不会让Intel XEON处理器直接与加速卡运算资源连接,必须透过桥接方式让两边进行沟通,但基本上绝大多数的资料运算均由加速卡部分完成,处理器端主要负责执行相关运作指令集,并非处于对等运作沟通模式。
简单地说的话,就是由8组Tesla P100加速卡模组完成所有运算量,并且将*终运算结果交由处理器端执行指令集,让运算结果能应用在各类x86架构软体内容,例如不同深度机器学习架构等。而因为减少每组加速卡与处理器间频繁沟通,使得整体运算效率能因此大幅提升。
就目前DGX-1设计情况来看,本身也会作为公版参考设计,因此除预计在今年**季由Nvidia向美国市场供货之外,预计在今年第三季也将开放其他OEM厂商采用此设计打造的客制化版本,但基本上运算架构应该不会有太大差异,大致上可能仅在搭配的处理器、SSD与散热设计有所不同,但Tesla P100加速卡模组配置方式预期将维持相同设计。