台湾大学洪士灏：GPU发展有2大瓶颈-电子网

GPU仍扮演辅佐CPU的角色而无法独自存在系统中，使得资料取得速度较慢，甚至距离资料取得位置太远，而得要花更多时间才能取得要运算的资料，成了影响GPU效能的瓶颈

尽管深度学习与AI应用的窜红，开始让GPU重要性跟以往截然不同，靠着GPU在AI应用的高CP值，越来越多企业与AI新创都有意采用。不过即便GPU在一些AI设备的重要性与日俱增，甚至受重视程度还高过于CPU，但还是不能因此就认为GPU可以无所不能，GPU本身还是有其局限的存在。

像是GPU缺乏处理大量不同性质运算能力的特性，就是*常被人拿来凸显GPU不足的其中一个例子。因为GPU原本就被设计成专门处理大量高同质性的资料运算工作，是只能专心做相同事情的专才。

所以，当面对需要依据大量资料的不同特征而做决策的运算时，GPU就显得不太在行，这方面则是CPU的强项，因为CPU晶片内的每一颗核心，都是独立运作可以负责处理各自不同的任务，CPU是能处理不同事情的通才，而不像GPU，虽然拥有远超过CPU的核心数量，但这些核心的作事方式都是每个核心都只做同一件事。

台湾大学资工系副教授洪士灏则是以更简单易懂的方式，来说明GPU和CPU两者角色的差别。他形容，GPU就像是工厂雇用的一群作业人员，这些作业员每日只需负责处理大量同类型的工作，例如产品检测、组装等，反观CPU则较像是独立运作的厂房专业人员，专门处理主管交付下来的不同各别任务，例如调度产线机台或加派人力支援等。

洪士灏过去在效能调校、平行运算与异质系统方面很有经验，今年他也一路全程参与GTC大会。他观察，尽管GPU的高度运算能力在AI应用方面今年获得高度的关注，但以目前来说，GPU要就此要取代CPU的角色仍有难度。他解释，GPU在进行深度学习这类特殊的运算时，效率虽然比CPU高很多，但在面对处理一些运算后还需进一步决策或判断的运算工作时， GPU的执行效率就比不上CPU，所以这方面还是需要CPU来完成。

在平行运算略占下风的CPU厂商近年来也开始提高CPU的运算能力，例如处理器大厂英特尔在新一代CPU处理器内，就陆续特别增加晶片内的核心数量，所以现在，可以看到越来越多的x86伺服器内配置的CPU核心数量，至少都超过10个以上。不仅如此，洪士灏更进一步指出，将来甚至有机会看到一些特殊版本的伺服器推出，这些伺服器至少具备有60至70颗以上的核心数，就是要用来拉近和GPU之间的距离。

GPU面临的2个难处

而当CPU正逐步缩短与GPU之间的差距时，洪士灏明白点出，GPU至今仍有两大瓶颈尚未解决。其中一个即是GPU目前还无法在系统内单独使用，使得GPU取得资料的速度比CPU还慢。

洪士灏表示，截至目前，GPU还是以一种加速器或加速卡的方式存在系统，只能从旁担任CPU的辅助角色。所以，不像CPU可以直接存取硬碟上的资料，GPU必须得靠CPU的帮忙，从档案系统中将资料拿出并喂给GPU后，GPU才能进行后续的运算处理工作，使得GPU通常比CPU得花更多的时间才能拿到资料来计算。

GPU不只是取用资料得仰赖CPU的帮忙，洪士灏也指出，这也衍生出了GPU目前遭遇到的另一个困境，就是距离资料取得的地方太远，使得GPU得经过好几手的传递后才能取得资料。以大数据分析来举例的话，GPU要取用资料就得经过GPU来联系，中间还得通过好几层关卡，才能让位在系统后端的GPU收取资料，所以当然距离资料就远。

洪士灏表示，当GPU要借助记忆体内运算技术时，也同样会遇到资料传不够快的问题。

GPU要从记忆体拿取资料，目前必需经由I/O 汇流排介面当作传输通道，但问题是，目前伺服器所用的I/O 汇流排，普遍都是PCIe这个传输介面，其传输速度仍远低于作为CPU和记忆体之间资料传输的记忆体汇流排（Memory Bus）的速度。如果只是少量运算还好，但当需要运用大量记忆体内运算的时候，GPU拿资料的速度就会变慢，而影响了GPU的利用率。

不过至今，GPU所存在的这2大难题，还是迟迟未能获得有效改善。洪士灏也坦言，这并非是单靠一家GPU厂商就能处理得了的事，而是得要有CPU和其他系统厂商的共同合作，才有办法共同坐下来一起解决。所以，Nvidia再挑战要让更多企业在AI与深度学习都能用GPU的同时，接下来也得要想办法解决GPU目前所面临到的种种局限才行。

台湾大学资工系副教授洪士灏表示，GPU至今仍有两大瓶颈尚未解决，其中一个是GPU目前还无法在系统内单独使用，只能担任辅助角色使得GPU取得资料的速度比CPU还慢；另一个目前所遭遇到的困境则是GPU距离资料取得的位置太远，因此当需要处理大量资料运算时，就很容易影响了GPU的利用率。

你可能感兴趣：业界新闻图片 GPU CPU 处理器

资讯发现

台湾大学洪士灏：GPU发展有2大瓶颈

*新资讯