NVIDIA计算卡第一次上液冷：提高散热效率、降低能耗

2022-05-25 10:26:09 来源：快科技

对于下一代显卡，AMD、NVIDIA在台北电脑展期间都三缄其口，丝毫没有提及。AMD只讲处理器，NVIDIA则只说数据中心GPU、CPU。

NVIDIA宣布，Ampere架构的计算卡A100、桌面超算HGX A100，Hopper架构的计算卡H100、桌面超算HGX H100，将在该系列中首次引入液冷散热，从而提高散热效率、降低能耗、节省空间和成本。

NVIDIA表示，它们都采用了直接芯片(Direct-to-Chip)冷却技术。

HGX A100、HGX H100系统采用的都是SXM样式计算卡，在机架内直接整合液冷散热系统，取代传统的系统风冷散热，体积更加紧凑，前者现已出货，后者今年第四季度。

A100 PCIe(80GB)、H100 PCIe独立计算卡则有些类似桌面液冷显卡，整合水冷头，不过接口放置在尾部，以便对接液冷系统，前者今年第三季度出货，后者明年初。

数据中心服务商Equinix正在实验室中测试自己的首款液冷GPU方案，结果发现，采用液冷技术的数据中心工作负载可与风冷设施持平，同时消耗的能源减少了约30％。

同时，液冷版的A100/H100 PCIe只需占用一个插槽位，相比传统两个插槽位的风冷版，可以节省最多66％的机架空间。

NVIDIA估计，液冷数据中心的PUE(电源使用效率)可能达到1.15，远低于风冷的PUE 1.6。

NVIDIA GH100核心采用台积电4nm工艺制造、CoWoS 2.5D晶圆级封装，集成800亿个晶体管、18432个CUDA核心、576个Tensor核心、60MB二级缓存，可搭配6144-bit HBM2e/HBM3高带宽内存。

H100计算卡支持SXM、PCIe 5.0两种形态，其中后者功耗高达史无前例的700W，相比A100多了整整300W。

SXM5版本只开启15872个CUDA核心、528个Tensor核心、50MB二级缓存。

PCIe 5.0版本则只有14952个CUDA核心、456个Tensor核心。（作者：上方文Q）