• 中文版
  • English
首页 新闻资讯 北大&华科&中国移动!高功率大面积AI芯片液冷技术综述

北大&华科&中国移动!高功率大面积AI芯片液冷技术综述

时间:2025年12月11日

来源 | 邹启凡1,3  刘 洪2  罗海亮2  杨荣贵1,2,3

链接 | 1华中科技大学能源与动力工程学院 武汉 430074;2中国移动通信集团设计院有限公司 北京 100080; 3 北京大学力学与工程科学学院能源与资源工程系 北京 100871)




摘要:随着人工智能(artificial intelligence, AI)技术的升级迭代,巨大的算力需求推动了AI芯片的发展,特别是近年来 开发的芯粒(Chiplet)技术,为人工智能提供了高计算性能、高良品率、低成本的先进芯片封装集成方案,为AI发展提供 了坚实的硬件支撑。Chiplet型芯片具有大面积、高发热功率的特征,其3D的芯片堆叠设计带来了热流分布不均匀、多层芯 片导热路径长、填充热界面材料较厚等散热难题,成为了芯片性能提升的关键瓶颈,Chiplet 型芯片的高效热管理成了人工 智能发展的关键挑战。本文综述了芯片热管理的先进液冷技术进展,包括单相与两相液冷方案,基于冷却架构分为冷板式液 冷、近结区液冷与浸没式液冷,并针对2.5D、3D Chiplet 型芯片中的散热问题与冷却方案进行了总结,为高功率大面积AI 芯片的液冷方案的应用与发展提供参考。


关键词:人工智能;Chiplet技术;芯片热管理;单相液冷;两相液冷




01

背景


人工智能(artificial intelligence,AI),凭借其对人类智能的模拟与拓展,赋能计算机执行各类复 杂任务,在移动终端、无人驾驶、智能家居、工业 物联网、工程科学和智慧医疗等广阔的生产、生活与认知领域发挥着重要作用,是当今推动科技创新 和社会进步的重要力量。AI技术的创新与普及依 赖于AI芯片的快速发展。AI芯片具备高并行度和高计算效率的显著特性,通过定制化的硬件加速 组件,诸如张量核心(Tensor Cores)、神经网络处理单元(neural processing unit,NPU)等,支撑起复杂任务带来的巨大计算需求,在提高计算效率、 降低能耗和提升性能方面具有显著优势,是实现AI 技术商业化的核心基石。随着半导体芯片制程迈向2 nm甚至更小,芯粒(Chiplet)三维架构型的AI芯片尺寸和功耗不断增加,发热特性呈现出大面积、 传统数据中心通过风冷散热,由于空气的导热系数 高功耗、高热流且分布不均匀和热负荷动态变化大 等特点,对传统热管理方案的能耗与温控性能提出 了巨大的挑战。图1所示为芯片发展带来的节能减排问题。


2.png

图1 芯片发展带来的节能减排问题(a)芯片功耗随年份增长统计;(b)世界各地区数据中心用电量增长与数据中心用电占比 (c)数据中心中能耗占比 ;(d)不同冷却方案的PUE对比。


如图1(a)所示,芯片的功耗在过去的十年 中急剧攀升,在英伟达(NVIDIA)2025 年发布的 GB300 中,其 芯片热设计功耗(thermal design power, TDP)已达1 400 W。芯片功耗的急剧攀升、AI大 模型等技术的发展带来了数据中心的能耗问题。国 际能源署的数据显示,近十年来数据中心用电量急剧增长(图1(b)),中国和美国是数据中心用电量 增长的主要来源,2015 年至今每年增长率分别为 15%、12%。2024 年,美国、中国与欧洲的数据中心用电量分别达180、100、70 TW∙h,相比于各个地区的总用电量,数据中心用电量分别占比约4%、 1.1%、2%。数据中心的能耗控制已经成为“碳达峰, 碳中和”目标中的节能减排重要领域。图1(c)所示为数据中心的能耗结构,其中散热耗能是除服务器计算能耗外最大的能耗,是实现节能的核心组成。传统数据中心通过风冷散热,由于空气的导热系数低,需采用大功率的风机,其散热能耗占比高达 43%。

液冷数据中心通过利用液体的高导热系数进行,有效地将散热能耗占比降至9%。随着冷却技术 逐步从风冷、自然冷发展到新型液冷的过程中,其能源利用效率PUEpower usage effectiveness,通常定义PUE=数据中心总能耗/服务器设备能耗)从 2 逐步降至1.1以下,如图1(d)所示。在液冷散热技术中目前已经落地示范的包括冷板式、非相变浸没式、相变浸没式液冷,其中冷板式液冷与芯片封装、现有风冷架构均具备良好兼容性,能基于现有数据中心改造,甚至可以实现复合风冷、液冷的风液融合散热方案。浸没式液冷能实现更低的 PUE,其与现有的芯片封装能良好兼容,但需要使用浸没式服务器机架,多用于新建的数据中心。此外,为了进一步提升冷却性能、降低PUE,基于芯片封装层面开发的近结区冷却方案也存在许多研究,为新一代冷却方案提供了可能。


3.png

 图2 芯片面临的高热流密度热管理挑战

(a)电子器件失效原因占比;(b)芯片晶体管数量增长[10]和最大热流统计 (c)封装芯片中的热点与温度分布 ;(d)风冷和液冷方案下的GPU芯片温度对比 (e)不同冷却方式的热流密度、传热系数的对比(传热性能数据基于文献中1 cm×1 cm以上热源面积)


芯片的发展不仅引起了能耗问题,还带来了对芯片温度控制的热管理挑战,统计结果表明55%的电子产品是由于热问题失效,如图 2(a)所示。随 着半导体工艺的发展,图2(b)所示为芯片中晶体管的数量以指数级增长,芯片中的最大热流密度超过 100 W/cm2。芯片的最高工作温度约为 85~95 ℃,如NVIDIA H100 PCIe 中图形处理单元 (graphics processing unit,GPU)的最高工作温度 为87 ℃、高带宽内存(high bandwidth memory, HBM) 的最高工作温度为95 ℃。如图2(c)所示,封装芯片中的发热呈现不均匀特征,为了有效控制局部热点温度,需要采用换热性能更好的冷却方案以防止热失效。风冷难以对小空间内的大量芯片实现高效冷却,在单芯片功率为300~400 W时逐渐过渡为液冷方案。液冷相比风冷具有更高的换热性能, 这是由于液体的导热系数和热容远大于空气,如水 的导热系数约为0.59 W/(m⋅K),比空气的导热系数 0.026 W/(m⋅K)大一个数量级。风冷和液冷对芯片的 冷却效果如图2(d)所示,在 25 ℃的入口风温时, GPU 温度为 64 ℃,比入口温度相近的液冷高约 23.5 ℃。不同冷却方式的临界热流密度(critical heat flux, CHF)、传热系数(heat transfer coefficient, HTC) 对比如图2(e)所示,根据热流密度、传热系数可以表征液冷方案的散热性能,如加热面的过热度ΔT=热流密度 q/传热系数 h,进而根据流体温度可 以确认芯片温升是否在安全范围内。


根据液体输运是否存在泵功驱动,液冷技术分为主动式和被动式2种。被动式两相液冷包括应用于均温板的毛细蒸发、液膜沸腾,以及应用于两相浸没式冷却的池沸腾。对于1 cm×1 cm以上的热源,水工质的池沸腾和毛细蒸发可实现70~300 W/cm2的CHF与10~150 kW/(m2·K)的传热系数。主动式液冷包括射流冷却、 喷雾冷却和微通道冷却,相比于被动式液冷具备更高的换热性能,如以水为工质时CHF高达 350~1000 W/cm2,HTC 可实现30~400 kW/(m2·K)。需要注意的是,液冷技术的传热性能与流体工质的潜热、 表面张力、比热等参数密切相关,采用介电流体射 流/喷雾/微通道冷却,热流密度通常为100~300 W/cm2、传热系数为10~70 kW/(m2·K),远低于工质水的换热性能,提升介电流体两相液冷的传热性能成为电子器件热管理技术发展的关键。



02

芯片液冷系统及架构


液冷技术通过液体工质将热量高效地从芯片带走,再与环境进行换热,最终将芯片产热排至环境中。其中液体工质与封装芯片的传热方案设计是实现高性能芯片液冷技术的核心内容,目前较为成熟的液冷技术主要包括冷板式液冷与浸没式液冷。 随着液体侧强化传热方案的进步,芯片封装的导热热阻占比不断增大,芯片液冷架构呈现从传统冷板式液冷的远端冷却向近结区冷却发展的趋势


4.png

图3 目前发展的液冷方案a)冷板式液冷系统 (b)冷板式液冷架构与热阻网络;(c)近结区液冷架构与热阻网络 (d)浸没式液冷系统;(e)浸没式液冷架构与热阻网络


图3(a)所示为一典型的冷板式液冷系统,二次侧回路中冷却液从冷量分配单元(cooling distribution units, CDU)流入服务器中,经过冷板将芯片的热量带走,而后将热量输送至一次侧工质, 一次侧工质则通过风冷、冷却塔等方式将热量排出 到环境中。在芯片散热层面,冷板式液冷架构如图 3(b)所示,包括常规贴装冷板和芯片直接贴装冷板2种方案。常规贴装冷板中,芯片产热通过芯片内部、 热界面材料(thermal interface material, TIM)、芯片盖板、TIM的多层导热热阻传递给冷板,最终将热量排至液冷工质中。为了减少这些导热过程的热阻, 可以采用芯片直接贴装冷板的方案,其中去除了芯片封装壳体,从而减少一层TIM热阻与芯片盖板热 阻。更进一步地,如图3(c)所示,通过在芯片表面、 内部引入液冷,不仅能完全消除TIM热阻,还能在靠近芯片内的热源PN结区域实现对热点的高效冷却。

这一近结区冷却的概念来自美国DARPA提出的近结传热(near junction thermal transport,NJTT) 项目,并在后续的片内/片间增强冷却 (Intrachip/Interchip Enhanced Cooling,ICECool) 计划中得以发展,最终形成了芯片内的嵌入式微通道液冷、射流冷却等技术,具有结构紧凑、散热效率高、温度均匀性好等优点。然而,嵌入式液冷技术需要在芯片衬底上刻蚀微通道,显著增加了器件制造的复杂性和成本,目前在实际应用中仍然难以推广。在近结区冷却中,为防止冷却液与半导体 接触引起短路,以及对电路板、散热结构等产生 蚀,需要采用低导电率、较低介电常数、对电子器件和散热器化学稳定、不易分解、导热系数和比热容较高的工质,一般称为介电流体(如硅油、矿物 油、氟化液、制冷剂等)。

然而,介电流体因导热系数与汽化潜热显著低于水工质,介电流体传热性能 的强化受到广泛关注图3(d)所示为典型的浸没式液冷系统,芯片与基板全部浸没在冷却液中。在单相浸没系统中,芯片产热通过对流传热传递给冷却液,再由液-液换热器将热量排出到一次侧工质。在两相浸没系统中, 芯片产热通过沸腾传递给冷却液,在沸腾过程中汽 化的冷却液在冷凝器上冷凝放热,将热量排至一次侧工质。浸没式液冷架构与热阻网络如图3(e)所示, 在单相浸没式液冷中,热阻主要来自于对流传热, 通过强迫对流的方式可以有效强化单相浸没液冷。 在两相浸没式液冷中,其沸腾传热性能受限于汽泡在浮升力下的脱离,也能够通过强迫对流来促进汽泡脱离、强化传热。此外,通过翅片、均温板等增大传热面积的方式也能够有效强化浸没式液冷 性能。浸没式液冷兼容于现有芯片内部以及封装结构,其冷却方式稳定可靠,在数据中心产业领域已实现一定规模的落地应用,其缺点主要为不采用泵驱强化时能实现的热流密度有限,以及较大的服务器机柜改造和液冷工质成本。

相同芯片冷却架构下,根据冷却液是否发生相变,还可进一步分为单相、两相液冷,其强化传热的结构、常用的工质存在差别。单相液冷中常用翅片增加传热面积、调控扰流和涡结构、破坏边界层 等方式强化对流传热,常用的工质为水、硅油、矿 物油、氟化液(FC-40、HFE-7300、HFE-7500)、和其他有机工质(如乙二醇、丙二醇)等。两相液冷中通常采用微柱、微通道等结构,结合电沉积、化学刻蚀等方法制备微纳复合结构,以降低沸腾起始温度、强化微液层蒸发、调控两相流型等方式强化流动沸腾传热,常用的工质为水、氟化液(如FC 72、HFE-7100)、制冷剂(如R1234ze、R1233zd(E)、 R1336mzz、R515B)等。



03

图文导读


5.png

图4 单相液冷板设计方案

(a)不同截面的平直微通道 (b)三维流道冷板,如蛇形、波浪形微通道、优化的多层 微通道 (c)加扰流结构的微通道 (d)多冷板管路布置方案


6.png

图5 近结区单相液冷方案

(a)底部供液的嵌入式微通道冷却 (b)顶部H型歧管供液的嵌入式微通道冷却 (c)嵌入式射流冷却 (d)结合3D歧管的嵌入式微通道冷却


7.png

图6近结区两相液冷

(a)歧管供液的嵌入式冷却方案 (b)径向微通道的嵌入式冷却方案 (c)微间隙和微通道的嵌入式冷却方案


8.png 

图7 两相浸没式冷却技术

(a)液体对成核微结构的浸润情况示意图 (b)使用铜基热扩和均温板(VC)热扩强化两相浸没冷却


9.png

图8 Chiplet 型芯片架构

(a)多热源分布示意图 (b)阶梯空间中的厚度不匹配示意图 


10.png

图9 Chiplet 型芯片强化冷却方案。
(a)对 2.5D Chiplet 型芯片直接使用冷板式液冷散热 (b)通过定制封装盖板(Lid)强化Chiplet型芯片散热性能 (c)在 2.5D Chiplet 型芯片上表面通过嵌入式微通道液冷散热(d)在 2.5D Chiplet 型芯片上表面通过射流冷却散热 (e)在 2.5D Chiplet 型芯片下方通过嵌入式微流道冷却,在PCB中制备可配置、替换供液冷却单元回路的方案(f)在 2.5D Chiplet 型芯片下方通过紧凑微通道液冷器件冷却(g)在 3D 堆叠芯片中上方、下方供液的嵌入式微通道冷却方案(h)在 3D 堆叠芯片实现中间供液的嵌入式微通道冷却方案。