摘要:隨著數(shù)據(jù)中心能耗的急劇增長,使之成為雙碳目標達成的重點監(jiān)控目標。文章針對數(shù)據(jù)中心中功耗大于200W的高功率芯片,沿著散熱路徑,采用液冷散熱技術(shù),經(jīng)過液冷冷板、機架級液冷、機房級CDU液冷工質(zhì)分配系統(tǒng)與精密空調(diào)的協(xié)同工作,使用液冷工質(zhì)取代空氣作為傳熱介質(zhì),有效提升了散熱效率,數(shù)據(jù)中心散熱系統(tǒng)的能耗占比從現(xiàn)在的37%降低到了10%左右,節(jié)能減碳效果非常明顯。
0 引言
人工智能、5G通信、網(wǎng)上購物、手機支付、健康掃碼等數(shù)字經(jīng)濟的加速應用,背后有配套的數(shù)據(jù)中心作為支撐。隨著數(shù)字經(jīng)濟的發(fā)展,我國數(shù)據(jù)中心整體用電量飛速增長,成為重點監(jiān)控的高能耗行業(yè)。2021年10月18日,國家發(fā)展改革委印發(fā)《關(guān)于嚴格能效約束推動重點領(lǐng)域節(jié)能降碳的若干意見》,推動重點工業(yè)領(lǐng)域節(jié)能降碳和綠色轉(zhuǎn)型,堅決遏制全國“兩高”項目盲目發(fā)展,確保如期實現(xiàn)碳達峰目標,要求到2025年,數(shù)據(jù)中心達到標桿水平的產(chǎn)能比例超過30%;到2030年,行業(yè)整體能效水平和碳排放強度達到國際先進水平,為如期實現(xiàn)碳達峰目標提供有力支撐。
在數(shù)據(jù)中心中,影響能耗的主要因素是:IT設備、散熱系統(tǒng)、供電系統(tǒng)等,其中IT設備占數(shù)據(jù)中心總能耗的50%,散熱系統(tǒng)占總能耗的37%[2]。IT設備的能耗屬于基礎能耗,短時間很難明顯降低;散熱系統(tǒng)的能耗降低與高效運行成為節(jié)能降耗的首選目標。
1 數(shù)據(jù)中心散熱系統(tǒng)的構(gòu)成
IT設備所消耗的電能大部分會轉(zhuǎn)變?yōu)閺U熱,為了讓IT設備在合適的工作溫度下正常運轉(zhuǎn),數(shù)據(jù)中心配置了冷水機組、冷卻塔、精密空調(diào)等設備的制冷與散熱系統(tǒng),將廢熱排出數(shù)據(jù)中心,傳熱過程如圖1所示。其中冷水機組、冷卻塔、水泵、精密空調(diào)是能耗關(guān)注的重點。
圖1 數(shù)據(jù)中心熱量傳遞圖
當前數(shù)據(jù)中心的傳熱介質(zhì)基本上為:空氣或者水。其中水的定壓比熱容為1.004kJ/(KgK),水的比熱容為4200kJ/(KgK)[3],水的帶熱能力是空氣的1000倍左右。因此在散熱系統(tǒng)的設計中,采用水作為散熱介質(zhì)是一種有效的節(jié)能手段。為了提升制冷系統(tǒng)的能效,在熱量采集側(cè),采用高效散熱器與精確送風等手段,將熱量傳遞出來;在精密空調(diào)側(cè),從房間級制冷發(fā)展到模塊化機房、機架級制冷,更加靠近熱源,減少冷媒輸送過程的能耗;在冷源制備環(huán)節(jié),從風冷向水冷、自然冷卻發(fā)展,提升外部熱量傳遞效率。
傳統(tǒng)散熱系統(tǒng)中精密空調(diào)、冷機、冷卻塔為具有各自的控制系統(tǒng)與運行策略,效率優(yōu)化在局部運行,單體已經(jīng)做到最優(yōu),但在整體上散熱效率還需要進一步提升。
要系統(tǒng)性的改善散熱效率,需要從熱量采集、冷源制備、外部熱量傳遞等端到端進行協(xié)同管理和精細化控制,從而降低散熱系統(tǒng)的功耗。
2 端到端的液冷散熱系統(tǒng)設計
2.1板級液冷散熱設計
隨著算力需求的大爆發(fā),CPU與GPU的集成度與功耗均出現(xiàn)了指數(shù)級增長,單芯片功耗已經(jīng)攀升到了300W[4],傳統(tǒng)的芯片散熱器與風冷散熱方案遇到了散熱瓶頸。芯片是熱量的源頭,如何將芯片內(nèi)部的熱量帶出來,是數(shù)據(jù)中心散熱系統(tǒng)解決的首要問題。
從散熱路徑上看,芯片發(fā)出的熱量首先需要經(jīng)過芯片內(nèi)部傳遞到板級散熱器,更加高效的散熱器方案會更加有利于熱量的收集與采集。
對于功耗低于200W的單芯片,單機架功耗小于20kW的IT設備配置[5],可以繼續(xù)使用空氣作為傳熱介質(zhì),采用熱管散熱器與VC散熱器,配套使用高傳導系數(shù)的TIM材料(比如石墨片/石墨烯等),有效地減少了芯片與散熱器基板之間擴散熱阻問題,提高散熱器的散熱效率。
對于功耗大于200W的單芯片,單機架功耗大于20kW的IT設備配置[5],繼續(xù)使用空氣作為傳熱介質(zhì),芯片的熱量已經(jīng)無法傳遞傳來,需要使用液體工質(zhì)進行散熱。液冷冷板散熱是目前比較成熟的板級芯片散熱技術(shù)。液冷冷板包括進液接頭、出液接頭、上蓋板與底板,上蓋板與底板之間通過真空釬焊工藝連接起來,形成密封的液體換熱腔體,腔體內(nèi)部根據(jù)芯片的位置與散熱需求設置分液腔與不同寬度的導流溝槽,實現(xiàn)液體流動的節(jié)流控制與增加擾流,增強冷板的局部散熱能力,消除高功率芯片造成的熱點散熱瓶頸,內(nèi)部構(gòu)造如圖2所示。
圖2 液冷冷板的剖面圖
在同一個機架中存在不同種類的單板,其功率與熱點是不一樣的,但是供液管路在進液接頭處的供液壓力基本相同,因此需要通冷板的分液腔進行節(jié)流控制。對于芯片功耗比較低的單板,采用節(jié)流控制,減少工質(zhì)的流量供應。液冷散熱的冷板在實際設計時,覆蓋了的CPU、內(nèi)存與其他高功率器件,但還有電阻、電容等大多數(shù)器件沒有覆蓋,就會產(chǎn)生少量余熱,需要通過風扇進行散熱,導致在系統(tǒng)中液冷散熱與空氣散熱并存,散熱效率還有提升的空間。冷板設計時,通過TIM材料與所有器件實現(xiàn)搭接覆蓋,在技術(shù)上可以實現(xiàn)100%液冷散熱,冷板的成本與復雜度隨之增加。在追求高效散熱的同時,還要綜合考慮初始成本的投入。如果節(jié)點單板的種類單一,可以考慮使用全覆蓋的單板,初始成本可以通過發(fā)貨量的提升帶來成本降低的抵沖,從而實現(xiàn)節(jié)能降碳與投入的平衡。
對于冷板式散熱而言,采用液體工質(zhì)通常為去離子水,比熱容高,能夠快速吸收熱量,同時可以做到無腐蝕性,對管路的可靠性無影響。冷板液冷散熱屬于間接式液冷,芯片與液態(tài)工質(zhì)不直接接觸,可靠性高,技術(shù)成熟。但是在芯片與液態(tài)工質(zhì)之間存在熱阻,因此部分廠家在推廣浸沒式液冷方案。IT設備浸沒在液體里循環(huán)冷卻,芯片與液冷工質(zhì)直接接觸,減少了熱阻,同時利用工質(zhì)相變過程帶走更多的熱量,成為液冷散熱中的新熱點。浸沒式液冷最常使用的工質(zhì)為氟化液,目前工質(zhì)的成本比較高,成為大規(guī)模商用的障礙。
2.2機架級液冷散熱
在數(shù)據(jù)中心中,IT設備是以機架為單位進行布置。機架用于容納數(shù)據(jù)中心的信息設備,比如:服務器、存儲器、網(wǎng)絡交換機等。板級散熱將單個IT設備的熱量帶出來,還需要整機架將熱量匯集并傳遞到室外。在機架級液冷散熱中,主要組成部分包括進出水Manifold、監(jiān)控單元、溫度傳感器、電磁閥與單向閥等,如圖3所示。
圖3 機架級液冷配置圖
進出水Manifold對外連接到機房級的液冷分配單元,對內(nèi)通過快接頭連接到液冷冷板的進液接頭與出液接頭,系統(tǒng)熱量通過Manifold傳遞到機架外側(cè)。
電磁閥與單向閥的主要功能是用于控制液體的流動,防止出現(xiàn)漏液時故障范圍控制在單個機架內(nèi)。
溫度傳感器的主要作用實時檢測進出水溫度,利用進出水的溫度差,對電磁閥門開度進行控制,實現(xiàn)對進出水流量的控制,確保熱量與流量相匹配。
液冷系統(tǒng)采用的工質(zhì)為去離子水,理論上不會造成短路,但是電路板或電子部件往往有灰塵顆粒雜志,去離子水接觸電路板后會造成短路,這也是液冷散熱在實施中遇到的最大阻力與疑惑。對于冷板泄露問題,需要從質(zhì)量管控、微量泄露監(jiān)控、突發(fā)大量泄露預防等手段進行控制。質(zhì)量管控分為生產(chǎn)環(huán)節(jié)與安裝應用環(huán)節(jié)。在生產(chǎn)環(huán)節(jié),確保工藝可靠,100%冷板進行保壓測試,使用超聲波進行抽檢探傷;快速插拔接頭要進行有效插拔次數(shù)與長期可靠性驗證。在安裝應用環(huán)節(jié),要確保二次管路在安裝之前沖洗干凈,防止雜質(zhì)顆粒造成快接頭堵塞、彈簧卡頓、橡膠圈失效等故障隱患,從而在運行中造成泄露,上述的手段與措施主要是用于保證盡可能不發(fā)生泄露。
如果冷板發(fā)生了微量泄漏,需要能夠?qū)崿F(xiàn)檢測并告警,提示維護人員盡快維修。檢測方法包括兩種:一種是采用水浸傳感器檢測,水浸傳感器安裝在積水盤上。積水盤的主要作用是出現(xiàn)漏液時,便于漏液檢測,同時防止液體泄漏到機架外,減少故障擴散。水浸傳感器檢測成熟可靠,但需要等到泄露的工質(zhì)沿著硬件單板與機架安裝件匯集到積水盤,此時泄露工質(zhì)的總量已經(jīng)很多大,在流動的過程中可能已經(jīng)造成單板與器件損壞。另外一種就是實時監(jiān)測。在工質(zhì)中混入沸點較低的示蹤物質(zhì),當發(fā)生泄漏時,通過單板內(nèi)置的氣體傳感器進行檢測。對于突發(fā)的大量泄l漏,概率比較低,但影響很大,在機架級Manifold進出水管路入口處增加單向閥,當出現(xiàn)較大壓力差時單向關(guān)閉。
2.3機房級液冷散熱設計
機房級散熱就是要將機架傳出來的熱量傳遞到室外。機房級液冷方案包括液冷模塊化機房、冷水機組、水泵、冷卻塔、管路等,如圖4所示。
圖4 機房級液冷配置圖
通常情況下,一個液冷模塊機房內(nèi)部包括2個備份的液冷分配單元CDU、10-20個IT機架、1-2個行級空調(diào)、供配電設備,如圖4所示。
液冷分配單元CDU用于進行IT液冷機架間的液體工質(zhì)分配系統(tǒng),提供二次側(cè)流量分配、壓力控制、物理隔離、防凝露等功能。在實際運行中,CDU提供一定流量、一定溫度的冷卻水進入IT液冷機架,通過Manifold進入液冷冷板,帶走處理器與關(guān)鍵部件發(fā)出的熱量,被加熱的冷卻水回流到CDU的中間換熱單元,將熱量釋放到室外回水管路中,該部分熱量再通過冷水機組或者干冷器排放帶到室外環(huán)境中,完成對液冷服務器的熱量管理。
液冷分配單元CDU通過調(diào)節(jié)送入液冷冷板的工質(zhì)溫度與流量從而向IT機架提供冷量,起到冷量分配的作用,內(nèi)部的換熱單元也起到模塊化機房與室外的供液回路的隔離的作用。CDU的作用非常關(guān)鍵,因此通常采用1+1備份。CDU對于液態(tài)工質(zhì)的流量控制,是通過檢測進出水溫度與供液壓力,控制供液水泵的轉(zhuǎn)速完成。目前大多數(shù)的CDU控制系統(tǒng)并沒有實現(xiàn)與機架內(nèi)的溫度檢測聯(lián)動,因此在控制上相對粗放。為了解決上述問題,部分應用將集中供液的CDU改為分布式CDU,CDU內(nèi)置到機架中,這樣CDU的流量調(diào)節(jié)就完全依照機架內(nèi)的業(yè)務運行狀態(tài)與功耗波動。集中式CDU適合于液冷散熱的機架數(shù)量多,可以整合成一個模塊化機房的情況;分布式CDU適合于液冷散熱的機架數(shù)量只有2-3個,方便部署。
3 結(jié)語
在雙碳目標的牽引下,數(shù)據(jù)中心承載著雙重使命:一方面通過集約化與規(guī)?;倪\作,為數(shù)字經(jīng)濟提供充足的算力。在數(shù)據(jù)中心算力效能的牽引下,高密度機架與高功耗芯片的普遍應用,使傳統(tǒng)的風冷散熱遇到了瓶頸;另一方面借助高效散熱器液、液冷散熱、干冷器自然冷源等多種技術(shù),降低自身的能耗。采用了液冷散熱之后,散熱效率顯著提升[6]散熱系統(tǒng)能耗占比從37%降低到了10%左右,節(jié)能減碳效果非常明顯;如果全國50%的新建數(shù)據(jù)中心采用液冷散熱形式建設,每年可以節(jié)省450億度電,減排300萬噸二氧化碳[7]。
參考文獻:
[1]中國能源電力發(fā)展展望2020[R].北京.國家電網(wǎng)國網(wǎng)能源研究院2020.
[2]鐘景華,傅烈虎.新基建:數(shù)據(jù)中心規(guī)劃與設計[M].北京.電子工業(yè)出版社2021.
[3]中國通信標準化協(xié)會開放數(shù)據(jù)中心標準推進委員會.冷板式液冷M.北京.化學工業(yè)出版社,2019.
[4]英特爾至強Platinum處理器[M].英特爾公司.2021.
[5]DatacomEquipmentPowerTrendsandCoolingApplica-tions,3rdEdition[M].ASHRAE.2018.
[6]T/CCSA269-2019,數(shù)據(jù)中心液冷服務器系統(tǒng)總體技術(shù)要求和測試方法[S]沖國通信標準化協(xié)會,2019.
[7]清華大學氣候變化與可持續(xù)發(fā)展研究院.讀懂碳中和[M].中信岀版集團2021.118.
來源:網(wǎng)絡
本文標題:數(shù)據(jù)中心高效液冷散熱系統(tǒng)設計
本文鏈接:http://www.yangziriver.cn/faq3/988.html [版權(quán)聲明]除非特別標注,否則均為本站原創(chuàng)文章,轉(zhuǎn)載時請以鏈接形式注明文章出處。