選擇數(shù)據(jù)中心冷卻方法時需要考慮的因素

作者：蘭洋科技????瀏覽量：4555????時間：2023年11月09日????標簽: 風冷散熱空氣冷卻液體冷卻

為提高計算密度而保持工作溫度的追求，使企業(yè)從空氣冷卻過渡到液體冷卻，本文將評估這兩種方法。

數(shù)據(jù)中心繼續(xù)將更多的計算能力整合到更小的空間中，以整合工作負載并容納處理密集型應用程序，例如人工智能和高級分析。其結果是，每個機架消耗更多的能量并產生更多的熱量，從而對冷卻系統(tǒng)施加更大的壓力，以確保安全和高效的運行。

過去，當機架功率要求遠低于20千瓦時，數(shù)據(jù)中心可以依靠空氣冷卻來維持安全的工作溫度。但是如今的高性能機架很容易超過20千瓦、30k千瓦或更多。這在很大程度上是因為這些機架中的計算系統(tǒng)配置了CPU和GPU，其熱功率密度比前幾代產品高得多。雖然一些空氣冷卻系統(tǒng)可以支持需要超過20千瓦的機架，但它們效率低且維護復雜，導致很多企業(yè)開始采用液體冷卻技術。

在討論液體冷卻技術與空氣冷卻技術時，需要考慮許多因素。以下將介紹這兩種主要類型的數(shù)據(jù)中心冷卻方法，比較它們的優(yōu)缺點，然后討論在兩者之間進行選擇時要考慮的因素。

什么是風冷？

數(shù)據(jù)中心自從出現(xiàn)以來一直在使用空氣冷卻技術，并繼續(xù)廣泛使用。盡管該技術多年來不斷發(fā)展，冷卻系統(tǒng)的效率越來越高，但基本概念保持不變。冷空氣被吹過或在硬件周圍循環(huán)，通過將較熱的空氣與較冷的空氣交換來散發(fā)熱量。

空氣冷卻系統(tǒng)之間的主要區(qū)別在于它們如何控制氣流。這些系統(tǒng)通常分為三種類型：基于機房、基于行和基于機架。

基于機房的冷卻系統(tǒng)使用機房空調將冷空氣推入機房?？諝饪赡茉谡麄€房間內循環(huán)，或通過設備附近的活動地板排出?，F(xiàn)在，許多基于房間的系統(tǒng)都采用了冷熱通道配置，以更好地控制氣流并冷卻設備，從而有助于節(jié)約能源，并降低成本。該配置還可能使用某種形式的遏制來更好地將熱通道和冷通道彼此隔離。

熱通道和冷通道使數(shù)據(jù)中心能夠更好地控制氣流并冷卻設備。

基于行的冷卻比基于房間的系統(tǒng)更具針對性。每排都包含專用冷卻單元，可將氣流集中在特定設備上。有時稱為行內冷卻，基于行的方法提高了冷卻效率，并減少了引導氣流所需的風扇功率，有助于降低能源使用和成本?；谛械睦鋮s能夠以不同的方式實現(xiàn)，例如將冷卻單元放置在服務器機架之間或將它們安裝在頭頂上。

基于機架的系統(tǒng)更進一步，將冷卻單元專用于特定的機架，與其他空氣冷卻方法相比，可以實現(xiàn)了更高的精度和效率。冷卻單元通常安裝在這些機架之上或之內。通過這種方式，可以配置冷卻能力以滿足機架的特定要求，從而實現(xiàn)更可預測的性能和成本。然而，基于機架的系統(tǒng)需要更多的冷卻單元，并增加整體復雜性。

多年來，空氣冷卻已被證明是保護數(shù)據(jù)中心設備的寶貴工具。它背后的技術廣為人知、廣泛部署，并且仍在世界各地的數(shù)據(jù)中心中廣泛使用。數(shù)據(jù)中心人員熟悉空氣冷卻以及保持其運行所需的條件。維護這些系統(tǒng)是一個簡單的過程，背后有大量的行業(yè)經(jīng)驗。

空氣冷卻的缺點

然而，空氣冷卻也面臨一些挑戰(zhàn)。最重要的是它無法滿足現(xiàn)代工作負載需求。空氣冷卻根本無法跟上增加的密度和繁重的處理負荷。在某些時候，空氣冷卻的資本支出以及增加的復雜性不再是合理的?？諝饫鋮s已經(jīng)占數(shù)據(jù)中心運營支出的很大一部分。不斷上漲的能源成本只會加劇這個問題。

水的限制和成本也可能對依賴蒸發(fā)冷卻或冷卻塔的空氣冷卻系統(tǒng)提出挑戰(zhàn)。此外，更高的計算密度意味著更多的冷卻風扇和水泵，使數(shù)據(jù)中心變得如此嘈雜，以至于工作人員必須佩戴聽力保護設備。

根本的問題是，盡管空氣被廣泛使用，但它并不是一種有效的傳熱介質，需要一種更好的冷卻方法來滿足現(xiàn)代工作負載的需求。

什么是液體冷卻？

數(shù)據(jù)中心已經(jīng)開始采用液體冷卻，而不僅僅是大型機和超級計算機。水和其他液體在傳熱方面的效率比空氣高得多——效率高出50到1000倍。液體冷卻有望幫助解決空氣冷卻系統(tǒng)帶來的許多挑戰(zhàn)，尤其是隨著計算密度的增加。

液冷GPU具有直接到芯片的冷卻器，這些冷卻器通過冷卻劑分配模塊回路路由到冷卻分配單元。

數(shù)據(jù)中心使用的液體冷卻技術通常分為三類：直接到芯片冷卻、后門熱交換器和浸沒式冷卻。

直接對芯片冷卻將冷卻系統(tǒng)直接集成到計算機的機箱中。冷卻液通過管道輸送到直接位于CPU、GPU或存儲卡等組件旁邊的冷板。小管將冷液體運送到每個板上，液體從下面的組件中吸收熱量。然后將溫熱的液體循環(huán)到冷卻裝置或熱交換裝置。在冷卻之后，液體將循環(huán)回冷板。

使用后門熱交換器可以在機架級別應用類似的概念。在這種情況下，交換器安裝在機架的背面以代替其后門。服務器風扇將熱空氣吹過交換器，從而散發(fā)熱量。液體通過一個進行熱交換的閉環(huán)系統(tǒng)循環(huán)。盡管具體過程因系統(tǒng)而異，但后門冷卻方法通常包括流過交換器的封閉冷卻劑和用于在冷卻劑循環(huán)時降低冷卻劑溫度的系統(tǒng)。該系統(tǒng)可能只不過是一個局部冷卻裝置，但它也可能是更大操作的一部分。例如，冷卻劑可能通過管道輸送到地下以降低其溫度。

一項取得進展的新技術是浸沒式冷卻。在這種方法中，所有內部服務器組件都浸沒在不導電的介電流體中。組件和流體封裝在密封容器中以防止泄漏。來自組件的熱量被傳遞到冷卻劑，這個過程比其他方法需要的能量少得多。浸沒式冷卻可以是單相或兩相的。采用單相冷卻，冷卻液不斷循環(huán)冷卻以散熱。在兩相系統(tǒng)中，使用低沸點的冷卻劑。當冷卻劑沸騰時，它變成蒸氣并上升到容器蓋，在那里它被冷卻并冷凝回液體。

由于液體冷卻可以比空氣更好地傳導熱量，因此它可以更有效地處理數(shù)據(jù)中心不斷增長的密度，從而有助于適應計算密集型應用程序。此外，液體冷卻顯著降低了能源消耗，并且與許多空氣冷卻系統(tǒng)相比，它使用的水更少，從而降低了運營成本并提高了數(shù)據(jù)中心的可持續(xù)性。液體冷卻還占用更少的空間，產生更少的噪音，并有助于延長計算機硬件的使用壽命。

液體冷卻的缺點

盡管有這些優(yōu)點，液體冷卻也有其缺點。除了潛在的更高資本支出外，泄漏風險是許多IT專業(yè)人員的一個大問題，尤其是直接芯片冷卻。如果發(fā)生泄漏，可能會對硬件產生破壞性影響。

液體冷卻還要求IT和數(shù)據(jù)中心運營商學習新技能并采用新的管理框架，這可能意味著一項重大任務和額外的運營成本。

這也可能意味著引入新的人員或顧問，從而進一步削弱運營成本優(yōu)勢。此外，液冷市場仍處于成熟期，技術種類繁多，導致專有產品和廠商鎖定的風險。

選擇空氣冷卻與液體冷卻時要考慮的因素

建立新數(shù)據(jù)中心或更新現(xiàn)有數(shù)據(jù)中心的組織可能正在評估是否是實施液體冷卻或堅持使用久經(jīng)考驗的空氣冷卻的好時機。要在兩者之間做出決定，他們需要考慮幾個重要的因素。

（1）價格

成本是選擇數(shù)據(jù)中心冷卻方法的決定性因素，但獲得真正的總擁有成本(TCO)可能是一個復雜的過程。液體冷卻通常被認為具有更高的資本支出；然而，一些業(yè)內人士開始質疑這一假設。根據(jù)行業(yè)廠商進行的一項成本研究，用于10千瓦機架的基于機箱的浸入式冷卻的資本支出與使用熱通道封閉的空氣冷卻機架相當。液體冷卻帶來的更高效率也可以轉化為更低的運營支出，尤其是隨著密度的增長。

此外，液體冷卻使用更少的電力和水，這在缺水地區(qū)尤為重要。另一方面，供應商鎖定的風險可能會影響長期總體擁有成本（TCO）。此外，液體冷卻通常需要特殊培訓或人員來實施和維護，并且管理系統(tǒng)更加復雜和耗時，這會增加運營成本。IT管理員和站點操作員熟悉風冷系統(tǒng)，支持它們的成本通常較低。

在評估總體擁有成本（TCO）時，還應考慮計算機本身。液體冷卻可以支持更高的計算密度，同時減少數(shù)據(jù)中心的占地面積，從而提高空間利用率并降低成本。對更高密度的支持可以使因空氣冷卻限制而無法實施處理密集型工作負載的組織受益。支持這些工作負載可以轉化為額外收入，幫助抵消資本支出和運營支出。

（2）易于安裝和維護

另一個重要的考慮因素是部署和維護冷卻系統(tǒng)需要什么，這與運營支出的考慮密切相關。使用空氣冷卻，操作設備和更換組件通常很簡單，而且它們很少影響計算機組件本身。這并不是說空氣冷卻本身不存在挑戰(zhàn)，例如持續(xù)的水處理或機械維護，但它是一個具有悠久歷史的知名實體來支持它。

液體冷卻需要新的思維方式和新的工作方式。IT和數(shù)據(jù)中心團隊將有一個陡峭的學習曲線，在某些情況下，可能依賴供應商進行日常維護。例如，如果IT必須更換使用浸沒式冷卻的服務器中的內存板怎么辦？服務器必須從介電液體中取出——這本身就是一項不小的任務——并且液體會清除組件。流體可能還需要特殊處理，因為它是危險的或引起環(huán)境問題，從而導致進一步的復雜性。在分析成本時，組織必須評估部署和維護冷卻系統(tǒng)的所有影響。

（3）可持續(xù)性

數(shù)據(jù)中心運營商比以往任何時候都承受著更大的壓力，要求他們的數(shù)據(jù)中心更具可持續(xù)性。這種壓力不僅來自客戶，還來自員工、股東、投資公司、政府和廣大公眾。與此同時，運營商正在努力應對工作負載密度增加和數(shù)據(jù)量增加帶來的挑戰(zhàn)，這些挑戰(zhàn)可能會影響資源的使用。

轉向更環(huán)保的數(shù)據(jù)中心實踐的組織應該考慮液體冷卻而不是空氣冷卻，因為它使用更少的電力和水，并且可以更容易地適應更密集的工作負載和數(shù)據(jù)量。鑒于支持更大可持續(xù)性的壓力越來越大，液體冷卻可能成為唯一可行的選擇，因此組織應該為過渡做好準備。

（4）地點

在空氣冷卻和液體冷卻之間進行選擇時，位置可能是一個重要因素。例如，北極附近的數(shù)據(jù)中心可以利用充足的冷空氣來降低運行溫度。但是，它們仍必須過濾外部空氣并調節(jié)其濕度，這會削弱使用該空氣的一些好處。另一方面，在氣候溫暖或靠近工廠或其他惡劣環(huán)境（無法使用外部空氣）的數(shù)據(jù)中心可能難以維護其空氣冷卻系統(tǒng)，因為機架密度增加，這使得液體冷卻更可行選項。擁擠的城市環(huán)境中的數(shù)據(jù)中心也是如此，它必須增加計算密度以最大化占地面積。地方法規(guī)、稅收優(yōu)惠或類似問題也可以在空氣冷卻和液體冷卻之間進行選擇。

（5）未來發(fā)展

一些組織不支持需要高處理密度的高級工作負載類型，因此可能不需要切換到液體冷卻。也就是說，隨著數(shù)據(jù)中心爭先恐后地更好地利用占地面積和IT整合工作負載以提高效率，未來幾年的密度只會增加。此外，大多數(shù)組織可能會轉向更可持續(xù)的數(shù)據(jù)中心，這也帶來了一系列挑戰(zhàn)。在某些時候，液體冷卻可能成為唯一可行的選擇，盡管這并不意味著組織必須急于采用。但是，他們應該為它的到來做好準備。