連續(xù)制冷對數(shù)據(jù)中心至關重要,由于市電中斷、制冷設備故障等原因導致數(shù)據(jù)中心制冷中斷,服務器、網絡設備都會因為過熱而罷工,其承載的業(yè)務會中斷、未保存的數(shù)都會丟失,不僅經濟損失嚴重,還會對企業(yè)的聲譽造成嚴重損害。
日常瀏覽網站、使用APP時,會遇到在線服務中斷的情況,很多都是因為數(shù)據(jù)中心發(fā)生了制冷故障。據(jù)權威機構Uptime Institute調研表明,近些年制冷系統(tǒng)故障率已超過IT系統(tǒng),成為供電、網絡故障之后的最大數(shù)據(jù)中心宕機原因。
中小數(shù)據(jù)中心的連續(xù)制冷難題
如何解決制冷故障導致的數(shù)據(jù)中心服務中斷一直是行業(yè)里的大課題,多年來通過不斷提升建設標準、強化容災系統(tǒng)、完善應急方案等措施,多數(shù)大型、超大型數(shù)據(jù)中心已經可以輕松應對制冷故障,實現(xiàn)連續(xù)制冷保障業(yè)務穩(wěn)定。
對于中小型數(shù)據(jù)中心而言,由于業(yè)務規(guī)模小,單柜功率密度低,往往不會配備連續(xù)制冷,這意味著中小型數(shù)據(jù)中心面對市電斷電時,更容易發(fā)生高溫宕機的情況。
隨著中小型數(shù)據(jù)中心單柜功率的提升,這個問題面臨愈演愈烈的趨勢,近年來因制冷系統(tǒng)故障導致的中小數(shù)據(jù)中心服務中斷事件可謂層出不窮——
10月中旬,一家位于廣州的中小型數(shù)據(jù)中心發(fā)生了制冷系統(tǒng)故障,導致機房溫度升高,部分服務器罷工,影響了多個客戶的業(yè)務。
此前5月份,上海某機構的自用小型數(shù)據(jù)中心發(fā)生了制冷系統(tǒng)故障,導致機房溫度超過40攝氏度,部分承載業(yè)務的服務器自動關機。
去年12月份,香港某數(shù)據(jù)中心制冷故障,導致澳門金融管理局、蓮華衛(wèi)視以及大量港澳企業(yè)和媒體無法正常訪問。
去年8月份,南京一座中小數(shù)據(jù)中心發(fā)生服務器過熱宕機,多次重啟制冷系統(tǒng)失敗,導致業(yè)務中斷3小時以上。
……
市電中斷,宕機只需“分分鐘”
傳統(tǒng)的中小數(shù)據(jù)中心,往往具有設備密度小、服務器功率低、空間開放等特點。同時因為成本、能源供給、使用空間等因素,中小數(shù)據(jù)中心很少配備大型數(shù)據(jù)中心常見的冷凝水塔、空調UPS等后備系統(tǒng),基本不具備制冷冗余和災備體系。
這樣的中小數(shù)據(jù)中心出現(xiàn)制冷中斷時,往往依靠原本機房空間的蓄冷和開窗通風、風扇吹等手段扛過設備重啟的時間空檔。
但在今天,情況正在發(fā)生變化。隨著數(shù)字化轉型的深入,各行各業(yè)已經紛紛將業(yè)務遷移到線上,對于在線服務的依賴性不斷提升,一旦服務中斷損失將無法估算。同時,因為業(yè)務的遷入以及各類數(shù)字工具的應用,極大提升了中小數(shù)據(jù)中心算力規(guī)模,IT負載和能耗都在同步攀升。
在這種情況下,一旦出現(xiàn)制冷故障,服務器溫度會在幾分鐘內飆升到無法正常運轉的程度。據(jù)《數(shù)據(jù)中心在制冷系統(tǒng)中斷期間的溫升》白皮書顯示,機房制冷中斷后只需要5分鐘左右,“所有位置的溫度都達到不可接受的溫度范圍”。
隨著IT負載的提升,高功率、高密度機柜在制冷中斷情況下可穩(wěn)定運行的時間也在縮減。實測數(shù)據(jù)顯示,傳統(tǒng)的3KW機柜在失去制冷后,服務器熱保護關機時間大概有480s,4KW機柜則縮短到300s。當機柜密度達到8KW,熱保護關機時間則縮減到不到240s,只有3KW機柜的一半。
中小數(shù)據(jù)中心連續(xù)制冷勢在必行
連續(xù)制冷對于中小型數(shù)據(jù)中心來說,已經成為一項不可或缺的需求。特別是當前,中小數(shù)據(jù)中心已經逐漸轉變?yōu)樵O備密度高、服務器功率大、空間封閉的新形態(tài)。這一新形態(tài)下,必須要采取新的制冷方案,連續(xù)制冷面臨強需求。
不過,中小數(shù)據(jù)中心的連續(xù)制冷并不如說起來這樣簡單。業(yè)界常見的連續(xù)制冷方案包括蓄冷罐、空調專用UPS等,對于小型數(shù)據(jù)中心來說卻并不合適。
蓄冷罐主要應用于大型水冷數(shù)據(jù)中心,不談水冷系統(tǒng)中冷機、蒸發(fā)塔以及各種粗大管道,僅僅是蓄冷罐本身往往直徑就有10米左右,高度更是達數(shù)十米。很多中小數(shù)據(jù)中心空間本就有限,很多都是在寫字樓、基站之中,自然不可能配備如此夸張的蓄冷罐。
還有一種方案是為蓄冷系統(tǒng)配備單獨的UPS,這種方案是為了應對突發(fā)斷電導致的制冷中斷。但傳統(tǒng)中小數(shù)據(jù)中心往往采用較小功率的UPS和啟動電流較大的定頻空調,考慮到空調設備的啟動電流較大,UPS容量需要達到空調功率的6~8倍,這會大幅增加機房建設的投資,在實際的機房中也鮮有應用。
當前較為可行的方案,是采用變頻的精密空調,并為空調配備UPS和電池備電,在這種情況下,精密空調作為動力設備,運行過程中會產生諧波,需要增加諧波抑制或者補償?shù)南嚓P手段。同時,空調等動力設備的故障率一般高于電子信息設備,如果采用UPS為空調供電,需要考慮在空調突發(fā)短路等異常時,能夠迅速隔離故障,避免影響在UPS后端的其他設備。
因此,在全新的形態(tài)和應用場景下,中小數(shù)據(jù)中心需要尋找到一條適合自身的連續(xù)制冷之路,這是產業(yè)發(fā)展的需求,也是保障數(shù)字化進程的重任。
只有通過采用高效、可靠的制冷技術,并建立完善的連續(xù)制冷機制,才能夠確保中小數(shù)據(jù)中心業(yè)務的連續(xù)性和穩(wěn)定性,為用戶提供更好的服務體驗。
本文標題:制冷系統(tǒng)故障率已成為供電、網絡故障之后的最大數(shù)據(jù)中心宕機原因
本文鏈接:http://www.yangziriver.cn/faq3/1072.html [版權聲明]除非特別標注,否則均為本站原創(chuàng)文章,轉載時請以鏈接形式注明文章出處。