金融數(shù)據(jù)中心作為金融機構(gòu)的心臟,承載著所有IT系統(tǒng),牽一發(fā)而動全身,輕則影響幾臺設(shè)備、機柜,重則造成整個機房宕機。越是底層基礎(chǔ)設(shè)施,故障影響范圍就越廣泛,數(shù)據(jù)中心“風火水電”等基礎(chǔ)設(shè)施可謂是重中之重。因此,各金融機構(gòu)愈發(fā)重視數(shù)據(jù)中心基礎(chǔ)設(shè)施的管理,不但體現(xiàn)在近年來投資建設(shè)規(guī)模日益擴大,還反映在對運維管理方面越來越重視。廈門國際銀行歷來十分重視數(shù)據(jù)中心的發(fā)展,作為銀行金融科技數(shù)字化智慧轉(zhuǎn)型的重要支撐設(shè)施,廈門國際銀行數(shù)據(jù)中心規(guī)模正日益壯大。在廈門國際銀行數(shù)據(jù)中心規(guī)模不斷壯大發(fā)展的過程中,科技運維部作為見證者和守護者,也在不斷地總結(jié)和思考。面對不同階段不同發(fā)展規(guī)模的數(shù)據(jù)中心,建設(shè)和管理面臨的挑戰(zhàn)和壓力不斷加大,對運維管理思路和要求也不斷提高。為降低數(shù)據(jù)中心可靠性風險,首先,數(shù)據(jù)中心的建設(shè)必須科學化,采用科學合理的規(guī)劃設(shè)計方案;其次,在日常數(shù)據(jù)中心運維管理中,還要做到規(guī)范化與精細化。從建設(shè)和運維兩個維度雙管齊下,方能最大化程度降低數(shù)據(jù)中心相關(guān)風險。
數(shù)據(jù)中心建設(shè)科學化
數(shù)據(jù)中心建設(shè)不但要滿足未來至少十年的業(yè)務(wù)發(fā)展需求,還要考慮到當前行業(yè)趨勢,確保數(shù)據(jù)中心低碳、綠色、環(huán)保、降低CTO。廈門國際銀行在數(shù)據(jù)中心規(guī)劃建設(shè)上,積極踐行社會責任,數(shù)據(jù)中心PUE規(guī)劃指標嚴格遵循國家發(fā)展和改革委員會對PUE的相關(guān)要求,確保PUE降低到1.3以下,在規(guī)劃設(shè)計方案上,采用以下措施確保實現(xiàn)PUE設(shè)計目標。
1. 最大化程度利用自然冷源。結(jié)合場地條件和當?shù)貧夂驐l件,創(chuàng)新性地采用冷凍水系統(tǒng)+間接蒸發(fā)冷相結(jié)合的方案作為數(shù)據(jù)中心制冷方案,從根本上解決南方地區(qū)PUE難題并保障PUE低于1.3的設(shè)計目標;
2. 余熱回收。利用余熱回收技術(shù),將數(shù)據(jù)中心IT負載散發(fā)的熱量回收供給園區(qū)綜合樓游泳池,實現(xiàn)游泳池的恒溫。在極端缺水和停水場景下,還可以將泳池的水經(jīng)過凈化和軟化水處理設(shè)備處理后作為后備儲水,實現(xiàn)泳池和數(shù)據(jù)中心制冷之間的雙向利用;
3. 光伏及儲能。根據(jù)最新技術(shù)及最佳實踐,數(shù)據(jù)中心規(guī)劃設(shè)計了園區(qū)光儲充一體化低碳系統(tǒng),輔助廈門國際銀行完成節(jié)能目標制定。基于綠色、節(jié)能、低碳的理念,提出并設(shè)計在數(shù)據(jù)中心屋頂設(shè)置單晶硅光伏系統(tǒng),在儲水蓄水罐表面設(shè)置碲化鎘薄膜光伏系統(tǒng),園區(qū)綠色儲能系統(tǒng)并用于園區(qū)電車充電的低碳架構(gòu)。
數(shù)據(jù)中心管理規(guī)范化
數(shù)據(jù)中心管理規(guī)范化,要從全生命周期的源頭設(shè)計規(guī)劃抓起,貫穿于施工、測試驗證和投產(chǎn)后日常運維階段等數(shù)據(jù)中心管理的全生命周期。
1. 需求分析階段。在需求分析階段,應(yīng)認真研究國家政策和監(jiān)管紅線,比如近年來發(fā)改委對新建數(shù)據(jù)中心PUE已經(jīng)提出明確指標。在對數(shù)據(jù)中心規(guī)劃的時候,一定要測算當前數(shù)據(jù)中心機柜規(guī)模達到的規(guī)模等級,明確了解自己的數(shù)據(jù)中心規(guī)模是中型、大型、還是超大型?因為不同規(guī)模分別對應(yīng)著不同的PUE指標要求。否則容易造成數(shù)據(jù)中心一投產(chǎn)就面臨不符合監(jiān)管政策要求的風險。
2. 初步設(shè)計階段。在初步設(shè)計階段,嚴格遵守標準規(guī)范,認真研究比對GB 50174-2017《數(shù)據(jù)中心設(shè)計規(guī)范》中對A類數(shù)據(jù)中心機房的各項設(shè)計指標要求,特別是建筑條件方面,從一開始就要確保符合機房場地條件,比如承重、設(shè)備安裝空間、作業(yè)維護空間等。否則容易造成場地條件先入為主,還沒施工就已經(jīng)對數(shù)據(jù)中心機電設(shè)施形成各種制約。比如可能會由于場地空間在設(shè)計階段考慮得不夠周全,導(dǎo)致只有某個廠家產(chǎn)品才能適配,造成設(shè)備選型只能單一品牌導(dǎo)致商務(wù)選型陷于被動;再比如建筑結(jié)構(gòu)很難滿足數(shù)據(jù)中心場地布局要求,使機房分區(qū)規(guī)劃不合理,空調(diào)室外機無法安裝或距離太遠,動力室與主機房距離太遠,增大傳輸和管理困難,增加成本,降低可靠性,后續(xù)運維場地空間不夠而存在的風險隱患等諸多問題。
3. 深化設(shè)計階段。在深化設(shè)計階段,各種設(shè)計指標參數(shù)的測算要隨著設(shè)計的逐步深化和明確進一步規(guī)范化。比如對PUE的測算,PUE作為數(shù)據(jù)中心各項成果指標的重要代表,在規(guī)劃設(shè)計時各設(shè)計單位都會進行系統(tǒng)性的測算,但目前依然存在對PUE指標數(shù)值存在以反推的目標數(shù)值標準來逐步反向調(diào)整測算過程和依據(jù)的現(xiàn)象,更甚者在沒有科學合理依據(jù)的前提下,隨意調(diào)整設(shè)定數(shù)值以此來滿足PUE測算目標。此類本末倒置的不規(guī)范設(shè)計,往往造成后續(xù)實際運行時發(fā)現(xiàn)PUE指標居高不下,遠離當初設(shè)計的目標值,但已然無法回頭。
4. 測試驗證階段。在測試驗證階段,要充分重視測試驗證工作的科學性。應(yīng)全面模擬驗證各類設(shè)備在各種工況下的模擬運行情況,確保各系統(tǒng)能滿足設(shè)計目標,重點關(guān)注系統(tǒng)可靠性和冗余備份切換。同時要確保測試驗證工作前置到設(shè)計和施工階段,否則容易造成等到后續(xù)測試驗證發(fā)現(xiàn)問題的時候,很多隱蔽工程、機電設(shè)備已經(jīng)安裝到位不具備整改條件或者改造成本巨大,造成新建的數(shù)據(jù)中心帶“病”投產(chǎn)。
5. 投產(chǎn)運維階段。在運維階段,要確保各個流程的規(guī)范性,具備規(guī)范的數(shù)據(jù)中心運行業(yè)務(wù)流程。
(1)制定標準的操作程序流程SOP (Standard Operation Procedure)。將工作的標準操作步驟和要求以統(tǒng)一的格式描述出來,用來指導(dǎo)和規(guī)范日常的運維工作;只有這樣才能做到“鐵打的營盤流水的兵”,各個崗位日常操作盡量實現(xiàn)標準化,降低一線人員操作風險;
(2)制定標準的維護操作流程MOP (Maintenance Operation Process)。用于規(guī)范和明確數(shù)據(jù)中心基礎(chǔ)設(shè)施維護工作中各項設(shè)施的維護保養(yǎng)審批流程及操作步驟,維護操作流程包括了設(shè)備的維護、保養(yǎng)、預(yù)防性巡檢等流程內(nèi)容;否則數(shù)據(jù)中心設(shè)備在常年運行中,什么時候該保養(yǎng),什么時候該進行預(yù)防性巡檢,沒有系統(tǒng)的流程容易造成貽誤;
(3)制定標準的應(yīng)急操作流程EOP (Emergency Operating Procedures)。用于規(guī)范應(yīng)急操作過程中的流程及操作步驟。運維人員可以迅速啟動,確保有序、有效地組織實施各項應(yīng)對措施。
數(shù)據(jù)中心管理精細化
精細化的流程對于整體數(shù)據(jù)中心運維風險把控至關(guān)重要。精細化需要壓實落實到日常運維管理細節(jié)中,并要求團隊嚴格執(zhí)行。廈門國際銀行數(shù)據(jù)中心基礎(chǔ)設(shè)施運維管理團隊在日常運維中結(jié)合實際工作情況不斷優(yōu)化和細化,具體表現(xiàn)在以下幾個方面。
1.巡檢精細化。建立嚴格的巡檢機制,定點、定時、定人完成固定的巡檢內(nèi)容,巡檢表單全面覆蓋所有數(shù)據(jù)中心風火水電設(shè)施。通過對巡檢人員持續(xù)培訓,增加對設(shè)備運行狀態(tài)分析及故障判斷能力的培訓,防止值班人員變?yōu)閱渭兊摹俺砭薄M瑫r通過一些輔助手段,增加巡檢的直觀性,降低人員意識風險。如將設(shè)備正常狀態(tài)下開關(guān)狀態(tài)和燈的顏色拍成照片并打印粘貼在設(shè)備旁邊,巡檢人員可以做到快速比對,減少對個人經(jīng)驗的依賴。
2. U位空間管理精細化。廈門國際銀行通過設(shè)備上下架流程管控,并輔以機柜U位自動化管理系統(tǒng),實現(xiàn)設(shè)備上下架審批流程化,空間占用統(tǒng)計電子化、自動化。每個機柜的設(shè)備上架和空間占用情況一目了然。通過對資產(chǎn)條狀態(tài)燈的識別和判斷,一眼就可以識別哪個位置空間已經(jīng)被占用、哪個位置可以上架。
3. 庫存管理精細化。通過庫存管理系統(tǒng),輔以日常出入庫登記和審批,并定期盤點,實現(xiàn)各類輔材、運維工具的定位、定量管理。備件庫房門禁管理,內(nèi)部無死角攝像頭監(jiān)控,重要儀器儀表分門別類擺放并登記在冊。
4. 風險管理精細化。風險管理的精細化,體現(xiàn)在對各類流程的不斷優(yōu)化和梳理,通過對每個環(huán)節(jié)的細化推敲,逐步降低潛在的風險。眾所周知,柴發(fā)是數(shù)據(jù)中心不可忽略的后備支援力量,一旦市電中斷,柴發(fā)必須能夠在最短的時間內(nèi)順利啟動。為保障柴發(fā)能夠應(yīng)急啟動,需要每個月定期空載啟動測試、每個季度帶載演練。為確保帶載演練的真實性,滿足真實災(zāi)備需求,數(shù)據(jù)中心維護團隊每季度會開展雙路市電故障場景下的柴發(fā)模擬切換演練。該演練帶有一定的風險性,常規(guī)做法下,很多數(shù)據(jù)中心都是直接逐步切斷兩路高壓市電進行演練,可想而知,在這樣的場景下,無疑人為地制造了一年四次的雙路市電中斷風險。廈門國際銀行數(shù)據(jù)中心運維團隊始終保持敬畏心,通過對整個演練流程不斷觀察和分析后,最終優(yōu)化到先保證一路UPS可靠帶載的情況下,又能真實模擬高壓市電故障的情況,做到既貼近真實災(zāi)備故障場景,又最大程度做到風險可控,避免因為演練造成真實的故障悲劇。
隨著廈門國際銀行數(shù)據(jù)中心不斷發(fā)展,下一步,廈門國際銀行科技運維部將繼續(xù)做好數(shù)據(jù)中心規(guī)范化、精細化管理,通過對運維流程和經(jīng)驗不斷梳理總結(jié),發(fā)掘并降低數(shù)據(jù)中心潛在風險,實現(xiàn)科學化管理,為銀行金融科技數(shù)字化智慧轉(zhuǎn)型奠定穩(wěn)固的基礎(chǔ)磐石。
本文標題:金融數(shù)據(jù)中心建設(shè)與管理實踐思考
本文鏈接:http://www.yangziriver.cn/faq3/636.html [版權(quán)聲明]除非特別標注,否則均為本站原創(chuàng)文章,轉(zhuǎn)載時請以鏈接形式注明文章出處。