AI有望以多種方式改變數(shù)據(jù)中心,例如改變數(shù)據(jù)中心就業(yè)市場以及改進數(shù)據(jù)中心監(jiān)控和事件響應操作。
然而,AI可能對數(shù)據(jù)中心產生的最大影響是改變數(shù)據(jù)中心的工作方式。對于那些想要充分利用現(xiàn)代AI技術的企業(yè)來說,數(shù)據(jù)中心所容納的基礎設施及其管理方式必須有所改變。
AI將會引發(fā)數(shù)據(jù)中心怎樣的發(fā)展還有待觀察,但以下是一些值得期待的關鍵變化。
AI對數(shù)據(jù)中心的獨特需求
要評估AI對數(shù)據(jù)中心的影響,你必須首先了解的是AI工作負載與數(shù)據(jù)中心中其他類型的工作負載(例如標準應用托管)之間有什么不同。
雖然AI工作負載有很多形式且要求各異,但大多數(shù)都滿足以下的獨特需求:
需要大量的計算資源,尤其是在執(zhí)行模型訓練的時候。
資源消耗率可能會大幅波動。在訓練階段,AI工作負載需要大量的資源,但訓練完成之后,大多數(shù)情況下資源消耗會顯著下降,直到再一次訓練模型。
需要超低延遲的網絡才能實時做出決策并交付結果。
當然,其他類型的工作負載也可能有這些要求,例如,運行AI應用和服務并不是唯一可以從裸機服務器中受益的用例,但總的來說,AI軟件要比其他類型的工作負載需要更多上述資源。
為了AI升級數(shù)據(jù)中心
為了優(yōu)化AI工作負載的設施,許多數(shù)據(jù)中心運營商需要做出改變,以滿足AI獨特的需求。以下是數(shù)據(jù)中心在這方面的關鍵升級。
重新設計或更換裸機服務器
至少在過去十年中,虛擬機一直是托管工作負載的首選基礎設施資源。但考慮到AI應用和服務對于裸機硬件的需求,有越來越多的數(shù)據(jù)中心運營商可能會發(fā)現(xiàn)擴展裸機產品變得十分重要。
在某些方面,這實際上是簡化了數(shù)據(jù)中心的運營。如果你在裸機上運行工作負載,最終會得到一個不太復雜的托管堆棧,因為你沒有混合使用虛擬機管理程序和虛擬機編排器。
另一方面,擴展用于托管工作負載的裸機基礎設施可能需要數(shù)據(jù)中心對托管的服務器以及服務器所在的機架進行更新升級。傳統(tǒng)上看,在數(shù)據(jù)中心設置服務器的最簡單方法,就是配置非常強大的裸機機器,然后根據(jù)工作負載的需求將其分配到任意數(shù)量的虛擬機中。但如果你需要直接在裸機上運行工作負載,那么則可能需要更多的服務器來隔離工作負載——這意味著數(shù)據(jù)中心必須將高功率服務器更換為較小的服務器,并且可能要相應地更新服務器機架。
共享支持GPU的服務器
盡管在AI工作負載進行訓練的時候,使用支持GPU的服務器是有利的,但AI應用不一定需要GPU來進行日常操作。因此,許多企業(yè)只需要臨時訪問支持GPU的基礎設施即可。
為了滿足這一需求,數(shù)據(jù)中心運營商應該考慮那些讓企業(yè)能夠共享基于GPU的基礎設施的產品。少數(shù)企業(yè)可能希望擁有配備GPU的服務器,因為他們并不會永遠都需要這種服務器。但如果數(shù)據(jù)中心運營商能夠臨時提供對GPU資源的訪問(例如通過GPU即服務的模式),那么他們就能夠更好地吸引那些有AI工作負載需求的企業(yè)。
增強的網絡解決方案
大多數(shù)企業(yè)級數(shù)據(jù)中心已經提供了對高性能網絡基礎設施的訪問,以及有助于盡快將數(shù)據(jù)移動到外部設施的互連。但為了充分利用AI,數(shù)據(jù)中心網絡產品可能需要變得更加強大。
那些擁有AI工作負載的企業(yè)需要兩個關鍵功能:首先,高帶寬網絡連接,可以非??焖俚匾苿哟罅繑?shù)據(jù),這在分布式基礎設施上訓練AI模型的時候尤其重要。其次,網絡能夠提供個位數(shù)的延遲,如果你希望AI應用和服務真正做到實時執(zhí)行,這一點至關重要。
更高的數(shù)據(jù)中心靈活性
由于AI工作負載的資源需求波動很大,因此可能需要在支持基礎設施數(shù)量方面更加靈活的數(shù)據(jù)中心。AI還可能讓人們更加需要能夠讓企業(yè)在其他數(shù)據(jù)中心內按需部署服務器、而不是自己設置這些服務器的服務,因為按需基礎設施是解決資源需求波動的一個好方法。
為此,那些想要優(yōu)化AI的數(shù)據(jù)中心運營商應該考慮使其設施更加靈活的產品。短期合同,和那些不僅僅包括了客戶可以建立自己基礎設施的機架空間服務,二者的結合可能對于那些需要部署AI工作負載的組織來說是有吸引力的。
結論
AI變革仍在上演,現(xiàn)在想要確切地知道AI將如何改變數(shù)據(jù)中心的運營方式或者其中部署的基礎設施類型,還為時過早。但可以相對肯定地是,支持GPU的服務器和更靈活的解決方案等變化,可能在以AI為中心的世界中變得至關重要。想要分一杯羹的數(shù)據(jù)中心運營商應該確保更新他們的設施,以滿足AI工作負載的獨特要求。
本文標題:針對AI工作負載優(yōu)化數(shù)據(jù)中心的四種方法
本文鏈接:http://www.yangziriver.cn/faq3/1088.html [版權聲明]除非特別標注,否則均為本站原創(chuàng)文章,轉載時請以鏈接形式注明文章出處。