国产成人精品自在线拍,公交车上~嗯啊被高潮,丰满少妇被猛烈进av毛片,国产av综合第一页,丰满少妇猛烈a片免费看观看

AI化革命:大廠如何重新定義數(shù)據(jù)中心的未來

作者:蘭洋科技????瀏覽量:4516????時(shí)間:2023年10月10日????標(biāo)簽:

數(shù)據(jù)中心在現(xiàn)代社會(huì)扮演著至關(guān)重要的角色,它們是數(shù)字化時(shí)代的神經(jīng)中樞,支持著云計(jì)算、大數(shù)據(jù)人工智能等技術(shù)的快速發(fā)展。在傳統(tǒng)的數(shù)據(jù)中心中,冷空氣通過充斥著計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)系統(tǒng)的機(jī)架被加熱后,通過冷卻設(shè)施捕獲并排出。

但這僅適用于傳統(tǒng)的數(shù)據(jù)中心,隨著計(jì)算需求的不斷增加,傳統(tǒng)數(shù)據(jù)中心面臨著巨大的挑戰(zhàn),包括能源效率、資源優(yōu)化以及冷卻問題。鋪天蓋地的 AI 大模型時(shí)代,當(dāng)著手部署用于訓(xùn)練AI 模型的系統(tǒng)的那一刻,GPU節(jié)點(diǎn)可以輕松消耗整個(gè)機(jī)架的功率,這迫使數(shù)據(jù)中心運(yùn)營商做出一些重大的設(shè)計(jì)改變。本文將探討人工智能如何改變數(shù)據(jù)中心建設(shè)和冷卻,以及其對數(shù)據(jù)中心行業(yè)的影響。

65.png

數(shù)據(jù)中心建設(shè)的革新

人工智能應(yīng)用通常需要大規(guī)模的高性能計(jì)算資源,包括GPU和TPU等加速器。因此,數(shù)據(jù)中心需要具備足夠的計(jì)算能力來支持這些應(yīng)用的訓(xùn)練和推理。這意味著數(shù)據(jù)中心需要更多的服務(wù)器和更強(qiáng)大的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,以確保高性能計(jì)算任務(wù)能夠順暢執(zhí)行。

特斯拉似乎已經(jīng)意識(shí)到了這一點(diǎn)。這家美國電動(dòng)汽車制造商正在尋找人員來幫助其建立“同類首個(gè)數(shù)據(jù)中心”。

近期,該公司表示正在尋找一名數(shù)據(jù)中心高級工程項(xiàng)目經(jīng)理,他將“領(lǐng)導(dǎo)特斯拉首個(gè)此類數(shù)據(jù)中心的端到端設(shè)計(jì)和工程,并將成為特斯拉數(shù)據(jù)中心的關(guān)鍵成員之一”。

目前尚不清楚所謂的“同類首個(gè)數(shù)據(jù)中心”是什么意思,推測它可能與去年在 Hot Chips 上展示的定制 Dojo AI 加速器有關(guān)。

特斯拉計(jì)劃從現(xiàn)在到 2024 年底向該項(xiàng)目投入超過 10 億美元,以加速其自動(dòng)駕駛軟件的開發(fā)。整個(gè)系統(tǒng)的運(yùn)算能力可能超過 100 exaFLOPS,預(yù)計(jì)相當(dāng)于 BF16 的性能。這意味著特斯拉必須找到能夠容納該設(shè)備的地方。

然而,構(gòu)建和管理一個(gè)能夠提供足夠電力和冷卻以保持 AI 加速器正常運(yùn)轉(zhuǎn)的設(shè)施可能是一場噩夢。

Dojo 是一臺(tái)可組合的超級計(jì)算機(jī),完全由特斯拉內(nèi)部開發(fā)。從計(jì)算、網(wǎng)絡(luò)、IO,到指令集架構(gòu)、電力傳輸、封裝和冷卻,一切都是定制的,目的是加速特斯拉的機(jī)器學(xué)習(xí)算法。

該系統(tǒng)的基本構(gòu)建模塊是特斯拉的 D1 小芯片,其中 25 個(gè)使用臺(tái)積電的晶圓系統(tǒng)技術(shù)封裝到Dojo 訓(xùn)練模塊中??偠灾?,這個(gè)半立方英尺的系統(tǒng)具有 11GB SRAM、9TB/s 的結(jié)構(gòu)連接,并且可以管理 9 petaFLOPS 的 BF16 性能。

將所有性能塞進(jìn)如此緊湊的外形尺寸已經(jīng)帶來一些挑戰(zhàn)了,例如如何為單個(gè) 15kW 加速器提供動(dòng)力和冷卻,更不用說構(gòu)成 1 exaFLOPS Dojo V1 系統(tǒng)的 6個(gè)加速器了。這還只是加速器,你還需要為所有用于通過加速器提供和協(xié)調(diào)數(shù)據(jù)流的支持系統(tǒng)提供動(dòng)力和冷卻。

然后是高速網(wǎng)格的問題,這可能會(huì)限制這些模塊的部署方式。在這些速度下,將它們包裝得越緊密越好,但熱負(fù)荷也越大。因此,如果特斯拉完全放棄使用傳統(tǒng)機(jī)架的想法而轉(zhuǎn)而采用全新的東西,也就不足為奇了。

無論該系統(tǒng)最終采用何種形式,有一點(diǎn)是肯定的:無論特斯拉決定在哪里部署該系統(tǒng),都將需要超級計(jì)算水平的冷卻能力。

數(shù)據(jù)中心冷卻的重要性

數(shù)據(jù)中心冷卻是現(xiàn)代 IT 基礎(chǔ)設(shè)施中的一個(gè)關(guān)鍵問題,推動(dòng)了創(chuàng)新系統(tǒng)和解決方案的發(fā)展,涉及空調(diào)、水冷技術(shù)和其他基于液體的機(jī)制,以確保最佳性能和能源效率。由于冷卻系統(tǒng)約占數(shù)據(jù)中心總能耗的 40%,因此成本也是一個(gè)關(guān)鍵考慮因素。數(shù)據(jù)中心冷卻在維持系統(tǒng)性能方面發(fā)揮著至關(guān)重要的作用。

什么是數(shù)據(jù)中心冷卻?

數(shù)據(jù)中心冷卻是指用于調(diào)節(jié)數(shù)據(jù)中心設(shè)施內(nèi)的溫度、濕度和氣流的設(shè)備、系統(tǒng)、方法和技術(shù)。由于數(shù)據(jù)中心通常容納數(shù)千臺(tái)服務(wù)器、IT 設(shè)備和其他產(chǎn)生大量熱量的電子設(shè)備,因此適當(dāng)?shù)睦鋮s對于保持最佳性能和防止過熱至關(guān)重要。

數(shù)據(jù)中心冷卻的目的是什么?

數(shù)據(jù)中心的冷卻系統(tǒng)用于將服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)硬件和各種其他設(shè)備運(yùn)行時(shí)產(chǎn)生的熱量散出去。這種熱量以溫度的形式測量,是在電能轉(zhuǎn)化為熱能時(shí)產(chǎn)生的,這一過程是由于電子元件效率低下而發(fā)生的。

除了管理熱量外,數(shù)據(jù)中心冷卻系統(tǒng)還可以維持設(shè)施內(nèi)適當(dāng)?shù)臐穸人健_@樣可以防止靜電和冷凝的積聚,這兩個(gè)因素都會(huì)對電子設(shè)備造成重大損壞。

數(shù)據(jù)中心冷卻的主要目的是維持適合IT設(shè)備運(yùn)行的環(huán)境條件。行業(yè)組織ASHRAE建議數(shù)據(jù)中心的溫度保持在 18°C 至 27°C范圍內(nèi)。ASHRAE 還建議數(shù)據(jù)中心的濕度水平應(yīng)在 40% 至 60% 的范圍內(nèi),具體取決于具體的設(shè)備和配置。

為什么數(shù)據(jù)中心冷卻很重要?

數(shù)據(jù)中心冷卻之所以重要,原因有很多,包括性能、防止停機(jī)、設(shè)備壽命和能源效率等:

  • 性能

數(shù)據(jù)中心的過熱會(huì)產(chǎn)生“熱點(diǎn)”,導(dǎo)致處理器和內(nèi)存等服務(wù)器組件出現(xiàn)故障。過熱時(shí),計(jì)算機(jī)系統(tǒng)可能會(huì)變慢、凍結(jié),甚至遭受永久性的硬件損壞。適當(dāng)?shù)睦鋮s可以使系統(tǒng)能夠保持最佳性能和服務(wù)器的板載邏輯。

  • 防止停機(jī)

過熱可能會(huì)導(dǎo)致系統(tǒng)故障并導(dǎo)致停機(jī)。在數(shù)據(jù)中心,停機(jī)不僅會(huì)造成破壞,而且代價(jià)高昂。實(shí)施適當(dāng)?shù)?a href="http://www.yangziriver.cn/tags/195.html">冷卻技術(shù)有助于防止此類問題。

  • 設(shè)備壽命

長時(shí)間暴露在高溫下會(huì)縮短硬件的使用壽命。相反,保持涼爽的環(huán)境可以延長設(shè)備的使用壽命。還需要注意的是,濕度過高會(huì)對設(shè)備造成損害。當(dāng)潮濕的灰塵顆粒粘附在電氣元件上時(shí),會(huì)減少熱傳遞,甚至?xí)?dǎo)致腐蝕。

  • 能源效率

高效的冷卻系統(tǒng)消耗更少的能源和水,使其更加環(huán)保且更具成本效益。傳統(tǒng)的“機(jī)械”數(shù)據(jù)中心冷卻方法(例如空調(diào))可能非常耗能并消耗大量的水。因此,采用使用較少能源或水的現(xiàn)代冷卻解決方案對于降低運(yùn)營電力成本特別有利。

人工智能已經(jīng)在改變數(shù)據(jù)中心的面貌

人工智能基礎(chǔ)設(shè)施提出的冷卻和電力要求已經(jīng)促使一些大型超大規(guī)模企業(yè)和數(shù)據(jù)中心運(yùn)營商重新評估他們?nèi)绾螛?gòu)建數(shù)據(jù)中心。

Facebook 母公司 Meta 也是推動(dòng)這些變革的公司之一。該公司在人工智能研發(fā)方面投入巨資,去年使用了由 16,000 個(gè) 英偉達(dá)A100 GPU 組成的人工智能超級計(jì)算機(jī)。

在去年的 OCP 峰會(huì)上,Meta展示了其 Grand Teton AI 訓(xùn)練平臺(tái)以及 Open Rack v3 (ORV3) 規(guī)范,該規(guī)范旨在適應(yīng)系統(tǒng)的更高功率和熱負(fù)載。例如,根據(jù) Meta 的規(guī)范,單個(gè)母線可以支持 30kW 的機(jī)架。

Meta的基礎(chǔ)設(shè)施副總裁Alexis Bjorlin在博客中寫道:“ORV3生態(tài)系統(tǒng)可以適應(yīng)幾種不同形式的液冷策略,包括空氣輔助液體冷卻和設(shè)施水冷卻?!薄拔覀兛吹剑β授厔菡谠黾樱瑢?a href="http://www.yangziriver.cn/">液冷技術(shù)的需求正在迫使我們對平臺(tái)、機(jī)架、電源和數(shù)據(jù)中心設(shè)計(jì)的所有元素進(jìn)行不同的思考?!?/p>

在博客發(fā)表后不久,Meta取消了兩個(gè)荷蘭數(shù)據(jù)中心,并宣布將重新設(shè)計(jì)位于阿拉巴馬州亨茨維爾的第三個(gè)數(shù)據(jù)中心,該公司將其稱為“人工智能戰(zhàn)略投資”。

數(shù)據(jù)中心冷卻的演進(jìn)

傳統(tǒng)的數(shù)據(jù)中心冷卻方法通常依賴于大型制冷設(shè)備,這些設(shè)備耗能巨大,導(dǎo)致高昂的運(yùn)營成本。其次,這些設(shè)備需要占用大量物理空間,從而限制了數(shù)據(jù)中心內(nèi)部服務(wù)器和存儲(chǔ)設(shè)備的部署密度,增加了建設(shè)和運(yùn)營成本。此外,高密度計(jì)算設(shè)備的普及導(dǎo)致了過熱問題,傳統(tǒng)冷卻系統(tǒng)則難以有效地處理這一挑戰(zhàn)。同時(shí),它們還會(huì)對環(huán)境造成負(fù)面影響,如碳排放和水資源消耗,不符合可持續(xù)性原則。

01.png

空氣輔助液體冷卻成為焦點(diǎn)

Meta等大公司正在投資的關(guān)鍵技術(shù)之一是空氣輔助液體冷卻。

與多年來在 HPE Cray、Atos 和聯(lián)想超級計(jì)算機(jī)中看到的全液冷基礎(chǔ)設(shè)施不同。該技術(shù)大量使用后門熱交換器 (RDHx),以減少支持熱運(yùn)行芯片所需的全設(shè)施基礎(chǔ)設(shè)施投資。

RDHx 真的很簡單,相當(dāng)于一個(gè)機(jī)架大小的散熱器和一些大風(fēng)扇。該技術(shù)因其靈活性而受到很多青睞,這使得它可以部署在支持機(jī)架級液體冷卻所需管道的設(shè)施中。

在 Meta 的案例中,該公司將 RDHx 視為一種更有效地消除系統(tǒng)熱量的方法。據(jù)了解,該實(shí)施涉及直接液冷 (DLC) 服務(wù)器,該服務(wù)器通過管道連接到機(jī)架內(nèi)儲(chǔ)液器和泵,推動(dòng)加熱的冷卻劑通過 RDHx,系統(tǒng)中的熱量在 RDHx 中排出到熱通道。

在這種配置中,RDHx 的功能很像游戲 PC 中的定制水冷回路,但它不是冷卻一個(gè)系統(tǒng),而是冷卻整個(gè)機(jī)架。

RDHx 也可用于空氣冷卻。在這種配置下,冷設(shè)施水通過 RDHx 泵送。當(dāng)熱空氣從空氣冷卻系統(tǒng)的后部排出時(shí),熱量被散熱器吸收。Meta 去年 10 月發(fā)表了一篇關(guān)于該技術(shù)可行性的完整論文。

這種方法的最大好處之一,特別是對于托管服務(wù)器而言,是它不要求客戶在準(zhǔn)備好之前就接受 DLC,并且對于他們支持液體冷卻行業(yè)中不會(huì)相互沖突。

隨著技術(shù)的不斷發(fā)展,我們可以期待新型冷卻技術(shù)的涌現(xiàn),如量子冷卻等。這些技術(shù)將進(jìn)一步降低能源消耗,提高可持續(xù)性。

在人工智能的時(shí)代下,數(shù)據(jù)中心建設(shè)和冷卻技術(shù)的演進(jìn)正共同塑造著數(shù)字化世界的未來。人工智能時(shí)代不僅催生了數(shù)據(jù)中心建設(shè)方面的創(chuàng)新和改變,也對數(shù)據(jù)中心冷卻技術(shù)提出了挑戰(zhàn),這兩者相輔相成,不斷演進(jìn),以滿足巨大的計(jì)算需求和可持續(xù)性標(biāo)準(zhǔn)。

本文標(biāo)題:AI化革命:大廠如何重新定義數(shù)據(jù)中心的未來

本文鏈接:http://www.yangziriver.cn/faq3/891.html
[版權(quán)聲明]除非特別標(biāo)注,否則均為本站原創(chuàng)文章,轉(zhuǎn)載時(shí)請以鏈接形式注明文章出處。

全國統(tǒng)一服務(wù)熱線
15336679905
Copyright ?2019-2023 蘭洋(寧波)科技有限公司 版權(quán)所有
ICP備案:浙ICP備2021021247號(hào)