前沿拓展:
電腦功耗軟件
呵呵,下載財控武每行出眼個魯**,挺好用的。我就在用,不僅僅掛機(jī),平時玩的時候也能自動調(diào)整保護(hù)電腦硬件。
HBM3 為顯著加快內(nèi)存和處理器之間的數(shù)據(jù)移動打開了大門,降低了發(fā)送和接收信號所需的功率,并提高了需要高數(shù)據(jù)吞吐量的系統(tǒng)性能。但是使用這種內(nèi)存既昂貴又復(fù)雜,而且這種情況在短期內(nèi)可能會繼續(xù)存在。
HBM3是 JEDEC 開發(fā)的 HBM 規(guī)范的最新補(bǔ)充,用于在單個模塊內(nèi)堆疊 DRAM 層。它于 2022 年 1 月推出,被視為 2.5D 封裝的重大改進(jìn)。但 HBM3 仍然很昂貴,部分原因是內(nèi)存本身的價格,以及硅中介層等其他組件的成本以及開發(fā) 2.5D 設(shè)計所需的工程。這限制了它在容量最大的設(shè)計或價格不敏感的應(yīng)用程序(例如數(shù)據(jù)中心的服務(wù)器)中的使用,在這些應(yīng)用程序中,內(nèi)存的成本可以通過更多和更寬的數(shù)據(jù)通道以及更少的功耗來提高性能來抵消在處理元件和 DRAM 之間來回驅(qū)動信號。
這有助于解釋為什么 HBM3 第一出現(xiàn)在英偉達(dá)的“Hopper”H100 企業(yè)級 GPU 中,緊隨其后的是英特爾和AMD的產(chǎn)品。HBM3 在 HBM2E 的基礎(chǔ)上提供了多項增強(qiáng)功能,最顯著的是將 HBM2E 的帶寬從 3.6 Gbps 翻倍到 HBM3 的6.4Gbps,或者每個設(shè)備的帶寬為 819 Gbps。
“帶寬是支持更大計算引擎所需要的,”AMD 客戶端PC 業(yè)務(wù)高級副總裁CTO Joe Macri 說?!叭绻憧纯次覀冋诮鉀Q的許多問題,它們都非常占用帶寬,無論是機(jī)器學(xué)習(xí)還是 HPC 類型的解決方案。因此,即使我們只選擇適度增加引擎尺寸,我們?nèi)匀粫膸捲黾又蝎@益匪淺。”
除了增加容量和速度之外,能源效率的提高也值得注意。HBM3 的核心電壓為 1.1V,而 HBM2E 的核心電壓為 1.2V。HBM3 還將 I/O 信號降低至 400mV,而 HBM2E 為 1.2V。后代也會有進(jìn)一步的改進(jìn)。
執(zhí)行副總裁 Jim Elliot 表示:“一旦進(jìn)入 10 納米時代,就必須考慮不同的縮小技術(shù)——例如高 K 金屬柵極——我們必須不斷增加內(nèi)存帶寬。”在最近的一次演示中,介紹了三星半導(dǎo)體的內(nèi)存產(chǎn)品?!坝械碗娮璨牧希驗槲覀儽仨毻黄?DRAM 組件的單元尺寸限制。還有寬帶隙材料,因為我們正在尋找 10 倍的泄漏改進(jìn),以及用于 DRAM 的 finFET,這將使我們能夠繼續(xù)將功率擴(kuò)展到 0.9 伏以上?!?/span>
圖 1:三星的新 HBM3。來源:三星
不過,這一切都不容易。制造這項技術(shù)和充分利用它都將面臨重大挑戰(zhàn)。與過去不同的是,當(dāng)一種先進(jìn)的架構(gòu)可以在數(shù)十億個單元中得到利用時,其中許多設(shè)計都是定制的。例如,在 AI 世界中,幾乎每個人都在構(gòu)建自己的定制 AI 訓(xùn)練芯片并專注于 HBM。它以兩種方式之一使用——作為系統(tǒng)中唯一的內(nèi)存,或與隨附的 DRAM 一起使用。
富士通基于 Arm 的 A64fx 是前者的一個例子。在 Fugaku 中使用,A64fx 曾一度是世界上最快的超級計算機(jī),在 CPU 旁邊的芯片上有 32GB 的 HBM2,但沒有其他系統(tǒng)內(nèi)存。其他產(chǎn)品,如 AMD Instinct、英偉達(dá)的 H100 GPU 以及英特爾的 CPU Max 和 GPU Max,都配備了 HBM 和標(biāo)準(zhǔn) DRAM,其中 HBM 就像 DRAM 的海量緩存。
第一大問題:熱量
使用 HBM 的最大挑戰(zhàn)是熱量。眾所周知,內(nèi)存和熱量不能并存,但 HBM3 將與世界上最熱的芯片和系統(tǒng)一起使用。例如,英偉達(dá)的 H100 的熱設(shè)計功率 (TDP) 限制為 700 瓦。
Macri 表示,橡樹嶺國家實驗室的超級計算機(jī) Frontier 是 Epyc CPU 和 Instinct GPU(使用 HBM2E)的混合體,需要 AMD 進(jìn)行一些創(chuàng)造性的負(fù)載平衡,以將溫度控制在限制范圍內(nèi)。
圖 2:Frontier 超級計算機(jī)。資料來源:橡樹嶺國家實驗室
Frontier 上的一些工作負(fù)載是內(nèi)存密集型的,一些是 CPU 密集型的,平衡工作負(fù)載以避免過熱是在芯片中完成的,而不是軟件?!坝幸恍┪⑻幚砥鳎鼈兊娜抗ぷ骶褪枪芾磉@些控制回路,使系統(tǒng)保持在最佳狀態(tài),”Macri 說。
Frontier 由 HPE 的 Cray 部門與 AMD 合作構(gòu)建,用于管理熱量的負(fù)載平衡在系統(tǒng)設(shè)計級別處理。“我們共同設(shè)計了解決方案,”他說,“根據(jù)正在進(jìn)行的工作進(jìn)行動態(tài)**作以產(chǎn)生最佳性能。”
Rambus 產(chǎn)品管理高級總監(jiān) Frank Ferro 表示,HBM 和控制器中的硬件功能允許它節(jié)流內(nèi)存并將其置于不同的性能狀態(tài),甚至轉(zhuǎn)移到較低的頻率?!叭绻抢镩_始成為熱點,而你想降低頻率或降低功率并將內(nèi)存置于空閑模式,這些基本上都在 IP 級別和 DRAM 級別。在 DRAM 級別,你擁有這種能力,但如何使用它取決于系統(tǒng)架構(gòu)師。”
密度限制
HBM3 面臨的第二個熱挑戰(zhàn)來自內(nèi)存本身。與 HBM2E 的 12 層限制相比,HBM3 標(biāo)準(zhǔn)允許多達(dá) 16 層。但馬克里認(rèn)為,由于高溫,它會停在 12 層。盡管如此,對于定制設(shè)計,這可能因供應(yīng)商而異,也可能因用例而異。
堆疊中底部的 DRAM 具有最高的熱阻,這是堆疊的主要限制因素。HBM 使用微凸塊連接不同的 DRAM 芯片,微凸塊有其缺點。隨著內(nèi)存產(chǎn)生熱量,熱量會在每一層積聚,而微凸起無法有效地將熱量散發(fā)出去。這反過來又限制了 DRAM 的實際層數(shù)。因此,即使 HBM3 可以支持 16 層,在大多數(shù)情況下也會使用更少的層。
DRAM 的每一層都需要自己的電力傳輸,并且需要足夠的電力才能獲得足夠的性能。推動電力傳輸會增加每一層的熱量。
現(xiàn)狀
為 2.5D HBM 中介層一直保持在 2.5D,并不是因為熱挑戰(zhàn)。2.5D 設(shè)計是內(nèi)存位于處理器旁邊的原因。在真正的 3D 設(shè)計中,內(nèi)存位于 CPU/GPU 之上并直接與芯片通信。CPU 最高可達(dá) 300 瓦,GPU 最高可達(dá) 700 瓦,熱量太大了。
“挑戰(zhàn)在于,如果你產(chǎn)生大量熱量,你就會遇到微凸起的頂部,這些凸起確實不能很好地將熱量傳遞出去。這就是幾乎每個人都采用 2.5D 的原因,因為微點技術(shù)確實限制了您可以投入到它下面的芯片中的功率,”Macri 說。
其中一些將改變 3D-IC 的實現(xiàn)?!叭绻闶?3D 的,這個物理層會變得不那么復(fù)雜,所以有很多優(yōu)勢,”Ferro 說。“你擺脫了中介層。芯片之間的物理接口變得不那么復(fù)雜,因為您不需要通過另一種介質(zhì)進(jìn)行連接。所以有很多優(yōu)勢,但也有很多挑戰(zhàn)?!?/span>
例如,使用現(xiàn)有技術(shù)冷卻 3D-IC 很困難,因為位于芯片頂部的內(nèi)存實際上隔離了其下方的 ASIC 或 GPU。在平面 SoC 中,熱量由硅本身散發(fā)。但在 3D-IC 中,需要使用更精細(xì)的方法,部分原因是熱量可能被困在層之間,部分原因是這些設(shè)備中使用的減薄芯片無法消散太多熱量。
“當(dāng)你把內(nèi)存芯片堆棧放在GPU頂部的那一刻,GPU的熱量需要在它消散之前或碰到冷板之前穿過內(nèi)存。所以你現(xiàn)在突然遇到了一個不同的挑戰(zhàn),”美光科技 HPM 產(chǎn)品管理高級總監(jiān) Girish Cherussery 說?!拔艺J(rèn)為我不會看到采用現(xiàn)有 HBM 并將其直接堆疊在 GPU 或 ASIC 之上的東西,這些東西會消耗 400、500 瓦的功率。但它會在未來發(fā)生嗎?這是一個可以實現(xiàn)的解決方案。”
Dunking chips
這是一個更大的問題和挑戰(zhàn)的一部分,即如何讓這些數(shù)據(jù)中心保持涼爽和節(jié)能,而散熱解決方案是保持環(huán)境可持續(xù)發(fā)展的瓶頸之一?!敖胧嚼鋮s似乎是業(yè)界正在關(guān)注的解決方案之一,”Cherussery 指出。
浸入式冷卻可能是唯一真正的解決方案,因為它不像空氣和液體冷卻那樣使用冷卻板。它涉及將主板連同 CPU 和內(nèi)存一起浸入非導(dǎo)電的辯證流體(通常是礦物油)中,只有 NIC、U** 和其他端口從流體中伸出。
這在數(shù)據(jù)中心尤為重要,服務(wù)器冷卻機(jī)架每年可能花費(fèi)數(shù)百萬美元。美國數(shù)據(jù)中心的平均電源使用效率 (PUE) 評級約為 1.5。分?jǐn)?shù)越低,數(shù)據(jù)中心的效率越高,但不能低于 1.0。高于 1.0 的每一點都是用于冷卻數(shù)據(jù)中心的功率,因此在 PUE 為 1.5 時,數(shù)據(jù)中心在冷卻上花費(fèi)了總功率的一半。
沉浸可以非常有效。**數(shù)據(jù)中心的 PUE 評級為 1.01。液冷數(shù)據(jù)中心已降至 1.1 范圍,但 1.01 是聞所未聞的。該數(shù)據(jù)中心僅使用其 1% 的功率用于冷卻。
浸入式冷卻長期以來一直處于冷卻技術(shù)的邊緣,只在極端情況下使用,但它正在慢慢成為主流。**數(shù)據(jù)中心背后的公司 LiquidStack 獲得了一些風(fēng)險投資資金,微軟已經(jīng)記錄了其在一個數(shù)據(jù)中心對 LliquidStack 產(chǎn)品進(jìn)行的實驗。微軟提高了電源使用效率,但它也發(fā)現(xiàn)它可以在不損壞芯片的情況下對芯片進(jìn)行超頻。因此,未來真正 3D 堆疊 HBM 的路徑很有可能是通過裝滿礦物油的油箱。
供應(yīng)商之間的差異
Macri 指出,DRAM 供應(yīng)商正在相互競爭,就像 SoC 供應(yīng)商一樣,這意味著一些 HBM 功耗較低,而一些則功耗較高?!暗教幎加泻芎玫母偁?。這很重要,因為它推動創(chuàng)新,”他說。這種回旋余地也會導(dǎo)致問題。他說,在指定功率方面沒有標(biāo)準(zhǔn)。每個 DRAM 制造商都在想出設(shè)計內(nèi)存的最佳方法,以實現(xiàn)最佳最終結(jié)果,其中功率和價格是關(guān)鍵變量?!案玫臇|西比不太好的東西成本更高,這也很重要,因為有不同的系統(tǒng)目標(biāo),這取決于公司和他們使用它的目的,”Macri 說。但是,DRAM 本身確實符合 JEDEC 標(biāo)準(zhǔn)。因此從理論上講,您應(yīng)該能夠從一家供應(yīng)商處獲取 DRAM 并將其替換為另一家供應(yīng)商,從而限制這種差異?!拔覀兯龅氖虑橛泻芏嘀丿B和相似之處嗎?當(dāng)然,”費(fèi)羅說。“它們完全一樣嗎?也許有點不同,但并沒有本質(zhì)上的不同。你必須與每個供應(yīng)商一起完成這個過程,因為可能會有一點差異。”
自 HBM2E 以來,可測試性和 RAS(可靠性、可用性、可擴(kuò)展性)能力有了顯著提高。HBM3 還處理在 DRAM 中具有片上 ECC 的需求,只是為了使 DRAM 非??煽?。“這非常重要,因為產(chǎn)生的任何錯誤都需要您返回或修復(fù)它,這會增加延遲,”他說。
其他挑戰(zhàn)
由于 HBM 暫時與 2.5D 并列,這增加了內(nèi)存的大小限制。SoC 的尺寸,加上 HBM 芯片的數(shù)量,加起來需要更大的散熱面積。
“這是我們應(yīng)對的另一個挑戰(zhàn),”Ferro 說?!澳悴荒茏兇?。所以我們必須非常注意確保我們的寬高比是正確的,并且我們不會超過任何這些尺寸限制?!?/span>
在使用 HBM 時,您想利用其最大的屬性,即帶寬。但是利用該帶寬進(jìn)行設(shè)計并不容易?!澳阈枰浅C芗母↑c單元,這很有挑戰(zhàn)性,”Macri 說?!癉RAM 不喜歡隨機(jī)訪問。所以你想設(shè)計你的參考板,使其對 HBM 非常友好。你要從中提取最大的效率,這非常困難?!?/span>
結(jié)論
HBM3 對 HBM2E 標(biāo)準(zhǔn)進(jìn)行了多項改進(jìn)。有些是預(yù)期的(帶寬增加),有些是意外的(RAS 改進(jìn)、更新的時鐘方法)??偠灾聵?biāo)準(zhǔn)為用戶提供了對下一代 SoC 的 HBM 內(nèi)存的重大改進(jìn)。但至少到目前為止,它不是一個即插即用的解決方案。
拓展知識:
前沿拓展:
電腦功耗軟件
呵呵,下載財控武每行出眼個魯**,挺好用的。我就在用,不僅僅掛機(jī),平時玩的時候也能自動調(diào)整保護(hù)電腦硬件。
HBM3 為顯著加快內(nèi)存和處理器之間的數(shù)據(jù)移動打開了大門,降低了發(fā)送和接收信號所需的功率,并提高了需要高數(shù)據(jù)吞吐量的系統(tǒng)性能。但是使用這種內(nèi)存既昂貴又復(fù)雜,而且這種情況在短期內(nèi)可能會繼續(xù)存在。
HBM3是 JEDEC 開發(fā)的 HBM 規(guī)范的最新補(bǔ)充,用于在單個模塊內(nèi)堆疊 DRAM 層。它于 2022 年 1 月推出,被視為 2.5D 封裝的重大改進(jìn)。但 HBM3 仍然很昂貴,部分原因是內(nèi)存本身的價格,以及硅中介層等其他組件的成本以及開發(fā) 2.5D 設(shè)計所需的工程。這限制了它在容量最大的設(shè)計或價格不敏感的應(yīng)用程序(例如數(shù)據(jù)中心的服務(wù)器)中的使用,在這些應(yīng)用程序中,內(nèi)存的成本可以通過更多和更寬的數(shù)據(jù)通道以及更少的功耗來提高性能來抵消在處理元件和 DRAM 之間來回驅(qū)動信號。
這有助于解釋為什么 HBM3 第一出現(xiàn)在英偉達(dá)的“Hopper”H100 企業(yè)級 GPU 中,緊隨其后的是英特爾和AMD的產(chǎn)品。HBM3 在 HBM2E 的基礎(chǔ)上提供了多項增強(qiáng)功能,最顯著的是將 HBM2E 的帶寬從 3.6 Gbps 翻倍到 HBM3 的6.4Gbps,或者每個設(shè)備的帶寬為 819 Gbps。
“帶寬是支持更大計算引擎所需要的,”AMD 客戶端PC 業(yè)務(wù)高級副總裁CTO Joe Macri 說?!叭绻憧纯次覀冋诮鉀Q的許多問題,它們都非常占用帶寬,無論是機(jī)器學(xué)習(xí)還是 HPC 類型的解決方案。因此,即使我們只選擇適度增加引擎尺寸,我們?nèi)匀粫膸捲黾又蝎@益匪淺。”
除了增加容量和速度之外,能源效率的提高也值得注意。HBM3 的核心電壓為 1.1V,而 HBM2E 的核心電壓為 1.2V。HBM3 還將 I/O 信號降低至 400mV,而 HBM2E 為 1.2V。后代也會有進(jìn)一步的改進(jìn)。
執(zhí)行副總裁 Jim Elliot 表示:“一旦進(jìn)入 10 納米時代,就必須考慮不同的縮小技術(shù)——例如高 K 金屬柵極——我們必須不斷增加內(nèi)存帶寬。”在最近的一次演示中,介紹了三星半導(dǎo)體的內(nèi)存產(chǎn)品?!坝械碗娮璨牧?,因為我們必須突破 DRAM 組件的單元尺寸限制。還有寬帶隙材料,因為我們正在尋找 10 倍的泄漏改進(jìn),以及用于 DRAM 的 finFET,這將使我們能夠繼續(xù)將功率擴(kuò)展到 0.9 伏以上?!?/span>
圖 1:三星的新 HBM3。來源:三星
不過,這一切都不容易。制造這項技術(shù)和充分利用它都將面臨重大挑戰(zhàn)。與過去不同的是,當(dāng)一種先進(jìn)的架構(gòu)可以在數(shù)十億個單元中得到利用時,其中許多設(shè)計都是定制的。例如,在 AI 世界中,幾乎每個人都在構(gòu)建自己的定制 AI 訓(xùn)練芯片并專注于 HBM。它以兩種方式之一使用——作為系統(tǒng)中唯一的內(nèi)存,或與隨附的 DRAM 一起使用。
富士通基于 Arm 的 A64fx 是前者的一個例子。在 Fugaku 中使用,A64fx 曾一度是世界上最快的超級計算機(jī),在 CPU 旁邊的芯片上有 32GB 的 HBM2,但沒有其他系統(tǒng)內(nèi)存。其他產(chǎn)品,如 AMD Instinct、英偉達(dá)的 H100 GPU 以及英特爾的 CPU Max 和 GPU Max,都配備了 HBM 和標(biāo)準(zhǔn) DRAM,其中 HBM 就像 DRAM 的海量緩存。
第一大問題:熱量
使用 HBM 的最大挑戰(zhàn)是熱量。眾所周知,內(nèi)存和熱量不能并存,但 HBM3 將與世界上最熱的芯片和系統(tǒng)一起使用。例如,英偉達(dá)的 H100 的熱設(shè)計功率 (TDP) 限制為 700 瓦。
Macri 表示,橡樹嶺國家實驗室的超級計算機(jī) Frontier 是 Epyc CPU 和 Instinct GPU(使用 HBM2E)的混合體,需要 AMD 進(jìn)行一些創(chuàng)造性的負(fù)載平衡,以將溫度控制在限制范圍內(nèi)。
圖 2:Frontier 超級計算機(jī)。資料來源:橡樹嶺國家實驗室
Frontier 上的一些工作負(fù)載是內(nèi)存密集型的,一些是 CPU 密集型的,平衡工作負(fù)載以避免過熱是在芯片中完成的,而不是軟件?!坝幸恍┪⑻幚砥?,它們的全部工作就是管理這些控制回路,使系統(tǒng)保持在最佳狀態(tài),”Macri 說。
Frontier 由 HPE 的 Cray 部門與 AMD 合作構(gòu)建,用于管理熱量的負(fù)載平衡在系統(tǒng)設(shè)計級別處理。“我們共同設(shè)計了解決方案,”他說,“根據(jù)正在進(jìn)行的工作進(jìn)行動態(tài)**作以產(chǎn)生最佳性能?!?/span>
Rambus 產(chǎn)品管理高級總監(jiān) Frank Ferro 表示,HBM 和控制器中的硬件功能允許它節(jié)流內(nèi)存并將其置于不同的性能狀態(tài),甚至轉(zhuǎn)移到較低的頻率?!叭绻抢镩_始成為熱點,而你想降低頻率或降低功率并將內(nèi)存置于空閑模式,這些基本上都在 IP 級別和 DRAM 級別。在 DRAM 級別,你擁有這種能力,但如何使用它取決于系統(tǒng)架構(gòu)師。”
密度限制
HBM3 面臨的第二個熱挑戰(zhàn)來自內(nèi)存本身。與 HBM2E 的 12 層限制相比,HBM3 標(biāo)準(zhǔn)允許多達(dá) 16 層。但馬克里認(rèn)為,由于高溫,它會停在 12 層。盡管如此,對于定制設(shè)計,這可能因供應(yīng)商而異,也可能因用例而異。
堆疊中底部的 DRAM 具有最高的熱阻,這是堆疊的主要限制因素。HBM 使用微凸塊連接不同的 DRAM 芯片,微凸塊有其缺點。隨著內(nèi)存產(chǎn)生熱量,熱量會在每一層積聚,而微凸起無法有效地將熱量散發(fā)出去。這反過來又限制了 DRAM 的實際層數(shù)。因此,即使 HBM3 可以支持 16 層,在大多數(shù)情況下也會使用更少的層。
DRAM 的每一層都需要自己的電力傳輸,并且需要足夠的電力才能獲得足夠的性能。推動電力傳輸會增加每一層的熱量。
現(xiàn)狀
為 2.5D HBM 中介層一直保持在 2.5D,并不是因為熱挑戰(zhàn)。2.5D 設(shè)計是內(nèi)存位于處理器旁邊的原因。在真正的 3D 設(shè)計中,內(nèi)存位于 CPU/GPU 之上并直接與芯片通信。CPU 最高可達(dá) 300 瓦,GPU 最高可達(dá) 700 瓦,熱量太大了。
“挑戰(zhàn)在于,如果你產(chǎn)生大量熱量,你就會遇到微凸起的頂部,這些凸起確實不能很好地將熱量傳遞出去。這就是幾乎每個人都采用 2.5D 的原因,因為微點技術(shù)確實限制了您可以投入到它下面的芯片中的功率,”Macri 說。
其中一些將改變 3D-IC 的實現(xiàn)。“如果你是 3D 的,這個物理層會變得不那么復(fù)雜,所以有很多優(yōu)勢,”Ferro 說?!澳銛[脫了中介層。芯片之間的物理接口變得不那么復(fù)雜,因為您不需要通過另一種介質(zhì)進(jìn)行連接。所以有很多優(yōu)勢,但也有很多挑戰(zhàn)。”
例如,使用現(xiàn)有技術(shù)冷卻 3D-IC 很困難,因為位于芯片頂部的內(nèi)存實際上隔離了其下方的 ASIC 或 GPU。在平面 SoC 中,熱量由硅本身散發(fā)。但在 3D-IC 中,需要使用更精細(xì)的方法,部分原因是熱量可能被困在層之間,部分原因是這些設(shè)備中使用的減薄芯片無法消散太多熱量。
“當(dāng)你把內(nèi)存芯片堆棧放在GPU頂部的那一刻,GPU的熱量需要在它消散之前或碰到冷板之前穿過內(nèi)存。所以你現(xiàn)在突然遇到了一個不同的挑戰(zhàn),”美光科技 HPM 產(chǎn)品管理高級總監(jiān) Girish Cherussery 說?!拔艺J(rèn)為我不會看到采用現(xiàn)有 HBM 并將其直接堆疊在 GPU 或 ASIC 之上的東西,這些東西會消耗 400、500 瓦的功率。但它會在未來發(fā)生嗎?這是一個可以實現(xiàn)的解決方案。”
Dunking chips
這是一個更大的問題和挑戰(zhàn)的一部分,即如何讓這些數(shù)據(jù)中心保持涼爽和節(jié)能,而散熱解決方案是保持環(huán)境可持續(xù)發(fā)展的瓶頸之一?!敖胧嚼鋮s似乎是業(yè)界正在關(guān)注的解決方案之一,”Cherussery 指出。
浸入式冷卻可能是唯一真正的解決方案,因為它不像空氣和液體冷卻那樣使用冷卻板。它涉及將主板連同 CPU 和內(nèi)存一起浸入非導(dǎo)電的辯證流體(通常是礦物油)中,只有 NIC、U** 和其他端口從流體中伸出。
這在數(shù)據(jù)中心尤為重要,服務(wù)器冷卻機(jī)架每年可能花費(fèi)數(shù)百萬美元。美國數(shù)據(jù)中心的平均電源使用效率 (PUE) 評級約為 1.5。分?jǐn)?shù)越低,數(shù)據(jù)中心的效率越高,但不能低于 1.0。高于 1.0 的每一點都是用于冷卻數(shù)據(jù)中心的功率,因此在 PUE 為 1.5 時,數(shù)據(jù)中心在冷卻上花費(fèi)了總功率的一半。
沉浸可以非常有效。**數(shù)據(jù)中心的 PUE 評級為 1.01。液冷數(shù)據(jù)中心已降至 1.1 范圍,但 1.01 是聞所未聞的。該數(shù)據(jù)中心僅使用其 1% 的功率用于冷卻。
浸入式冷卻長期以來一直處于冷卻技術(shù)的邊緣,只在極端情況下使用,但它正在慢慢成為主流。**數(shù)據(jù)中心背后的公司 LiquidStack 獲得了一些風(fēng)險投資資金,微軟已經(jīng)記錄了其在一個數(shù)據(jù)中心對 LliquidStack 產(chǎn)品進(jìn)行的實驗。微軟提高了電源使用效率,但它也發(fā)現(xiàn)它可以在不損壞芯片的情況下對芯片進(jìn)行超頻。因此,未來真正 3D 堆疊 HBM 的路徑很有可能是通過裝滿礦物油的油箱。
供應(yīng)商之間的差異
Macri 指出,DRAM 供應(yīng)商正在相互競爭,就像 SoC 供應(yīng)商一樣,這意味著一些 HBM 功耗較低,而一些則功耗較高?!暗教幎加泻芎玫母偁帯_@很重要,因為它推動創(chuàng)新,”他說。這種回旋余地也會導(dǎo)致問題。他說,在指定功率方面沒有標(biāo)準(zhǔn)。每個 DRAM 制造商都在想出設(shè)計內(nèi)存的最佳方法,以實現(xiàn)最佳最終結(jié)果,其中功率和價格是關(guān)鍵變量。“更好的東西比不太好的東西成本更高,這也很重要,因為有不同的系統(tǒng)目標(biāo),這取決于公司和他們使用它的目的,”Macri 說。但是,DRAM 本身確實符合 JEDEC 標(biāo)準(zhǔn)。因此從理論上講,您應(yīng)該能夠從一家供應(yīng)商處獲取 DRAM 并將其替換為另一家供應(yīng)商,從而限制這種差異?!拔覀兯龅氖虑橛泻芏嘀丿B和相似之處嗎?當(dāng)然,”費(fèi)羅說。“它們完全一樣嗎?也許有點不同,但并沒有本質(zhì)上的不同。你必須與每個供應(yīng)商一起完成這個過程,因為可能會有一點差異?!?/span>
自 HBM2E 以來,可測試性和 RAS(可靠性、可用性、可擴(kuò)展性)能力有了顯著提高。HBM3 還處理在 DRAM 中具有片上 ECC 的需求,只是為了使 DRAM 非??煽俊!斑@非常重要,因為產(chǎn)生的任何錯誤都需要您返回或修復(fù)它,這會增加延遲,”他說。
其他挑戰(zhàn)
由于 HBM 暫時與 2.5D 并列,這增加了內(nèi)存的大小限制。SoC 的尺寸,加上 HBM 芯片的數(shù)量,加起來需要更大的散熱面積。
“這是我們應(yīng)對的另一個挑戰(zhàn),”Ferro 說?!澳悴荒茏兇?。所以我們必須非常注意確保我們的寬高比是正確的,并且我們不會超過任何這些尺寸限制?!?/span>
在使用 HBM 時,您想利用其最大的屬性,即帶寬。但是利用該帶寬進(jìn)行設(shè)計并不容易。“你需要非常密集的浮點單元,這很有挑戰(zhàn)性,”Macri 說?!癉RAM 不喜歡隨機(jī)訪問。所以你想設(shè)計你的參考板,使其對 HBM 非常友好。你要從中提取最大的效率,這非常困難?!?/span>
結(jié)論
HBM3 對 HBM2E 標(biāo)準(zhǔn)進(jìn)行了多項改進(jìn)。有些是預(yù)期的(帶寬增加),有些是意外的(RAS 改進(jìn)、更新的時鐘方法)??偠灾?,新標(biāo)準(zhǔn)為用戶提供了對下一代 SoC 的 HBM 內(nèi)存的重大改進(jìn)。但至少到目前為止,它不是一個即插即用的解決方案。
拓展知識:
前沿拓展:
電腦功耗軟件
呵呵,下載財控武每行出眼個魯**,挺好用的。我就在用,不僅僅掛機(jī),平時玩的時候也能自動調(diào)整保護(hù)電腦硬件。
HBM3 為顯著加快內(nèi)存和處理器之間的數(shù)據(jù)移動打開了大門,降低了發(fā)送和接收信號所需的功率,并提高了需要高數(shù)據(jù)吞吐量的系統(tǒng)性能。但是使用這種內(nèi)存既昂貴又復(fù)雜,而且這種情況在短期內(nèi)可能會繼續(xù)存在。
HBM3是 JEDEC 開發(fā)的 HBM 規(guī)范的最新補(bǔ)充,用于在單個模塊內(nèi)堆疊 DRAM 層。它于 2022 年 1 月推出,被視為 2.5D 封裝的重大改進(jìn)。但 HBM3 仍然很昂貴,部分原因是內(nèi)存本身的價格,以及硅中介層等其他組件的成本以及開發(fā) 2.5D 設(shè)計所需的工程。這限制了它在容量最大的設(shè)計或價格不敏感的應(yīng)用程序(例如數(shù)據(jù)中心的服務(wù)器)中的使用,在這些應(yīng)用程序中,內(nèi)存的成本可以通過更多和更寬的數(shù)據(jù)通道以及更少的功耗來提高性能來抵消在處理元件和 DRAM 之間來回驅(qū)動信號。
這有助于解釋為什么 HBM3 第一出現(xiàn)在英偉達(dá)的“Hopper”H100 企業(yè)級 GPU 中,緊隨其后的是英特爾和AMD的產(chǎn)品。HBM3 在 HBM2E 的基礎(chǔ)上提供了多項增強(qiáng)功能,最顯著的是將 HBM2E 的帶寬從 3.6 Gbps 翻倍到 HBM3 的6.4Gbps,或者每個設(shè)備的帶寬為 819 Gbps。
“帶寬是支持更大計算引擎所需要的,”AMD 客戶端PC 業(yè)務(wù)高級副總裁CTO Joe Macri 說?!叭绻憧纯次覀冋诮鉀Q的許多問題,它們都非常占用帶寬,無論是機(jī)器學(xué)習(xí)還是 HPC 類型的解決方案。因此,即使我們只選擇適度增加引擎尺寸,我們?nèi)匀粫膸捲黾又蝎@益匪淺?!?/span>
除了增加容量和速度之外,能源效率的提高也值得注意。HBM3 的核心電壓為 1.1V,而 HBM2E 的核心電壓為 1.2V。HBM3 還將 I/O 信號降低至 400mV,而 HBM2E 為 1.2V。后代也會有進(jìn)一步的改進(jìn)。
執(zhí)行副總裁 Jim Elliot 表示:“一旦進(jìn)入 10 納米時代,就必須考慮不同的縮小技術(shù)——例如高 K 金屬柵極——我們必須不斷增加內(nèi)存帶寬。”在最近的一次演示中,介紹了三星半導(dǎo)體的內(nèi)存產(chǎn)品。“有低電阻材料,因為我們必須突破 DRAM 組件的單元尺寸限制。還有寬帶隙材料,因為我們正在尋找 10 倍的泄漏改進(jìn),以及用于 DRAM 的 finFET,這將使我們能夠繼續(xù)將功率擴(kuò)展到 0.9 伏以上?!?/span>
圖 1:三星的新 HBM3。來源:三星
不過,這一切都不容易。制造這項技術(shù)和充分利用它都將面臨重大挑戰(zhàn)。與過去不同的是,當(dāng)一種先進(jìn)的架構(gòu)可以在數(shù)十億個單元中得到利用時,其中許多設(shè)計都是定制的。例如,在 AI 世界中,幾乎每個人都在構(gòu)建自己的定制 AI 訓(xùn)練芯片并專注于 HBM。它以兩種方式之一使用——作為系統(tǒng)中唯一的內(nèi)存,或與隨附的 DRAM 一起使用。
富士通基于 Arm 的 A64fx 是前者的一個例子。在 Fugaku 中使用,A64fx 曾一度是世界上最快的超級計算機(jī),在 CPU 旁邊的芯片上有 32GB 的 HBM2,但沒有其他系統(tǒng)內(nèi)存。其他產(chǎn)品,如 AMD Instinct、英偉達(dá)的 H100 GPU 以及英特爾的 CPU Max 和 GPU Max,都配備了 HBM 和標(biāo)準(zhǔn) DRAM,其中 HBM 就像 DRAM 的海量緩存。
第一大問題:熱量
使用 HBM 的最大挑戰(zhàn)是熱量。眾所周知,內(nèi)存和熱量不能并存,但 HBM3 將與世界上最熱的芯片和系統(tǒng)一起使用。例如,英偉達(dá)的 H100 的熱設(shè)計功率 (TDP) 限制為 700 瓦。
Macri 表示,橡樹嶺國家實驗室的超級計算機(jī) Frontier 是 Epyc CPU 和 Instinct GPU(使用 HBM2E)的混合體,需要 AMD 進(jìn)行一些創(chuàng)造性的負(fù)載平衡,以將溫度控制在限制范圍內(nèi)。
圖 2:Frontier 超級計算機(jī)。資料來源:橡樹嶺國家實驗室
Frontier 上的一些工作負(fù)載是內(nèi)存密集型的,一些是 CPU 密集型的,平衡工作負(fù)載以避免過熱是在芯片中完成的,而不是軟件?!坝幸恍┪⑻幚砥?,它們的全部工作就是管理這些控制回路,使系統(tǒng)保持在最佳狀態(tài),”Macri 說。
Frontier 由 HPE 的 Cray 部門與 AMD 合作構(gòu)建,用于管理熱量的負(fù)載平衡在系統(tǒng)設(shè)計級別處理?!拔覀児餐O(shè)計了解決方案,”他說,“根據(jù)正在進(jìn)行的工作進(jìn)行動態(tài)**作以產(chǎn)生最佳性能。”
Rambus 產(chǎn)品管理高級總監(jiān) Frank Ferro 表示,HBM 和控制器中的硬件功能允許它節(jié)流內(nèi)存并將其置于不同的性能狀態(tài),甚至轉(zhuǎn)移到較低的頻率?!叭绻抢镩_始成為熱點,而你想降低頻率或降低功率并將內(nèi)存置于空閑模式,這些基本上都在 IP 級別和 DRAM 級別。在 DRAM 級別,你擁有這種能力,但如何使用它取決于系統(tǒng)架構(gòu)師?!?/span>
密度限制
HBM3 面臨的第二個熱挑戰(zhàn)來自內(nèi)存本身。與 HBM2E 的 12 層限制相比,HBM3 標(biāo)準(zhǔn)允許多達(dá) 16 層。但馬克里認(rèn)為,由于高溫,它會停在 12 層。盡管如此,對于定制設(shè)計,這可能因供應(yīng)商而異,也可能因用例而異。
堆疊中底部的 DRAM 具有最高的熱阻,這是堆疊的主要限制因素。HBM 使用微凸塊連接不同的 DRAM 芯片,微凸塊有其缺點。隨著內(nèi)存產(chǎn)生熱量,熱量會在每一層積聚,而微凸起無法有效地將熱量散發(fā)出去。這反過來又限制了 DRAM 的實際層數(shù)。因此,即使 HBM3 可以支持 16 層,在大多數(shù)情況下也會使用更少的層。
DRAM 的每一層都需要自己的電力傳輸,并且需要足夠的電力才能獲得足夠的性能。推動電力傳輸會增加每一層的熱量。
現(xiàn)狀
為 2.5D HBM 中介層一直保持在 2.5D,并不是因為熱挑戰(zhàn)。2.5D 設(shè)計是內(nèi)存位于處理器旁邊的原因。在真正的 3D 設(shè)計中,內(nèi)存位于 CPU/GPU 之上并直接與芯片通信。CPU 最高可達(dá) 300 瓦,GPU 最高可達(dá) 700 瓦,熱量太大了。
“挑戰(zhàn)在于,如果你產(chǎn)生大量熱量,你就會遇到微凸起的頂部,這些凸起確實不能很好地將熱量傳遞出去。這就是幾乎每個人都采用 2.5D 的原因,因為微點技術(shù)確實限制了您可以投入到它下面的芯片中的功率,”Macri 說。
其中一些將改變 3D-IC 的實現(xiàn)。“如果你是 3D 的,這個物理層會變得不那么復(fù)雜,所以有很多優(yōu)勢,”Ferro 說?!澳銛[脫了中介層。芯片之間的物理接口變得不那么復(fù)雜,因為您不需要通過另一種介質(zhì)進(jìn)行連接。所以有很多優(yōu)勢,但也有很多挑戰(zhàn)。”
例如,使用現(xiàn)有技術(shù)冷卻 3D-IC 很困難,因為位于芯片頂部的內(nèi)存實際上隔離了其下方的 ASIC 或 GPU。在平面 SoC 中,熱量由硅本身散發(fā)。但在 3D-IC 中,需要使用更精細(xì)的方法,部分原因是熱量可能被困在層之間,部分原因是這些設(shè)備中使用的減薄芯片無法消散太多熱量。
“當(dāng)你把內(nèi)存芯片堆棧放在GPU頂部的那一刻,GPU的熱量需要在它消散之前或碰到冷板之前穿過內(nèi)存。所以你現(xiàn)在突然遇到了一個不同的挑戰(zhàn),”美光科技 HPM 產(chǎn)品管理高級總監(jiān) Girish Cherussery 說?!拔艺J(rèn)為我不會看到采用現(xiàn)有 HBM 并將其直接堆疊在 GPU 或 ASIC 之上的東西,這些東西會消耗 400、500 瓦的功率。但它會在未來發(fā)生嗎?這是一個可以實現(xiàn)的解決方案。”
Dunking chips
這是一個更大的問題和挑戰(zhàn)的一部分,即如何讓這些數(shù)據(jù)中心保持涼爽和節(jié)能,而散熱解決方案是保持環(huán)境可持續(xù)發(fā)展的瓶頸之一?!敖胧嚼鋮s似乎是業(yè)界正在關(guān)注的解決方案之一,”Cherussery 指出。
浸入式冷卻可能是唯一真正的解決方案,因為它不像空氣和液體冷卻那樣使用冷卻板。它涉及將主板連同 CPU 和內(nèi)存一起浸入非導(dǎo)電的辯證流體(通常是礦物油)中,只有 NIC、U** 和其他端口從流體中伸出。
這在數(shù)據(jù)中心尤為重要,服務(wù)器冷卻機(jī)架每年可能花費(fèi)數(shù)百萬美元。美國數(shù)據(jù)中心的平均電源使用效率 (PUE) 評級約為 1.5。分?jǐn)?shù)越低,數(shù)據(jù)中心的效率越高,但不能低于 1.0。高于 1.0 的每一點都是用于冷卻數(shù)據(jù)中心的功率,因此在 PUE 為 1.5 時,數(shù)據(jù)中心在冷卻上花費(fèi)了總功率的一半。
沉浸可以非常有效。**數(shù)據(jù)中心的 PUE 評級為 1.01。液冷數(shù)據(jù)中心已降至 1.1 范圍,但 1.01 是聞所未聞的。該數(shù)據(jù)中心僅使用其 1% 的功率用于冷卻。
浸入式冷卻長期以來一直處于冷卻技術(shù)的邊緣,只在極端情況下使用,但它正在慢慢成為主流。**數(shù)據(jù)中心背后的公司 LiquidStack 獲得了一些風(fēng)險投資資金,微軟已經(jīng)記錄了其在一個數(shù)據(jù)中心對 LliquidStack 產(chǎn)品進(jìn)行的實驗。微軟提高了電源使用效率,但它也發(fā)現(xiàn)它可以在不損壞芯片的情況下對芯片進(jìn)行超頻。因此,未來真正 3D 堆疊 HBM 的路徑很有可能是通過裝滿礦物油的油箱。
供應(yīng)商之間的差異
Macri 指出,DRAM 供應(yīng)商正在相互競爭,就像 SoC 供應(yīng)商一樣,這意味著一些 HBM 功耗較低,而一些則功耗較高?!暗教幎加泻芎玫母偁?。這很重要,因為它推動創(chuàng)新,”他說。這種回旋余地也會導(dǎo)致問題。他說,在指定功率方面沒有標(biāo)準(zhǔn)。每個 DRAM 制造商都在想出設(shè)計內(nèi)存的最佳方法,以實現(xiàn)最佳最終結(jié)果,其中功率和價格是關(guān)鍵變量?!案玫臇|西比不太好的東西成本更高,這也很重要,因為有不同的系統(tǒng)目標(biāo),這取決于公司和他們使用它的目的,”Macri 說。但是,DRAM 本身確實符合 JEDEC 標(biāo)準(zhǔn)。因此從理論上講,您應(yīng)該能夠從一家供應(yīng)商處獲取 DRAM 并將其替換為另一家供應(yīng)商,從而限制這種差異。“我們所做的事情有很多重疊和相似之處嗎?當(dāng)然,”費(fèi)羅說?!八鼈兺耆粯訂??也許有點不同,但并沒有本質(zhì)上的不同。你必須與每個供應(yīng)商一起完成這個過程,因為可能會有一點差異?!?/span>
自 HBM2E 以來,可測試性和 RAS(可靠性、可用性、可擴(kuò)展性)能力有了顯著提高。HBM3 還處理在 DRAM 中具有片上 ECC 的需求,只是為了使 DRAM 非??煽??!斑@非常重要,因為產(chǎn)生的任何錯誤都需要您返回或修復(fù)它,這會增加延遲,”他說。
其他挑戰(zhàn)
由于 HBM 暫時與 2.5D 并列,這增加了內(nèi)存的大小限制。SoC 的尺寸,加上 HBM 芯片的數(shù)量,加起來需要更大的散熱面積。
“這是我們應(yīng)對的另一個挑戰(zhàn),”Ferro 說?!澳悴荒茏兇?。所以我們必須非常注意確保我們的寬高比是正確的,并且我們不會超過任何這些尺寸限制。”
在使用 HBM 時,您想利用其最大的屬性,即帶寬。但是利用該帶寬進(jìn)行設(shè)計并不容易?!澳阈枰浅C芗母↑c單元,這很有挑戰(zhàn)性,”Macri 說?!癉RAM 不喜歡隨機(jī)訪問。所以你想設(shè)計你的參考板,使其對 HBM 非常友好。你要從中提取最大的效率,這非常困難?!?/span>
結(jié)論
HBM3 對 HBM2E 標(biāo)準(zhǔn)進(jìn)行了多項改進(jìn)。有些是預(yù)期的(帶寬增加),有些是意外的(RAS 改進(jìn)、更新的時鐘方法)??偠灾?,新標(biāo)準(zhǔn)為用戶提供了對下一代 SoC 的 HBM 內(nèi)存的重大改進(jìn)。但至少到目前為止,它不是一個即插即用的解決方案。
拓展知識:
前沿拓展:
電腦功耗軟件
呵呵,下載財控武每行出眼個魯**,挺好用的。我就在用,不僅僅掛機(jī),平時玩的時候也能自動調(diào)整保護(hù)電腦硬件。
HBM3 為顯著加快內(nèi)存和處理器之間的數(shù)據(jù)移動打開了大門,降低了發(fā)送和接收信號所需的功率,并提高了需要高數(shù)據(jù)吞吐量的系統(tǒng)性能。但是使用這種內(nèi)存既昂貴又復(fù)雜,而且這種情況在短期內(nèi)可能會繼續(xù)存在。
HBM3是 JEDEC 開發(fā)的 HBM 規(guī)范的最新補(bǔ)充,用于在單個模塊內(nèi)堆疊 DRAM 層。它于 2022 年 1 月推出,被視為 2.5D 封裝的重大改進(jìn)。但 HBM3 仍然很昂貴,部分原因是內(nèi)存本身的價格,以及硅中介層等其他組件的成本以及開發(fā) 2.5D 設(shè)計所需的工程。這限制了它在容量最大的設(shè)計或價格不敏感的應(yīng)用程序(例如數(shù)據(jù)中心的服務(wù)器)中的使用,在這些應(yīng)用程序中,內(nèi)存的成本可以通過更多和更寬的數(shù)據(jù)通道以及更少的功耗來提高性能來抵消在處理元件和 DRAM 之間來回驅(qū)動信號。
這有助于解釋為什么 HBM3 第一出現(xiàn)在英偉達(dá)的“Hopper”H100 企業(yè)級 GPU 中,緊隨其后的是英特爾和AMD的產(chǎn)品。HBM3 在 HBM2E 的基礎(chǔ)上提供了多項增強(qiáng)功能,最顯著的是將 HBM2E 的帶寬從 3.6 Gbps 翻倍到 HBM3 的6.4Gbps,或者每個設(shè)備的帶寬為 819 Gbps。
“帶寬是支持更大計算引擎所需要的,”AMD 客戶端PC 業(yè)務(wù)高級副總裁CTO Joe Macri 說?!叭绻憧纯次覀冋诮鉀Q的許多問題,它們都非常占用帶寬,無論是機(jī)器學(xué)習(xí)還是 HPC 類型的解決方案。因此,即使我們只選擇適度增加引擎尺寸,我們?nèi)匀粫膸捲黾又蝎@益匪淺?!?/span>
除了增加容量和速度之外,能源效率的提高也值得注意。HBM3 的核心電壓為 1.1V,而 HBM2E 的核心電壓為 1.2V。HBM3 還將 I/O 信號降低至 400mV,而 HBM2E 為 1.2V。后代也會有進(jìn)一步的改進(jìn)。
執(zhí)行副總裁 Jim Elliot 表示:“一旦進(jìn)入 10 納米時代,就必須考慮不同的縮小技術(shù)——例如高 K 金屬柵極——我們必須不斷增加內(nèi)存帶寬?!痹谧罱囊淮窝菔局?,介紹了三星半導(dǎo)體的內(nèi)存產(chǎn)品?!坝械碗娮璨牧?,因為我們必須突破 DRAM 組件的單元尺寸限制。還有寬帶隙材料,因為我們正在尋找 10 倍的泄漏改進(jìn),以及用于 DRAM 的 finFET,這將使我們能夠繼續(xù)將功率擴(kuò)展到 0.9 伏以上?!?/span>
圖 1:三星的新 HBM3。來源:三星
不過,這一切都不容易。制造這項技術(shù)和充分利用它都將面臨重大挑戰(zhàn)。與過去不同的是,當(dāng)一種先進(jìn)的架構(gòu)可以在數(shù)十億個單元中得到利用時,其中許多設(shè)計都是定制的。例如,在 AI 世界中,幾乎每個人都在構(gòu)建自己的定制 AI 訓(xùn)練芯片并專注于 HBM。它以兩種方式之一使用——作為系統(tǒng)中唯一的內(nèi)存,或與隨附的 DRAM 一起使用。
富士通基于 Arm 的 A64fx 是前者的一個例子。在 Fugaku 中使用,A64fx 曾一度是世界上最快的超級計算機(jī),在 CPU 旁邊的芯片上有 32GB 的 HBM2,但沒有其他系統(tǒng)內(nèi)存。其他產(chǎn)品,如 AMD Instinct、英偉達(dá)的 H100 GPU 以及英特爾的 CPU Max 和 GPU Max,都配備了 HBM 和標(biāo)準(zhǔn) DRAM,其中 HBM 就像 DRAM 的海量緩存。
第一大問題:熱量
使用 HBM 的最大挑戰(zhàn)是熱量。眾所周知,內(nèi)存和熱量不能并存,但 HBM3 將與世界上最熱的芯片和系統(tǒng)一起使用。例如,英偉達(dá)的 H100 的熱設(shè)計功率 (TDP) 限制為 700 瓦。
Macri 表示,橡樹嶺國家實驗室的超級計算機(jī) Frontier 是 Epyc CPU 和 Instinct GPU(使用 HBM2E)的混合體,需要 AMD 進(jìn)行一些創(chuàng)造性的負(fù)載平衡,以將溫度控制在限制范圍內(nèi)。
圖 2:Frontier 超級計算機(jī)。資料來源:橡樹嶺國家實驗室
Frontier 上的一些工作負(fù)載是內(nèi)存密集型的,一些是 CPU 密集型的,平衡工作負(fù)載以避免過熱是在芯片中完成的,而不是軟件。“有一些微處理器,它們的全部工作就是管理這些控制回路,使系統(tǒng)保持在最佳狀態(tài),”Macri 說。
Frontier 由 HPE 的 Cray 部門與 AMD 合作構(gòu)建,用于管理熱量的負(fù)載平衡在系統(tǒng)設(shè)計級別處理。“我們共同設(shè)計了解決方案,”他說,“根據(jù)正在進(jìn)行的工作進(jìn)行動態(tài)**作以產(chǎn)生最佳性能。”
Rambus 產(chǎn)品管理高級總監(jiān) Frank Ferro 表示,HBM 和控制器中的硬件功能允許它節(jié)流內(nèi)存并將其置于不同的性能狀態(tài),甚至轉(zhuǎn)移到較低的頻率?!叭绻抢镩_始成為熱點,而你想降低頻率或降低功率并將內(nèi)存置于空閑模式,這些基本上都在 IP 級別和 DRAM 級別。在 DRAM 級別,你擁有這種能力,但如何使用它取決于系統(tǒng)架構(gòu)師?!?/span>
密度限制
HBM3 面臨的第二個熱挑戰(zhàn)來自內(nèi)存本身。與 HBM2E 的 12 層限制相比,HBM3 標(biāo)準(zhǔn)允許多達(dá) 16 層。但馬克里認(rèn)為,由于高溫,它會停在 12 層。盡管如此,對于定制設(shè)計,這可能因供應(yīng)商而異,也可能因用例而異。
堆疊中底部的 DRAM 具有最高的熱阻,這是堆疊的主要限制因素。HBM 使用微凸塊連接不同的 DRAM 芯片,微凸塊有其缺點。隨著內(nèi)存產(chǎn)生熱量,熱量會在每一層積聚,而微凸起無法有效地將熱量散發(fā)出去。這反過來又限制了 DRAM 的實際層數(shù)。因此,即使 HBM3 可以支持 16 層,在大多數(shù)情況下也會使用更少的層。
DRAM 的每一層都需要自己的電力傳輸,并且需要足夠的電力才能獲得足夠的性能。推動電力傳輸會增加每一層的熱量。
現(xiàn)狀
為 2.5D HBM 中介層一直保持在 2.5D,并不是因為熱挑戰(zhàn)。2.5D 設(shè)計是內(nèi)存位于處理器旁邊的原因。在真正的 3D 設(shè)計中,內(nèi)存位于 CPU/GPU 之上并直接與芯片通信。CPU 最高可達(dá) 300 瓦,GPU 最高可達(dá) 700 瓦,熱量太大了。
“挑戰(zhàn)在于,如果你產(chǎn)生大量熱量,你就會遇到微凸起的頂部,這些凸起確實不能很好地將熱量傳遞出去。這就是幾乎每個人都采用 2.5D 的原因,因為微點技術(shù)確實限制了您可以投入到它下面的芯片中的功率,”Macri 說。
其中一些將改變 3D-IC 的實現(xiàn)?!叭绻闶?3D 的,這個物理層會變得不那么復(fù)雜,所以有很多優(yōu)勢,”Ferro 說?!澳銛[脫了中介層。芯片之間的物理接口變得不那么復(fù)雜,因為您不需要通過另一種介質(zhì)進(jìn)行連接。所以有很多優(yōu)勢,但也有很多挑戰(zhàn)。”
例如,使用現(xiàn)有技術(shù)冷卻 3D-IC 很困難,因為位于芯片頂部的內(nèi)存實際上隔離了其下方的 ASIC 或 GPU。在平面 SoC 中,熱量由硅本身散發(fā)。但在 3D-IC 中,需要使用更精細(xì)的方法,部分原因是熱量可能被困在層之間,部分原因是這些設(shè)備中使用的減薄芯片無法消散太多熱量。
“當(dāng)你把內(nèi)存芯片堆棧放在GPU頂部的那一刻,GPU的熱量需要在它消散之前或碰到冷板之前穿過內(nèi)存。所以你現(xiàn)在突然遇到了一個不同的挑戰(zhàn),”美光科技 HPM 產(chǎn)品管理高級總監(jiān) Girish Cherussery 說?!拔艺J(rèn)為我不會看到采用現(xiàn)有 HBM 并將其直接堆疊在 GPU 或 ASIC 之上的東西,這些東西會消耗 400、500 瓦的功率。但它會在未來發(fā)生嗎?這是一個可以實現(xiàn)的解決方案?!?/span>
Dunking chips
這是一個更大的問題和挑戰(zhàn)的一部分,即如何讓這些數(shù)據(jù)中心保持涼爽和節(jié)能,而散熱解決方案是保持環(huán)境可持續(xù)發(fā)展的瓶頸之一?!敖胧嚼鋮s似乎是業(yè)界正在關(guān)注的解決方案之一,”Cherussery 指出。
浸入式冷卻可能是唯一真正的解決方案,因為它不像空氣和液體冷卻那樣使用冷卻板。它涉及將主板連同 CPU 和內(nèi)存一起浸入非導(dǎo)電的辯證流體(通常是礦物油)中,只有 NIC、U** 和其他端口從流體中伸出。
這在數(shù)據(jù)中心尤為重要,服務(wù)器冷卻機(jī)架每年可能花費(fèi)數(shù)百萬美元。美國數(shù)據(jù)中心的平均電源使用效率 (PUE) 評級約為 1.5。分?jǐn)?shù)越低,數(shù)據(jù)中心的效率越高,但不能低于 1.0。高于 1.0 的每一點都是用于冷卻數(shù)據(jù)中心的功率,因此在 PUE 為 1.5 時,數(shù)據(jù)中心在冷卻上花費(fèi)了總功率的一半。
沉浸可以非常有效。**數(shù)據(jù)中心的 PUE 評級為 1.01。液冷數(shù)據(jù)中心已降至 1.1 范圍,但 1.01 是聞所未聞的。該數(shù)據(jù)中心僅使用其 1% 的功率用于冷卻。
浸入式冷卻長期以來一直處于冷卻技術(shù)的邊緣,只在極端情況下使用,但它正在慢慢成為主流。**數(shù)據(jù)中心背后的公司 LiquidStack 獲得了一些風(fēng)險投資資金,微軟已經(jīng)記錄了其在一個數(shù)據(jù)中心對 LliquidStack 產(chǎn)品進(jìn)行的實驗。微軟提高了電源使用效率,但它也發(fā)現(xiàn)它可以在不損壞芯片的情況下對芯片進(jìn)行超頻。因此,未來真正 3D 堆疊 HBM 的路徑很有可能是通過裝滿礦物油的油箱。
供應(yīng)商之間的差異
Macri 指出,DRAM 供應(yīng)商正在相互競爭,就像 SoC 供應(yīng)商一樣,這意味著一些 HBM 功耗較低,而一些則功耗較高。“到處都有很好的競爭。這很重要,因為它推動創(chuàng)新,”他說。這種回旋余地也會導(dǎo)致問題。他說,在指定功率方面沒有標(biāo)準(zhǔn)。每個 DRAM 制造商都在想出設(shè)計內(nèi)存的最佳方法,以實現(xiàn)最佳最終結(jié)果,其中功率和價格是關(guān)鍵變量?!案玫臇|西比不太好的東西成本更高,這也很重要,因為有不同的系統(tǒng)目標(biāo),這取決于公司和他們使用它的目的,”Macri 說。但是,DRAM 本身確實符合 JEDEC 標(biāo)準(zhǔn)。因此從理論上講,您應(yīng)該能夠從一家供應(yīng)商處獲取 DRAM 并將其替換為另一家供應(yīng)商,從而限制這種差異。“我們所做的事情有很多重疊和相似之處嗎?當(dāng)然,”費(fèi)羅說?!八鼈兺耆粯訂??也許有點不同,但并沒有本質(zhì)上的不同。你必須與每個供應(yīng)商一起完成這個過程,因為可能會有一點差異。”
自 HBM2E 以來,可測試性和 RAS(可靠性、可用性、可擴(kuò)展性)能力有了顯著提高。HBM3 還處理在 DRAM 中具有片上 ECC 的需求,只是為了使 DRAM 非??煽??!斑@非常重要,因為產(chǎn)生的任何錯誤都需要您返回或修復(fù)它,這會增加延遲,”他說。
其他挑戰(zhàn)
由于 HBM 暫時與 2.5D 并列,這增加了內(nèi)存的大小限制。SoC 的尺寸,加上 HBM 芯片的數(shù)量,加起來需要更大的散熱面積。
“這是我們應(yīng)對的另一個挑戰(zhàn),”Ferro 說?!澳悴荒茏兇蟆K晕覀儽仨毞浅W⒁獯_保我們的寬高比是正確的,并且我們不會超過任何這些尺寸限制?!?/span>
在使用 HBM 時,您想利用其最大的屬性,即帶寬。但是利用該帶寬進(jìn)行設(shè)計并不容易。“你需要非常密集的浮點單元,這很有挑戰(zhàn)性,”Macri 說?!癉RAM 不喜歡隨機(jī)訪問。所以你想設(shè)計你的參考板,使其對 HBM 非常友好。你要從中提取最大的效率,這非常困難?!?/span>
結(jié)論
HBM3 對 HBM2E 標(biāo)準(zhǔn)進(jìn)行了多項改進(jìn)。有些是預(yù)期的(帶寬增加),有些是意外的(RAS 改進(jìn)、更新的時鐘方法)。總而言之,新標(biāo)準(zhǔn)為用戶提供了對下一代 SoC 的 HBM 內(nèi)存的重大改進(jìn)。但至少到目前為止,它不是一個即插即用的解決方案。
拓展知識:
原創(chuàng)文章,作者:九賢生活小編,如若轉(zhuǎn)載,請注明出處:http://www.drmqd.com.cn/83470.html