<rt id="ymaau"><small id="ymaau"></small></rt>
<acronym id="ymaau"></acronym><acronym id="ymaau"></acronym>
<tt id="ymaau"></tt>
<acronym id="ymaau"></acronym>
<rt id="ymaau"><optgroup id="ymaau"></optgroup></rt>

外媒對中國下一代百億億次超算的建議與架構猜想

2021-02-19 12:38:13 來源:EETOP
據國外技術媒體NextPlatform報道, 為了支持其科學、經濟項目的發展,中國已經發展并建造了大約二十年的尖端超級計算機。最初,中國使用在美國開發的硬件,但隨著美國對中國的技術限制,中國不得不構建自己的高性能計算(HPC)硬件。對于即將來臨的下一代百億億次(E級)超級計算機,中國目前也走到了前列。
NextPlatform 援引中國并行計算機工程與技術國家研究中心(NRCPC)的一份文件報道說,中國的百億億次超級計算機提案之一包括擴展申威HPC架構以及申威多核混合CPU架構 。
以下是NextPlatform關于中國百億億次超算的建議以及架構猜想

超級計算趨勢:更多內核

作為百億億次計算機時代準備工作的一部分,NRCPC對近年來通用超級計算機的發展趨勢進行了研究。

該組織發現,由于摩爾定律和登納德縮放比例定律 (Dennard Scaling)的放慢,在不增加功耗的情況下提高超級計算機的性能變得異常困難,因此整個系統架構的復雜性會呈指數級增長。  

基于這些發現,領先的超級計算機在2008年至2019年的性能有所提高,這主要是由于計算內核數增加了44倍。為此,NRCPC認為,與其發明全新的東西,不如擴展現有的神威超級計算機架構和神威CPU設計。特別是擁有數千萬核的超級計算機正在考慮中。 

探索神威SW26010架構

2016年推出的最新神威太湖之光超級計算機使用了40960個國產多核神威SW26010處理器,采用混合架構。該系統的Linpack性能(Rmax)為93,014.6 TFLOPS, (Rpeak)為125,436 TFLOPS。當前的百億億美元級提案包括擴展SW26010 CPU和太湖之光系統的擴展,因此了解更多關于CPU架構的細節是有意義的。

SW26010處理器是基于自主研發的64位RISC架構,具有4個集群或核心組(CG)和一個協議處理單元(PPU)。每個集群有一個MPE(management processing element), MPE是一個超標量亂序核,具有256位向量引擎、32kb/32kb L1指令/數據緩存、256kb L2緩存。它還集成了64個計算處理元素(CPE),具有相同的256位向量引擎以及64 KB的快速本地數據和16 KB的指令存儲。CPE被組織成一個8x8陣列,并使用網狀網絡相互連接。值得注意的是,MPE和CPE通過基于目錄的協議支持一致性共享,這減少了數據在核之間的移動,并支持不同核之間的細粒度交互,這對具有不規則數據共享訪問權限的應用程序尤為重要。
每個CG都有其自己的DDR3內存控制器,該控制器具有自己的地址空間,該內存使用9個內存模塊實現專有ECC實現,支持8GB內存。CG通過類似于環形總線的片上網絡(NoC)進行互連,并且處理器本身通過系統互連(SI)總線連接至系統的其余部分。在神威太湖之光超級計算機中使用的CPU SW26010操作主頻為 1.45GHz。NRCPC沒有透露它使用哪種工藝技術來制造SW26010,但是自從太湖之光在2016年中期首次出現在全球500強名單中以來,可以合理地假設其CPU是使用臺積電的28 nm制造工藝制造的。 

假設太湖之光已滿載且效率為100%,則這種處理器的性能約為3.168 TFLOPS(峰值),并且內存帶寬約為136 GB / s。 
SW26010本質上是一個具有260個內核的混合處理器,這些內核共享相同的微體系結構,但功能不同。由于SW26010是可利用其256個CPE內核利用線程級并行性的單芯片,因此它被認為比配備了計算加速器(例如GPUFPGA)的CPU效率更高,因為它不必增加內存負載串行(MPE)和并行(CPE)內核之間的事務。 與此同時,基于x86的現代超級計算機使用超過四個“大”核的cpu,這增加了一定的靈活性。 
 

NRCPC的E級超算解決方案及建議:擴展一切

 從NRCPC的角度來看,可以同時擴展神威系統和神威CPU架構,以構建性能約為1 ExaFLOPS的超級計算機。 

為了構建這樣一個系統,NRCPC建議增強SW26010 CPU并增加處理器數量。用于百億億次級計算機的新神威CPU將擁有8個CG集群,而不是4個。CG架構將保持不變:一個MPE和64個CPE。同時,CPE將支持512位向量指令(大概MPE也會支持,但文檔中沒有明確說明)。根據NRCPC的估計,這種處理器將提供超過12 FP64 TFLOPS。百億億次超級計算機也將使每個系統的CPU數量增加一倍以上,達到80000多個。
NRCPC表示,基于下一代神威CPU架構的百億億次神威超級計算機峰值性能約為1 FP64 ExaFLOPS(百億億次浮點運算)、2 FP32 ExaFLOPS以及4 FP16ExaFLOPS。據該組織估計,百億億次神威系統的實際性能將達到700 PFLOPS左右(也就是說,它的效率將達到70%左右),因此它將比“太湖之光”快7.5倍。此外,這款超級計算機將提供約7倍高的內存帶寬和約2倍高的網絡帶寬。

神威太湖之光超級計算機耗電15371千瓦。相比之下,當前世界上最強大的機器——日本富士通的富岳(Fugaku)超級計算機消耗了29,899千瓦,大約是它的兩倍。美國的Frontier超算預計將在今年晚些時候成為第一個提供1.5 ExaFLOPS運算性能的系統,預計消耗約3萬千瓦。雖然NRCPC的研究給出了一些關于中國百億億級超級計算機預期性能的想法,但該文件缺少的一個東西是該系統的預期功耗。 
該文承認,增強CPU架構將導致內部互連和緩存的主要重新設計,這意味著功耗的增加。此外,整個超級計算機將不得不重新設計,以利用額外的每CPU性能和CPU數量。NRCPC說,它將在接下來的文件中解決其他超級計算機子系統的挑戰。
需要新的工藝技術

從工程角度來看,可以構建具有520核(8個MPE,512個CPE)的混合CPU。同時,將內核數量增加一倍并增加其復雜性,而要求內部互連速度快兩倍的512位向量單元將不可避免地導致晶體管數量的顯著增加。 

晶體管數量加倍并不是一個不可克服的挑戰。最終,諸如AMD、Intel和Nvidia之類的公司知道如何為數據中心和超級計算機構建大型CPUGPU。但是,所有這些公司都可以使用領先的工藝技術和半導體生產設施。目前尚不清楚是否傾向于讓臺積電或三星代工還是考慮在中芯國際代工,以制造其混合超級計算機CPU。

目前,中芯國際擁有兩項FinFET制造技術:其14納米節點以及用于廉價芯片的N + 1節點。假設SW26010之前使用的是臺積電的28 nm制程技術制造,那么將SMIC的14 nm工藝用于相當復雜的CPU很有道理。當然,中芯國際是否能夠使用其14 nm節點(到目前為止僅用于移動SoC和其他相對較小的組件)是否能夠大規模生產相當復雜的芯片,并以正確的頻率達到正確的良率還有待觀察。還有一點是,中芯國際在美國商務部的“實體名單”中,是否會影響到芯片代工,目前還不得而知。
  1. EETOP 官方微信

  2. 創芯大講堂 在線教育

  3. 創芯老字號 半導體快訊

相關文章

全部評論

X
黄字幕网中文在线视频,婷婷亚洲综合电影,狼人香蕉香蕉在线28 - 百度,日韩欧美在线综合网,亚洲欧美国产群伦|国产精品国产自线拍