摩爾定律放緩 靠啥提升AI晶片運算力?
作者 : 黃燁鋒,EE Times China
2021-07-26
對於電子科技革命的即將終結的說法,一般認為即是指摩爾定律的終結——摩爾定律一旦無法延續,也就意味著資訊技術的整棟大樓建造都將出現停滯,那麼第三次科技革命也就正式結束了。這種聲音似乎是從十多年前就有的,但這波革命始終也沒有結束。AI技術本質上仍然是第三次科技革命的延續……
人工智慧(AI)的技術發展,被很多人形容為第四次科技革命。前三次科技革命,分別是蒸汽、電氣、資訊技術(電子科技)革命。彷彿這“第四次”有很多種說辭,比如有人說第四次科技革命是生物技術革命,還有人說是量子技術革命。但既然AI也是第四次科技革命之一的候選技術,而且作為資訊技術的組成部分,卻又獨立於資訊技術,即表示它有獨到之處。
電子科技革命的即將終結,一般認為即是指摩爾定律的終結——摩爾定律一旦無法延續,也就意味著資訊技術的整棟大樓建造都將出現停滯,那麼第三次科技革命也就正式結束了。這種聲音似乎是從十多年前就有,但這波革命始終也沒有結束。
AI技術本質上仍然是第三次科技革命的延續,它的發展也依託於幾十年來半導體科技的進步。這些年出現了不少專門的AI晶片——而且市場參與者相眾多。當某一個類別的技術發展到出現一種專門的處理器為之服務的程度,那麼這個領域自然就不可小覷,就像當年GPU出現專門為圖形運算服務一樣。
所以AI晶片被形容為CPU、GPU之後的第三大類電腦處理器。AI專用處理器的出現,很大程度上也是因為摩爾定律的發展進入緩慢期:電晶體的尺寸縮減速度,已經無法滿足需求,所以就必須有某種專用架構(DSA)出現,以快速提升晶片效率,也才有了專門的AI晶片。
另一方面,摩爾定律的延緩也成為AI晶片發展的桎梏。在摩爾定律和登納德縮放比例定律(Dennard Scaling)發展的前期,電晶體製程進步為晶片帶來了相當大的助益,那是「happy scaling down」的時代——CPU、GPU都是這個時代受益,不過Dennard Scaling早在45nm時期就失效了。
AI晶片作為第三大類處理器,在這波發展中沒有趕上happy scaling down的好時機。與此同時,AI應用對運算力的需求越來越貪婪。今年WAIC晶片論壇圓桌討論環節,燧原科技創始人暨CEO趙立東說:「現在訓練的GPT-3模型有1750億參數,接近人腦神經元數量,我以為這是最大的模型了,要千張Nvidia的GPU卡才能做。談到AI運算力需求、模型大小的問題,說最大模型超過萬億參數,又是10倍。」
英特爾(Intel)研究院副總裁、中國研究院院長宋繼強說:「前兩年用GPU訓練一個大規模的深度學習模型,其碳排放量相當於5台美式車整個生命週期產生的碳排量。」這也說明了AI運算力需求的貪婪,以及提供運算力的AI晶片不夠高效。
不過作為產業的底層驅動力,半導體製造技術仍源源不斷地為AI發展提供推力。本文將討論WAIC晶片論壇上聽到,針對這個問題的一些前瞻性解決方案——有些已經實現,有些則可能有待時代驗證。
XPU、摩爾定律和異質整合
「電腦產業中的貝爾定律,是說能效每提高1,000倍,就會衍生出一種新的運算形態。」中科院院士劉明在論壇上說,「若每瓦功耗只能支撐1KOPS的運算,當時的這種運算形態是超算;到了智慧型手機時代,能效就提高到每瓦1TOPS;未來的智慧終端我們要達到每瓦1POPS。 這對IC提出了非常高的要求,如果依然沿著CMOS這條路去走,當然可以,但會比較艱辛。」
針對性能和效率提升,除了尺寸微縮,半導體產業比較常見的思路是電晶體結構、晶片結構、材料等方面的最佳化,以及處理架構的革新。
(1)AI晶片本身其實就是對處理器架構的革新,從運算架構的層面來看,針對不同的應用方向造不同架構的處理器是常規,更專用的處理器能促成效率和性能的成倍增長,而不需要依賴於電晶體尺寸的微縮。比如GPU、神經網路處理器(NPU,即AI處理器),乃至更專用的ASIC出現,都是這類思路。
CPU、GPU、NPU、FPGA等不同類型的晶片各司其職,Intel這兩年一直在推行所謂的「XPU」策略就是用不同類型的處理器去做不同的事情,「整合起來各取所需,用組合拳會好過用一種武器去解決所有問題。」宋繼強說。Intel的晶片產品就涵蓋了幾個大類,Core CPU、Xe GPU,以及透過收購獲得的AI晶片Habana等。
另外針對不同類型的晶片,可能還有更具體的最佳化方案。如當代CPU普遍加入AVX512指令,本質上是特別針對深度學習做加強。「專用」的不一定是處理器,也可以是處理器內的某些特定單元,甚至固定功能單元,就好像GPU中加入專用的光線追蹤單元一樣,這是當代處理器普遍都在做的一件事。
(2)從電晶體、晶片結構層面來看,電晶體的尺寸現在仍然在縮減過程中,只不過縮減幅度相比過去變小了——而且為緩解電晶體性能的下降,需要有各種不同的技術來輔助尺寸變小。比如說在22nm節點之後,電晶體變為FinFET結構,在3nm之後,電晶體即將演變為Gate All Around FET結構。最終會演化為互補FET (CFET),其本質都是電晶體本身充分利用Z軸,來實現微縮性能的提升。
劉明認為,「除了基礎元件的變革,IC現在的發展還是比較多元化,包括新材料的引進、元件結構革新,也包括微影技術。長期賴以微縮的基本手段,現在也在發生巨大的變化,特別是未來3D的異質整合。這些多元技術的協同發展,都為晶片整體性能提升帶來了很好的增益。」
他並指出,「從電晶體級、到晶圓級,再到晶片堆疊、引線接合(lead bonding),精準度從毫米向奈米演進,互連密度大大提升。」從晶圓/裸晶的層面來看,則是眾所周知的朝more than moore’s law這樣的路線發展,比如把兩片裸晶疊起來。現在很熱門的chiplet技術就是比較典型的並不依賴於傳統電晶體尺寸微縮,來彈性擴展性能的方案。
台積電和Intel這兩年都在大推將不同類型的裸晶,異質整合的技術。2.5D封裝方案典型如台積電的CoWoS,Intel的EMIB,而在3D堆疊上,Intel的Core LakeField晶片就是用3D Foveros方案,將不同的裸晶疊在一起,甚至可以實現兩片運算裸晶的堆疊、互連。
之前的文章也提到過AMD剛發佈的3D V-Cache,將CPU的L3 cache裸晶疊在運算裸晶上方,將處理器的L3 cache大小增大至192MB,對儲存敏感延遲應用的性能提升。相比Intel,台積電這項技術的獨特之處在於裸晶間是以混合接合(hybrid bonding)的方式互連,而不是micro-bump,做到更小的打線間距,以及晶片之間數十倍通訊性能和效率提升。
這些方案也不直接依賴傳統的電晶體微縮方案。這裡實際上還有一個方面,即新材料的導入專家們沒有在論壇上多說,本文也略過不談。
1,000倍的性能提升
劉明談到,當電晶體微縮的空間沒有那麼大的時候,產業界傾向於採用新的策略來評價技術——「PPACt」——即Powe r(功耗)、Performance (性能)、Cost/Area-Time (成本/面積-時間)。t指的具體是time-to-market,理論上應該也屬於成本的一部分。
電晶體微縮方案失效以後,「多元化的技術變革,依然會讓IC性能得到進一步的提升。」劉明說,「根據預測,這些技術即使不再做尺寸微縮,也會讓IC的晶片性能做到500~1,000倍的提升,到2035年實現Zetta Flops的系統性能水準。且超算的發展還可以一如既往地前進;單裸晶儲存容量變得越來越大,IC依然會為產業發展提供基礎。」
500~1,000倍的預測來自DARPA,感覺有些過於樂觀。因為其中的不少技術存在比較大的邊際遞減效應,而且有更實際的工程問題待解決,比如運算裸晶疊層的散熱問題——即便業界對於這類工程問題的探討也始終在持續。
不過1,000倍的性能提升,的確說明摩爾定律的終結並不能代表第三次科技革命的終結,而且還有相當大的發展空間。尤其本文談的主要是AI晶片,而不是更具通用性的CPU。
矽光、記憶體內運算和神經型態運算
在非傳統發展路線上(以上內容都屬於半導體製造的常規思路),WAIC晶片論壇上宋繼強和劉明都提到了一些頗具代表性的技術方向(雖然這可能與他們自己的業務方向或研究方向有很大的關係)。這些技術可能尚未大規模推廣,或者仍在商業化的極早期。
(1)近記憶體運算和記憶體內運算:處理器性能和效率如今面臨的瓶頸,很大程度並不在單純的運算階段,而在資料傳輸和儲存方面——這也是共識。所以提升資料的傳輸和存取效率,可能是提升整體系統性能時,一個非常靠譜的思路。
這兩年市場上的處理器產品用「近記憶體運算」(near-memory computing)思路的,應該不在少數。所謂的近記憶體運算,就是讓儲存(如cache、memory)單元更靠近運算單元。CPU的多層cache結構(L1、L2、L3),以及電腦處理器cache、記憶體、硬碟這種多層儲存結構是常規。而「近記憶體運算」主要在於究竟有多「近」,cache記憶體有利於隱藏當代電腦架構中延遲和頻寬的局限性。
這兩年在近記憶體運算方面比較有代表性的,一是AMD——比如前文提到3D V-cache增大處理器的cache容量,還有其GPU不僅在裸晶內導入了Infinity Cache這種類似L3 cache的結構,也更早應用了HBM2記憶體方案。這些實踐都表明,儲存方面的革新的確能帶來性能的提升。
另外一個例子則是Graphcore的IPU處理器:IPU的特點之一是在裸晶內堆了相當多的cache資源,cache容量遠大於一般的GPU和AI晶片——也就避免了頻繁的訪問外部儲存資源的操作,極大提升頻寬、降低延遲和功耗。
近記憶體運算的本質仍然是馮紐曼架構(Von Neumann architecture)的延續。「在做處理的過程中,多層級的儲存結構,資料的搬運不僅僅在處理和儲存之間,還在不同的儲存層級之間。這樣頻繁的資料搬運帶來了頻寬延遲、功耗的問題。也就有了我們經常說的運算體系內的儲存牆的問題。」劉明說。
構建非馮(non-von Neumann)架構,把傳統的、以運算為中心的馮氏架構,變換一種新的運算範式。把部分運算力下推到儲存。這便是記憶體內運算(in-memory computing)的概念。
記憶體內運算的就現在看來還是比較新,也有稱其為「存算一體」。通常理解為在記憶體中嵌入演算法,儲存單元本身就有運算能力,理論上消除資料存取的延遲和功耗。記憶體內運算這個概念似乎這在資料爆炸時代格外醒目,畢竟可極大減少海量資料的移動操作。
其實記憶體內運算的概念都還沒有非常明確的定義。現階段它可能的內涵至少涉及到在儲記憶體內部,部分執行資料處理工作;主要應用於神經網路(因為非常契合神經網路的工作方式),以及這類晶片具體的工作方法上,可能更傾向於神經型態運算(neuromorphic computing)。
對於AI晶片而言,記憶體內運算的確是很好的思路。一般的GPU和AI晶片執行AI負載時,有比較頻繁的資料存取操作,這對性能和功耗都有影響。不過記憶體內運算的具體實施方案,在市場上也是五花八門,早期比較具有代表性的Mythic導入了一種矩陣乘的儲存架構,用40nm嵌入式NOR,在儲記憶體內部執行運算,不過替換掉了數位週邊電路,改用類比的方式。在陣列內部進行模擬運算。這家公司之前得到過美國國防部的資金支援。
劉明列舉了近記憶體運算和記憶體內運算兩種方案的例子。其中,近記憶體運算的這個方案應該和AMD的3D V-cache比較類似,把儲存裸晶和運算裸晶疊起來。
劉明指出,「這是我們最近的一個工作,採用hybrid bonding的技術,與矽通孔(TSV)做比較,hybrid bonding功耗是0.8pJ/bit,而TSV是4pJ/bit。延遲方面,hybrid bonding只有0.5ns,而TSV方案是3ns。」台積電在3D堆疊方面的領先優勢其實也體現在hybrid bonding混合鍵合上,前文也提到了它具備更高的互連密度和效率。
另外這套方案還將DRAM刷新頻率提高了一倍,從64ms提高至128ms,以降低功耗。「應對刷新率變慢出現拖尾bit,我們引入RRAM TCAM索引這些tail bits」劉明說。
記憶體內運算方面,「傳統運算是用布林邏輯,一個4位元的乘法需要用到幾百個電晶體,這個過程中需要進行資料來回的移動。記憶體內運算是利用單一元件的歐姆定律來完成一次乘法,然後利用基爾霍夫定律完成列的累加。」劉明表示,「這對於今天深度學習的矩陣乘非常有利。它是原位的運算和儲存,沒有資料搬運。」這是記憶體內運算的常規思路。
「無論是基於SRAM,還是基於新型記憶體,相比近記憶體運算都有明顯優勢,」劉明認為。下圖是記憶體內運算和近記憶體運算,精準度、能效等方面的對比,記憶體內運算架構對於低精準度運算有價值。
下圖則總結了業內主要的一些記憶體內運算研究,在精確度和能效方面的對應關係。劉明表示,「需要高精確度、高運算力的情況下,近記憶體運算目前還是有優勢。不過記憶體內運算是更新的技術,這幾年的進步也非常快。」
去年阿里達摩院發佈2020年十大科技趨勢中,有一個就是存算一體突破AI算力瓶頸。不過記憶體內運算面臨的商用挑戰也一點都不小。記憶體內運算的通常思路都是類比電路的運算方式,這對記憶體、運算單元設計都需要做工程上的考量。與此同時這樣的晶片究竟由誰來造也是個問題:是記憶體廠商,還是數文書處理器廠商?(三星推過記憶體內運算晶片,三星、Intel垂直整合型企業似乎很適合做記憶體內運算…)
(2)神經型態運算:神經型態運算和記憶體內運算一樣,也是新興技術的熱門話題,這項技術有時也叫作compute in memory,可以認為它是記憶體內運算的某種發展方向。神經型態和一般神經網路AI晶片的差異是,這種結構更偏「類人腦」。
進行神經型態研究的企業現在也逐漸變得多起來,劉明也提到了AI晶片「最終的理想是在結構層次模仿腦,元件層次逼近腦,功能層次超越人腦」的「類腦運算」。Intel是比較早關注神經型態運算研究的企業之一。
傳說中的Intel Loihi就是比較典型存算一體的架構,「這片裸晶裡面包含128個小核心,每個核心用於模擬1,024個神經元的運算結構。」宋繼強說,「這樣一塊晶片大概可以類比13萬個神經元。我們做到的是把768個晶片再連起來,構成接近1億神經元的系統,讓學術界的夥伴去試用。」
「它和深度學習加速器相比,沒有任何浮點運算——就像人腦裡面沒有乘加器。所以其學習和訓練方法是採用一種名為spike neutral network的路線,功耗很低,也可以訓練出做視覺辨識、語言辨識和其他種類的模型。」宋繼強認為,不採用同步時脈,「刺激的時候就是一個非同步電動勢,只有工作部分耗電,功耗是現在深度學習加速晶片的千分之一。」
「而且未來我們可以對不同區域做劃分,比如這兒是視覺區、那兒是語言區、那兒是觸覺區,同時進行多模態訓練,互相之間產生關聯。這是現在的深度學習模型無法比擬的。」宋繼強說。這種神經型態運算晶片,似乎也是Intel在XPU方向上探索不同架構運算的方向之一。
(2)微型化矽光:這個技術方向可能在層級上更偏高了一些,不再晶片架構層級,不過仍然值得一提。去年Intel在Labs Day上特別談到了自己在矽光(Silicon Photonics)的一些技術進展。其實矽光技術在連接資料中心的交換機方面,已有應用了,發出資料時,連接埠處會有個收發器把電訊號轉為光訊號,透過光纖來傳輸資料,另一端光訊號再轉為電訊號。不過傳統的光收發器成本都比較高,內部元件數量大,尺寸也就比較大。
Intel在整合化的矽光(IIIV族monolithic的光學整合化方案)方面應該是商業化走在比較前列的,就是把光和電子相關的組成部分高度整合到晶片上,用IC製造技術。未來的光通訊不只是資料中心機架到機架之間,也可以下沉到板級——就跟現在傳統的電I/O一樣。電互連的主要問題是功耗太大,也就是所謂的I/O功耗牆,這是這類微型化矽光元件存在的重要價值。
這其中存在的技術挑戰還是比較多,如做資料的光訊號調變的調變器調變器,據說Intel的技術使其實現了1,000倍的縮小;還有在接收端需要有個探測器(detector)轉換光訊號,用所謂的全矽微環(micro-ring)結構,實現矽對光的檢測能力;波分複用技術實現頻寬倍增,以及把矽光和CMOS晶片做整合等。
Intel認為,把矽光模組與運算資源整合,就能打破必須帶更多I/O接腳做更大尺寸處理器的這種趨勢。矽光能夠實現的是更低的功耗、更大的頻寬、更小的接腳數量和尺寸。在跨處理器、跨伺服器節點之間的資料互動上,這類技術還是頗具前景,Intel此前說目標是實現每根光纖1Tbps的速率,並且能效在1pJ/bit,最遠距離1km,這在非本地傳輸上是很理想的數字。
還有軟體…
除了AI晶片本身,從整個生態的角度,包括AI感知到運算的整個鏈條上的其他組成部分,都有促成性能和效率提升的餘地。比如這兩年Nvidia從軟體層面,針對AI運算的中間層、庫做了大量最佳化。相同的底層硬體,透過軟體最佳化就能實現幾倍的性能提升。
宋繼強說,「我們發現軟體最佳化與否,在同一個硬體上可以達到百倍的性能差距。」這其中的餘量還是比較大。
在AI開發生態上,雖然Nvidia是最具發言權的;但從戰略角度來看,像Intel這種研發CPU、GPU、FPGA、ASIC,甚至還有神經型態運算處理器的企業而言,不同處理器統一開發生態可能更具前瞻性。Intel有個稱oneAPI的軟體平台,用一套API實現不同硬體性能埠的對接。這類策略對廠商的軟體框架構建能力是非常大的考驗——也極大程度關乎底層晶片的執行效率。
在摩爾定律放緩、電晶體尺寸微縮變慢甚至不縮小的前提下,處理器架構革新、異質整合與2.5D/3D封裝技術依然可以達成1,000倍的性能提升;而一些新的技術方向,包括近記憶體運算、記憶體內運算和微型矽光,能夠在資料訪存、傳輸方面產生新的價值;神經型態運算這種類腦運算方式,是實現AI運算的目標;軟體層面的最佳化,也能夠帶動AI性能的成倍增長。所以即便摩爾定律嚴重放緩,AI晶片的性能、效率提升在上面提到的這麼多方案加持下,終將在未來很長一段時間內持續飛越。這第三(四)次科技革命恐怕還很難停歇。
資料來源:https://www.eettaiwan.com/20210726nt61-ai-computing/?fbclid=IwAR3BaorLm9rL2s1ff6cNkL6Z7dK8Q96XulQPzuMQ_Yky9H_EmLsBpjBOsWg
同時也有2部Youtube影片,追蹤數超過13萬的網紅Bes Joe Kampo,也在其Youtube影片中提到,🏴 加入 Youtube Discord 社群吧 ! : https://discord.gg/T2ErbtY 🏴成為這個頻道的會員並獲得獎勵: https://www.youtube.com/channel/UCByC1fbUNEALqVm6gGojZmw/join 🏴 FB: ...
「intel cpu演進」的推薦目錄:
- 關於intel cpu演進 在 台灣物聯網實驗室 IOT Labs Facebook 的精選貼文
- 關於intel cpu演進 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳貼文
- 關於intel cpu演進 在 哪裡好吃哪裡去:神秘的水原誠 Facebook 的最讚貼文
- 關於intel cpu演進 在 Bes Joe Kampo Youtube 的最讚貼文
- 關於intel cpu演進 在 RagaFinance財經台 Youtube 的最佳解答
- 關於intel cpu演進 在 [閒聊] AMD Zen 成功背後不為人知的故事- 看板PC_Shopping 的評價
- 關於intel cpu演進 在 【科普】回顾CPU发展史intel和AMD的爱恨情仇 - YouTube 的評價
- 關於intel cpu演進 在 intel cpu演進的問題包括PTT、Dcard、Mobile01,我們都能 ... 的評價
- 關於intel cpu演進 在 intel cpu演進的問題包括PTT、Dcard、Mobile01,我們都能 ... 的評價
- 關於intel cpu演進 在 intel cpu演進的問題包括PTT、Dcard、Mobile01,我們都能 ... 的評價
- 關於intel cpu演進 在 【Intel/AMD伺服器晶片的威脅】Amazon Graviton... 的評價
- 關於intel cpu演進 在 想請問筆電的celeron N系列處理器效能演進及筆電建議 的評價
- 關於intel cpu演進 在 AMD Zen CPU 架构以及不同CPU性能大PK 的評價
intel cpu演進 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳貼文
AI 時代的摩爾定律?黃氏定律靠的是自身技術力將 AI 性能年年加倍
作者 雷鋒網 | 發布日期 2020 年 12 月 16 日 8:45
1965 年,時任快捷半導體公司工程師,也是後來英特爾(Intel)的創始人之一的戈登·摩爾(Gordon Moore)提出了摩爾定律(Moore’s law),預測積體電路上可以容納的晶體管數目大約每經過 24 個月便會增加 1 倍。
後來廣為人知的每 18 個月晶片性能將提高 1 倍的說法是由 Intel CEO 大衛·豪斯(David House)提出。過去的半個多世紀,半導體行業按照摩爾定律發展,並驅動了一系列的科技創新。
有意思的是,在摩爾定律放緩的當下,以全球另一大晶片公司 NVIDIA 創始黃仁勳(Jensen Huang)名字命名的定律——「黃氏定律(Huang’s Law)」對 AI 性能的提升作出預測,預測 GPU 將推動 AI 性能實現逐年翻倍。
Intel 提出了摩爾定律,也是過去幾十年最成功的晶片公司之一。NVIDIA 作為當下最炙手可熱的 AI 晶片公司之一,提出黃氏定律是否也意味著其將引領未來幾十年晶片行業的發展?
AI 性能將逐年翻倍
受疫情影響,一年一度展示 NVIDIA 最新技術、產品和中國合作夥伴成果的 GTC China 改為線上舉行,黃仁勳缺席今年的主題演講,由 NVIDIA 首席科學家兼研究院副總裁 Bill Dally 進行分享。Bill Dally 是全球著名的電腦科學家,擁有 120 多項專利,在 2009 年加入 NVIDIA 之前,曾任史丹佛大學電腦科學系主任。加入 NVIDIA 之後,Dally 曾負責 NVIDIA 在 AI、光線追蹤和高速互連領域的相關研究。
在 GTC China 2020 演講中,Dally 稱:「如果我們真想提高電腦性能,黃氏定律就是一項重要指標,且在可預見的未來都將一直適用。」
Dally 用三個項目說明黃氏定律將如何得以實現。首先是為了實現超高能效加速器的 MAGNet 工具。NVIDIA 稱,MAGNet 生成的 AI 推理加速器在模擬測試中,能夠達到每瓦 100 tera ops 的推理能力,比目前的商用晶片高出一個數量級。
之所以能夠實現數量級的性能提升,主要是因為 MAGNet 採用了一系列新技術來協調並控制通過設備的訊息流,最大限度地減少數據傳輸。數據搬運是 AI 晶片最耗能的環節已經是當今業界的共識,這一研究模型以模組化實現能夠實現靈活擴展。
Dally 帶領的 200 人的研究團隊的另一個研究項目目標是以更快速的光鏈路取代現有系統內的電氣鏈路。Dally 說:「我們可以將連接 GPU 的 NVLink 速度提高一倍,也許還會再翻番,但電信號最終會消耗殆盡。」
這個項目是 NVIDIA 與哥倫比亞大學的研究團隊合作,探討如何利用電信供應商在其核心網絡中所採用的技術,通過一條光纖來傳輸數十路信號。據悉,這種名為「密集波分複用」的技術,有望在僅一毫米大小的晶片上實現 Tb/s 級數據的傳輸,是如今連網密度的 10 倍以上。
Dally 在演講中舉例展示了一個未來將搭載 160 多個 GPU 的 NVIDIA DGX 系統模型。這意味著,利用「密集波分複用」技術,不僅可以實現更大的吞吐量,光鏈路也有助於打造更為密集的系統。
想要發揮光鏈路的全部潛能,還需要相應的軟件,這也是 Dally 分享的第三個項目——全新程式語言系統原型 Legate。Legate 將一種新的編程速記融入了加速軟件庫和高級運行時環境 Legion,借助 Legate,開發者可在任何規模的系統上運行針對單一 GPU 編寫的程序——甚至適用於諸如 Selene 等搭載數千個 GPU 的巨型超級電腦。
Dally 稱 Legate 正在美國國家實驗室接受測試。
MAGNet、以光鏈路取代現有系統內的電氣鏈路以及 Legate 是成功實現黃氏定律的關鍵,但 GPU 的成功才是基礎。因此,GPU 當下的成功以及未來的演進都尤其重要。
GPU 是黃氏定律的基礎
今年 5 月,NVIDIA 發布了面積高達 826 平方毫米,整合了 540 億個晶體管的 7 奈米全新安培(Ampere)架構 GPU A100。相比 Volta 架構的 GPU 能夠實現 20 倍的性能提升,並可以同時滿足 AI 訓練和推理的需求。
憑藉更高精度的第三代 Tensor Core 核心,A100 GPU AI 性能相比上一代有明顯提升,此前報導,在 7 月的第三個版本 MLPerf Training v0.7 基準測試(Benchmark)結果中,NVIDIA 的 DGX SuperPOD 系統在性能上開創了 8 個全新里程碑,共打破 16 項紀錄。
另外,在 10 月出爐的 MLPerf Inference v0.7 結果中,A100 Tensor Core GPU 在雲端推理的基準測試性能是最先進 Intel CPU 的 237 倍。
更強大的 A100 GPU 迅速被多個大客戶採用,迄今為止,阿里雲、百度智能雲、滴滴雲、騰訊雲等眾多中國雲服務提供商推出搭載了 NVIDIA A100 的多款雲服務及 GPU 實例,包括圖像辨識、語音辨識,以及計算流體動力學、計算金融學、分子動力學等快速增長的高性能計算場景。
另外,新華三、浪潮、聯想、寧暢等系統製造商等也選擇了最新發布的 A100 PCIe 版本以及 NVIDIA A100 80GB GPU,為超大數據中心提供兼具超強性能與靈活的 AI 加速系統。
Dally 在演講中提到:「經過幾代人的努力,NVIDIA 的產品將通過基於物理渲染的路徑追蹤技術,即時生成令人驚豔的圖像,並能夠借助 AI 構建整個場景。」
與光鏈路取代現有系統內的電氣鏈路需要軟硬體的匹配一樣,NVIDIA GPU 軟硬體的結合才能應對更多 AI 應用場景苛刻的挑戰。
Dally 在此次的 GTC China上首次公開展示了 NVIDIA 對話式 AI 框架 Jarvis 與 GauGAN 的組合。GauGAN 利用生成式對抗網路,只需簡略構圖,就能創建美麗的風景圖。演示中,用戶可通過語音指令,即時生成像照片一樣栩栩如生的畫作。
GPU 是黃氏定律的基礎,而能否實現並延續黃氏定律,僅靠少數的大公司顯然不夠,還需要眾多的合作夥伴激發對 AI 算力的需求和更多創新。
黃氏定律能帶來什麼?
NVIDIA 已經在構建 AI 生態,並在 GTC China 上展示了 NVIDIA 初創加速計劃從 100 多家 AI 初創公司中脫穎而出的 12 家公司,這些公司涵蓋會話人工智慧、智慧醫療 / 零售、消費者網路 / 行業應用、深度學習應用 / 加速數據科學、自主機器 / IoT / 工業製造、自動駕駛汽車。
智慧語音正在改變我們的生活。會話人工智慧的深思維提供的是離線智慧語音解決方案,在佔有很少空間的前提下實現智慧交互,語音合成和語音辨識保證毫秒級響應。深聲科技基於 NVIDIA 的產品研發高質量中英文語音合成、聲音定制、聲音複製等語音 AI 技術。
對於行業應用而言,星雲 Clustar 利用 NVIDIA GPU 和 DGX 工作站,能夠大幅提升模型預測精確度以及解決方案處理性能,讓傳統行業的 AI 升級成本更低、效率更高。
摩爾定律的成功帶來了新的時代,黃氏定律能否成功仍需時間給我們答案。但這一定律的提出對 AI 性能的提升給出了明確的預測,並且 NVIDIA 正在通過硬體、軟體的提升和創新,努力實現黃氏定律,同時藉生態的打造想要更深遠的影響 AI 發展。
黃氏定律值得我們期待。
附圖:▲ NVIDIA GPU 助推 AI 推理性能每年提升 1 倍以上。(Source:影片截圖)
▲NVIDIA 首席科學家兼研究院副總裁 Bill Dally。
▲ 搭載 160 多個 GPU 的 NVIDIA DGX 系統模型。
資料來源:https://technews.tw/2020/12/16/huang-law-predicts-that-ai-performance-will-double-every-year/?fbclid=IwAR1vXHWAGt_b8nDRW6VUqzpAINX_n_DzJ0KwJvdBnl18s8Q1A3Thk7hgBoI
intel cpu演進 在 哪裡好吃哪裡去:神秘的水原誠 Facebook 的最讚貼文
由於美國對於中方的打壓持續了許久 據說大陸當局也加快了國內自主研發軟硬體的腳步 預計三年內在公部門取代使用Windows這個環境 而今天這個UOS, 就是基於這樣的情況下所誕生 最近UOS的官方網站最近也放出了試用版的系統, 只要申請就可以參加試用 ( ) 水哥發現比較有趣的是網頁帳號資料右下標示了中華民國, 不是臺灣呢! 這樣比較好 就讓我們來看看他的介面如何吧~~ 這個UOS系統據說是找了幾間已經擁有自家Linux系統的廠商(中國電子集團、武漢深之度科技有限公司、南京誠邁科技、中興新支點)來合作開發的, 有點像是合組公司吧? 與Deepin有點相像, 都是基於Debian穩定版的基礎上來研發的 而其實Deepin目前也是UOS的全資子公司, 相對來說UOS則是商業版 UOS與Deepin的關係就有點類似Redhat RHEL與Fedora的概念呢! 而且華為Matebook X Pro 2019款據說搭載的就是Deepin呢, 以華為的產品可靠度來說, 相信對於一般使用者來說沒什麼問題的! 水哥也因此對於這個UOS抱有不小的興趣 儘管我對Linux一直都不感興趣, 但對於自主研發的產品還是有點期待的 畢竟關鍵技術怎麼能夠一直在受制於他國呢? 像是以前我也用威盛的處理器與晶片, 但無奈歷史的演進還是比較殘酷的 不過我想這種問題目前應該也不再是問題了吧... UOS除了支援常見的Intel與AMD處理器之外, 國產的六大品牌CPU也都完全支援! 其中的兆芯就是繼承威盛的技術(x86架構)而來, 而Kun Peng(鯤鵬)背後正是推出Kirin(麒麟)處理器的華為(ARM架構)阿 所以說, 這個UOS應該也是同時支援x86與ARM架構的作業系統吧 這個UOS水哥一共裝了三個平台 分別是VMware ESXi, VMWare Workstation與Virtual Box 其中在VMware ESXi下安裝的UOS無法抓到網路卡, 但Workstation與VirtualBox則是沒問題的 [ 196 more words ]
https://mshw.info/mshw/?p=21635
intel cpu演進 在 Bes Joe Kampo Youtube 的最讚貼文
🏴 加入 Youtube Discord 社群吧 ! : https://discord.gg/T2ErbtY
🏴成為這個頻道的會員並獲得獎勵:
https://www.youtube.com/channel/UCByC1fbUNEALqVm6gGojZmw/join
🏴 FB: https://www.facebook.com/BesJoeKampo/
🏴 Twitch : https://www.twitch.tv/besjoe
🏴 俠盜獵車手 5 LSPDFR : https://www.youtube.com/playlist?list=PLXkueqfz7ig0sl1blPQg4EExD2E5vhrB_
🏴 俠盜獵車手 5 PC 清單 : https://www.youtube.com/playlist?list=PLXkueqfz7ig3NoXzYOx3CxQ_LI61J96Jx
🏴 俠盜獵車手 4 教學清單 : https://www.youtube.com/playlist?list=PLXkueqfz7ig1adycK_Nc4TemPFVdubrFN
🏴 俠盜獵車手 4 遊戲影片 : https://www.youtube.com/playlist?list=PLXkueqfz7ig3KwnwO5GT4WT68HiKrIRsO
👉👉有意願贊助嗎 ? 👈👈
➤Paypal : https://streamlabs.com/besjoekampo
➤電腦配備 💻🎮
1. CPU : Intel i9 9900K 3.60GHz
2. 快睿 R1 Ultimate CPU 塔散
3. 主機板 : ASUS ROG STRIX Z390-F GAMING
4. 記憶體 : 金士頓 16GBG*2 DDR4-3200 HyperX Predator RGB
5. 硬碟 : Toshiba 2TB + Samsung SSD 970 EVO Plus 500G
6. 顯示卡 : 技嘉 GTX1660Ti 6G
7. 螢幕 : Samsung C24RG50FQZ 曲面螢幕
8. 電源供應器 : 全漢 黑爵士 850W
9. 作業系統 : Windows 10
10. 主機殼 : 賽德斯 RA 太陽神拉
intel cpu演進 在 RagaFinance財經台 Youtube 的最佳解答
主持:小兵、Danny、Becky
www.RagaFinance.com
RagaFinance Facebook:
https://www.facebook.com/ragafin/
《Calvin直播室》眾籌計劃 ?
http://patreon.com/calvinchoy
◎◎◎訂閱 ◎◎◎▶Ragazine : https://www.youtube.com/channel/UC5DWcqCjBne2-wRnrjxkuHQ ▶Raga Finance: https://www.youtube.com/c/RagazineFinanceVideo▶Giggs.hk: https://www.youtube.com/channel/UCVZTkv6LM-_xWUM9t-jS5JA
※※※想知道我們每天的動向※※※ ▶Web http://www.ragazine.com.hk/▶
Web http://www.ragafinance.com/
▶
Web http://www.giggs.hk
▶
FB (Ragazine) : https://www.facebook.com/www.ragazine.com.hk/
▶
FB (Raga Finance) : https://www.facebook.com/ragafin/
▶
FB (Giggs,hk) : https://www.facebook.com/www.giggs.hk
▶
IG ( https://www.instagram.com/ragazinehk/
◆◆◆工商聯絡◆◆◆ ▶
E-MAIL : ragazine@ragazine.com.hk
#IPHONE #APPLEIOS #INTEL
intel cpu演進 在 【科普】回顾CPU发展史intel和AMD的爱恨情仇 - YouTube 的推薦與評價
Share your videos with friends, family, and the world. ... <看更多>
intel cpu演進 在 intel cpu演進的問題包括PTT、Dcard、Mobile01,我們都能 ... 的推薦與評價
國立中興大學資訊科學研究所林偉所指導蔡昌航的 中央處理器效益監視工具設計與製作(1999),提出intel cpu演進關鍵因素是什麼,來自於效能資料、驅動程式、擬機器管理 ... ... <看更多>
intel cpu演進 在 [閒聊] AMD Zen 成功背後不為人知的故事- 看板PC_Shopping 的推薦與評價
癡漢水球寫了一篇應該是目前中文圈科技媒體
對於Zen的前世今生到裡面的各種技術細節的最詳細科普長文
也是他最近少見比較偏硬的文章
對於想了解Zen架構的人來說很值得一讀
建議點進去看文圖並茂網頁版
--
AMD Zen 成功背後不為人知的故事
https://technews.tw/2020/07/01/story-of-amd-zen/
自從 2017 年 AMD 準時推出「技術規格看起來稍微正常點」的 Zen 微架構 CPU 後,總
算脫身逃離了 2011 年以來推土機(Bulldozer)家族「4 年走音工地秀」的泥沼,回到
跟英特爾正面對決互毆的擂台,而 2019 年 7 奈米製程的 Zen 2,在 2015 年後就擠牙
膏擠到青黃不接的當下,更讓 AMD「稍微」重現了十多年前 K8 時代的輝煌。這些各位讀
者都很熟悉的故事,就無需浪費篇幅錦上添花──即使背後充滿看不見的波濤。
俗語說得好,失敗為成功之母,任何成功都建立在一路累積的基礎上,AMD 亦不能免俗,
讓 Zen 成功的一切條件,無不是奠基於過往的遺產與教訓。我們就由遠到近,一步步抽
絲剝繭,重新踏上這條 AMD 走了 25 年的漫漫長路。
Zen 才是真正的 K10
AMD CPU 代號的 K 源自「(Intel Pentium)Killer」,眾人皆知的 AMD 高效能 x86
CPU 演進如下(不包含小核心 Bobcat 體系):
K5(1996):由超純量(Superscalar)架構大師 Mike Johnson 親自操刀的「Pentium
Killer」,但英特爾並未開誠布公的公開 Pentium 新增指令細節,為了確保與 100% 跟
Pentium 相容,逆向工程搞了很久,上市日期一再延宕,讓痴痴等待的 Compaq 等不及
。
K6(1997):直接購併 NexGen,修改現成的 Nx686,取消類似 Pentium Pro 的 L2 快取
專用匯流排,到內建 L2 快取的 K6-2+和 K6-III 才算大功告成,但已時不我與。
K7(1998):出身 DEC Alpha 團隊的 Dirk Meyer 變成的「x86 世界的 Alpha 21264」
,AMD 首次能與英特爾全面性較量效能。
K8(2003):Fred Weber 主導的 K7 強化版+x86-64+伺服器等級的 RAS(
Reliability, Availability and Serviceability)+HyperTransport+整合型記憶體控
制器,讓 AMD 悲願成就,一舉攻入高獲利的企業伺服器市場。
K9:英文發音近似「狗」(Caine),太過負面,因此沒這個代號。
K10(2007):4~6 核 K8 強化版+整合式 L3 快取記憶體,AMD 開始「包水餃」兩顆打
一顆,也逐漸無力抵抗英特爾小步快跑的鐘擺(Tick Tock)攻勢。
K11(2011):由 IBM Power4 的總工程師 Chuck Moore 操刀,接連四代被英特爾鐘擺痛
扁的「推土機」(Bulldozer)家族,叢集式多執行緒(CMT)和模組化浮點運算器暗藏了
AMD 對 Fusion 大戰略的熊熊野心與對未來 GPGPU 局勢的離譜誤判。
K12(預定 2017):從頭到尾搞笑的「全新高效能 64 位元 ARM 處理器」,還沒開始就
結束了,只活在簡報裡,無愧當時「簡報王」名號。
Zen(2017):深度管線、追求高時脈、同時多執行緒(SMT),根本是 Andy Glew 原先
的 K10 原案投胎轉世。
總之,嚴格說來,Zen 才是「真正的 K10」。這句話你可以仔細再看一次,我會等你。
1990 年代初期創造英特爾革命性 P6 微架構 5 位總工程師之一的 Andy Glew,對英特爾
內部提議代號「Yamhill」的 64 位元 x86 指令集被拒絕,2002 年跳槽到 AMD 參與
x86-64 指令集的制定工作,並短暫擔任 K10 總工程師。為何說「短暫」?他老兄原本
提案的 K10 是類似英特爾 NetBurst 的設計:深度管線、追求高時脈、未犧牲執行單元
寬度、同時多執行緒(SMT),然後就又被打槍了,只是這次動手的換成 AMD 高層。
他老兄一不爽,又在 2005 年跳回前東家英特爾,但恐怕運氣一直不太好,加入因太過「
史詩級災難」(單核心晶粒面積 213mm2 幾乎是 Prescott 兩倍,TDP 又超過 150W 上
看 166W)而慘遭腰斬的 Tejas 開發案。2009 年再度離開英特爾,歷經 MIPS 和 nVidia
。瞧瞧 LinkedIn 的個人介紹,現在正待在搞 RISC-V 的 SiFive。
為何真正的 K10 會沉寂這麼久才浮上檯面?這跟 AMD 研發能量明顯遠不及英特爾、難以
承擔精密複雜的微架構有很大關係,一顆當兩顆用的 SMT 並不是好開發驗證的東西。據
AMD 在 1998 年申請的幾份專利文件,原始 K8 有兩版,共同點只有一個:兩個簡單的
「外寬內窄」小核心,明眼人腦中應該馬上浮現推土機的雛型了。
但 AMD 大概是靠 K7 和 K8 日子過太爽了,遑論 K8 讓 AMD 大舉入侵高利潤、市場動量
又很持久(意思是產品暫時輸人,也不會很快被趕出來)的伺服器市場,「先講求不傷身
體,再講求效果」的維穩心態作祟,或在 2006 年 7 月耗費 54 億美元購併 ATI 這件事
,燒了太多錢,不得不節約研發經費,遲遲不見全新後繼接班人。
此外,AMD 融合 CPU 和 GPU 的「Fusion 大戰略」(The Future Is Fusion)也影響了
CPU 發展策略。AMD 過度樂觀預期 GPU 的泛用化進程,認定假以時日 GPU 將可取代
CPU 的浮點或部分 SIMD 整數運算,讓推土機變成依附 Fusion 的附庸,擺明當「天時
、地利、人和」三者兼備時,直接用 GPU 換掉兩個簡單整數運算核心共用的浮點運算器
。
不過推土機在商業競爭失敗,並不代表對之後 Zen 的成功毫無貢獻,除了讓 AMD 得到足
夠「不能亂搞管線前端」的教訓,讓分支預測與指令管線拖鉤的解耦式分支預測器(
Decoupled Branch Predicator)是支撐 Zen 效能競爭力的一大功臣,甚至是 Zen 2 可
實做「機械學習分支預測器」的地基。各位別急,後面會提到。
反過來利用晶圓代工商業模式來提高電晶體密度與生產良率
AMD 創辦人 Jerry Sanders 有一句名言「有晶圓廠才是真男人」(Real men have fabs
),在今日真是莫大的諷刺。
雖然像英特爾和昔日 AMD 的高度垂直整合 IDM(Integrated Design and Manufacture)
商業模式,可確保設計和製程彼此最佳化,但在追求 Time To Market 的世界,專業的無
晶圓廠 IC 設計公司(Fabless IC Design House)、IP 授權提供者、電子輔助設計工具
(EDA Tool)與晶圓代工業者(Foundry)的高度分工,卻更能藉由成熟的「研發供應鏈
」互通有無,沿用早被諸多客戶千錘百鍊的晶圓廠製程參數、現有 IP 功能模組和函式庫
,迅速完成產品的開發與驗證,並縮短時程降低成本。
SPARC 兩位要角之一的 Fujitsu,會在新世代 HPC 產品 A64FX 轉向 ARM 並交由台積電
7 奈米製程代工,其因在此,光曾被蘋果和眾多客戶「嚴刑拷打」的寶貴經驗,對盡快
搞定產品絕對是重中之重的無價之寶。
這件事也發生在放棄自有晶圓廠的 AMD。K11 時代,AMD 反過來利用晶圓代工生產 GPU
的高密度函式庫和自動化設計工具,砍掉多達 30% 的 CPU 晶片面積與耗電量,特別是過
往「動用大量人力手工布線才能電路最佳化」的功能單元,如複雜的浮點運算器。「GPU
的電路設計最佳化程度優於 CPU」這檔事,在 21 世紀初期的 AMD 連想都不敢想。
這些經驗和努力,對 Zen 的成功絕對舉足輕重。就商業角度來看,這也讓 AMD 未來保有
開發新型商業模式的彈性,中國中科海光(Hygon)的 Dhyana 就是採用授權的 Zen 核心
,當然美國政府願意「樂觀其成」那又是另一回事了。
「RISC86」與 4 道 x86 指令解碼的先行者
將指令格式與定址模式複雜到讓人頭痛的 x86 指令,在指令解碼階段「轉譯」成一至數
個固定長度、格式簡潔的「類 RISC」微指令(Microinstruciton),以簡化處理器執行
單元與資料路徑的設計,利於提升時脈,並「將電晶體預算砸在最值得被加速的簡單指令
,不常用到的複雜指令,就用微碼(Microcode)ROM 產生 ROP 微程式慢慢跑」,已是
20 年來 x86 CPU 的共同特色,超純量架構大師 Mike Johnson 領銜的 K5 則是先驅(
如果不限超純量,NexGen Nx586 則稍早),將非固定長度的 x86 指令解碼成平均 59
Bits 長的 ROP(RISC86 Operation,發音是「ar-op」)。
AMD K5 還有個值得紀念之處:x86 史上首款單一核心最多可同時解碼 4 個 x86 指令的
CPU,下一款是相隔近十年的英特爾 Merom 了,不提尷尬的 K11,AMD Zen 更晚了自家
「前輩」超過 20 年。
強化非循序指令執行效率的兩段式微指令轉譯與「類 VLIW」的微指令派發
x86 CPU 的指令解碼器將 x86 指令轉成微指令,看起來好像很美好,但隨著 CPU 可同時
非循序執行的指令數量越來越多,「微指令洪災」就變成大麻煩,需要複雜的功能單元與
相對應的電路成本,監控管理一海票微指令的生老病死與相依性,這也不利減少 CPU 功
耗。
在這就非得岔題談一談「首款雙核心伺服器 CPU」的 IBM Power4 了,為縮減指令控制邏
輯的複雜度,Power4 一次將 5 個解碼後的指令「打包」成一個「一個蘿蔔一個坑、每個
指令垂直對應一個執行單元」的超長指令(VLIW)包(一時腦筋轉不過來,可想一下
AMD GPU 以前的 VLIW5),裡面 5 個指令全部執行完畢才能退返(Retire),控制邏輯
單元只需管控相當於 100 個指令的 20 個指令包,這讓 Power4 這部分電路規模只有前
代 Power3 的一半,且更便於拉抬 CPU 時脈。
AMD 則是從 K7 開始兩段式微指令轉譯,指令解碼器先將 x86 指令解碼一至兩個 MOP(
Macro-Operation),到了內部要在指令保留站(Reservation Station)「派發」(
Dispatch)到執行單元前,再拆成更小的 uOP(發音「ur-op」),接著才「真槍實彈上
陣」,避免一開始就把微指令拆光光,淹沒指令管理單元,也變相將指令解碼器的複雜度
分散到「大後方」。
關於無法直接用「Fast Path」指令解碼器處理成 MOP 的複雜指令,由「Vector Path」
的微碼 ROM 產生一系列 MOP 微程式。前面就提過,所謂「RISC86」真正的精神就如同
RISC:把經常用到的情況盡可能加速(Make The Common Case Fast.),將最佳化資源
集中在最常碰到的刀口。
同期英特爾的手段就讓人莞爾,起源於 Pentium M 的「Macro-Fusion」,英特爾直接藉
由增加指令保留站的運算元數量,削減 CPU 內部微指令的總量,例如用一個三運算元(a
=b+c)微指令代替兩個(a=a+b),說穿了也稱不上什麼「融合」,或還不如說「本
來就應該這樣做」更貼切。
相對英特爾從 Merom 開始,指令保留站某些 Port 擠滿了一堆不同性質執行單元的「爆
漿撒尿牛丸」樣貌,AMD 那「整數浮點一邊一國的簡潔風」在「簡單就是美」的推土機展
露無疑,非常「VLIW」,就算沒有像 IBM Power4 那樣「指令打包送快遞」,但看在總工
程師都是同一位如假包換的 Chuck Moore 份上,企圖簡化複雜度以追求更高運作時脈與
更高投資效益的意圖是一致的。
儘管推土機家族的下場不是太好看,但類似理念也同樣被 Zen 繼承,反正各位只需了解
一個殘酷的現實:畢竟 AMD 的研發能量遠不如英特爾,不見得有雄厚本錢採取過於精密
複雜的架構風格,此類「窮人思維」在 AMD CPU 發展史上無所不在。
尋尋覓覓千百度才穠纖合度的分支預測
「電腦 」(Computer)和「計算器 」(Calculator)的不同點在於:電腦具備「條件判
斷」的能力,依據不同條件,執行不同指令流。各位可將電腦程式的運作流程,想像成一
個「棋盤」,以一個角落為起點,對角線的角落當終點,在棋盤上反覆移動,不限制前進
或後退。如發生條件判斷的分支(Branch,必須先等待條件判斷的執行結果,才能判定該
分支「發生」),或無條件判斷的跳躍(Jump),就會變更指令流,並中斷指令管線運作
,尤其前者傷害指令管線化的 CPU 效能,才需要「以古鑑今」的分支預測(Branch
Prediction)技術。
「過猶不及」的「分支預測」一向公認是 AMD 落後英特爾的技術弱點,到了 Zen 才改觀
。賈誼〈過秦論〉那句意謂秦始皇繼承六代功業的「奮六世之餘烈」,套用到 Zen 看似
突破性的分支預測技術,實在再適合不過了,在 Zen 之前,剛剛好也是 6 世代:K5、K6
、K7、K8、K10、K11,有夠巧。
因 K11 的分支預測技術和前代相比簡直徹頭徹尾大相逕庭,故不列於下表。
一般我們談到的是「動態」分支預測,透過小型化快取記憶體,記錄分支行為的歷史,並
隨時蒐集各類參考資訊,動態的修正預測的結果。近年來拜「CPU 安全漏洞」所賜,「預
測執行 」(Speculative Execution)、「非循序執行 」(Out-Of-Order Execution)
和「分支預測」等技術名詞,變得非常熱門也經常混淆。
各位只要記得,對近代高效能 CPU,「預測執行=分支預測+非循序執行」,CPU 根據分
支預測的結果,先斬後奏「賭博」性執行指令流,再藉由非循序執行引擎維護指令執行順
序的一致性,以及當預測錯誤時,回復該分支前的處理器狀態。
分支預測究竟有多重要?假如有一顆 CPU 沒有任何分支預測機制(或說有,但總是預測
錯誤),當執行分支指令時,直到目標指令被擷取,所需要的時脈週期數「分支傷害」(
Branch Penalty)是 3 個時脈週期,分支占了程式碼五分之一,那會損失多少效能?
3 * ⅕ =0.6
1 / (1+0.6) = 0.625
我們就可簡單推算出,平均執行每個指令都會多出 0.6 個時脈週期,等於增加 60% 執行
時間,執行效能僅剩下 62.5%。
很不幸的,這個簡單的案例還真的有倒楣的苦主:AMD K5 的初版「SSA/5」(PR75 到
PR100),因不明原因,分支預測功能被關閉,還「附贈」奇怪的 CPU 閒置狀態,「完
全體」5K86(PR120 到 PR200)的同時脈效能就硬是多了整整 30%。讓人極度好奇,假若
Compaq 知道他們死撐著不用 Pentium,只為了等待這樣的產品,會做何感想。
K5 的分支預測超級陽春,準確率僅 75%。當連續執行分支指令時,等於每道指令平均多
0.75 個時脈週期,沿用上面「分支占五分之一」的算法是 0.15,效能僅剩 87%,怎麼
看分數都不及格。但這時各位也應心知肚明,後期 K5 多出來的 30% 效能大致上是怎麼
來的,分支預測的確發揮了關鍵性作用。
(75% * 0) + (25% * 3) = 0.75
0.75 * ⅕ = 0.15
1 / (1 + 0.15) = 0.87
購併 NexGen 而來的 K6 卻是 AMD 史上罕見的「過度投資」,和 K5 同為六階管線、但
最多只能解碼兩個 x86 指令的 K6,在分支預測暴力到整個過頭,足以傲視 AMD 歷代
CPU 架構,但這是天大的浪費,況且分支預測越複雜,發生錯誤的回復時間也就越長,
K6 的錯誤代價就硬比 K5 多出一到兩個時脈週期(3 vs. 4 或 5)。
K6 的分支預測準確率號稱高達 95%,我們可推算出執行每個分支指令只會多出 0.2 到
0.25 個時脈週期,「分支占五分之一」就 0.04 到 0.05,效能維持在 95% 到 96%,遠
勝過 K5。
(95% * 0) + (5% * 4) = 0.2
(95% * 0) + (5% * 5) = 0.25
1 / (1 + 0.04) = 0.96
1 / (1 + 0.05) = 0.95
不知道是不是針對 K6「過度投資」的反動,或是覺得過於複雜的分支預測只會帶來反效
果,AMD 在 1998 年 Microprocessor Forum 揭露 K7 的神祕面紗時,最讓人意外的不是
和 DEC Alpha 21264 如出一轍的「體格」,而是「Long Pipeline, But Simple Branch
Predictor」。
對外界種種質疑,AMD 堅持「更精確的分支預測器只會帶來更複雜的設計、更多的預測時
脈週期與回復效能損失」,還更大膽的將標準的 2 位元 Smith 演算法 4 種狀態,砍成
只剩下 3 種(將 Strongly not taken 和 Weakly not take 合為一種 not taken)。對
照 K7 壓倒性的龐大執行單元,在這種小地方偷工減料,真的是莫大諷刺,但更扯的還在
後頭。
演進自 K7 的 K8 與「壓榨 K8 剩餘價值」的 K10,指令管線更深,沒有擺爛裝死的藉口
,乍看之下「知恥近乎勇」亡羊補牢,但卻很精明的利用「L1 / L2 互斥性快取(
Exclusive Cache)」的特性,趁著資料從 L1 指令快取「被驅逐」(Evicted)寫入 L2
快取時,將分支選擇器「偷放」在 L2 快取記憶體包含指令的快取區塊之 ECC 欄位,「
節儉」至此,堪稱一絕。
受制於不佳的分支預測精準度與「連如此簡單的整數核心都餵不飽」的 L1 指令快取記憶
體,甚少人注意到指令管線深達 20 階的 K11,解耦式分支預測器(Decoupled Branch
Predicator)早已默默為 Zen 2 的「機械學習分支預測器」TAGE(TAgged GEometric)
分支預測器預先埋好了路基。
相近於今日少人知悉的 Rise mP6,K11 不等發生指令快取誤失才去抓取目標指令,推土
機的分支預測機制與指令擷取「脫鉤」,主動標定分支預測目標的相對位址,如不存在於
指令快取內,就「主動出擊」預先擷取,可掩蓋發生快取誤失時的延遲,並替更耗時的機
械學習分支預測器「爭取訓練的時間」。
依照 AMD 的說法,Zen 2 的分支錯誤率比 Zen 減少了 30%,意味著 Zen 從 97% 的精確
度提升到 Zen 2 的 98%。但不論解耦式分支預測器還是機械學習分支預測器 TAGE,都是
英特爾研究多年並發表過學術論文的產物,很可能早就導入產品了,但沒刻意拿出來說嘴
。不過花了這麼長的時間,AMD 總算在分支預測趕上英特爾的水準,仍值得可喜可賀。
激增有效實質容量的互斥性快取架構
各位有沒有想過:Ryzen Threadripper 3990X 的「288MB」快取容量究竟是怎麼算出來的
?
答案是「64 核心 × 512kB 第二階快取」加上「8 個 CCD × 2 個 CCX × 16MB 第三階
快取」 ,因兩邊的內容是「互斥」(Exclusive)的,而第二階快取完全包含(
Inclusive)了第一階快取的內容,所以有效容量是 32MB+256MB=288MB,這也是 AMD
CPU 從 K7 後期至今,一個持之以恆的共同特徵,而英特爾則從 Nehalem 開始,走上另
一條徹底相反的路線。
互斥性快取架構的發生背景是 K7 從 Thunderbird 開始,CPU 直接整合 256kB 或 64kB
第二階快取記憶體,但 K7 的第一階快取總容量多達 128kB,不讓兩者「油水分離」,將
會浪費大量的有效容量,如 Duron 的 L1 竟然還是 L2 兩倍的蠢事(128kB vs. 64kB)
。從 K7 到 K10 是 L1 / L2 互換,K11 到 Zen 則調整成 L2 / L3 輪轉。
K8 / K10 利用這點,趁 L1 指令快取的資料搬到 L2 時,將分支選擇器隨著預先解碼(
Pre-decoded)和奇偶校驗(Parity)欄位,一併寫入確定存放指令的 L2 快取區塊之
ECC 欄位,但互斥性快取架構也是 AMD CPU 最末階快取延遲過長的元兇。
伺服器等級的記憶體自動偵測容錯機
伺服器要的是 RAS:可靠性(Reliability)、可用性(Availability)、可服務性(
Serviceability),而最大的潛在威脅,莫過於構成地球低強度背景輻射的帶電粒子,所
引起位元翻轉的記憶體軟錯誤(Soft Error),動輒偶發的多位元錯誤更是一大挑戰。
K8 之所以能替 AMD 敲開伺服器天堂的大門,被偵錯容錯機制高度保護的快取記憶體與主
記憶體,以及檢測硬體錯誤並回報軟體進行復原處理的硬體檢查架構(Machine Check
Architecture,MCA),統統功不可沒。
從 K8 到 Zen,ECC(Error-Correcting Code)越來越強悍,L1 資料快取記憶體可「修
復單位元錯誤,偵測雙位元錯誤」,L2 / L3 快取記憶體更「修復雙位元錯誤,偵測三位
元錯誤」,但「資料損壞了頂多重抓」的 L1 指令快取「不太需要完善保護,只須奇偶校
驗」的原則毫無改變的跡象,事實上也沒必要,起碼節約成本。
K8 整合式記憶體控制器支援防止記憶體多位元錯誤的 Chipkill 技術,如何做到?下面
這張圖闡述得非常清晰。
既然記憶體模組使用的 ECC 演算法無法糾正超過單位元的錯誤,那麼我們就「分而治之
」,讓超過單位元的錯誤,不會出現在單一記憶體模組。假設有 4 條記憶體模組,而記
憶體模組顆粒資料匯流排的寬度為 4 位元,我們各自分開存放 ECC 偵錯碼的額外顆粒的
4 條資料線,和另外 3 條模組的資料線組成 4 位元寬度,即可預防單一記憶體模組發
生超過 1 位元的錯誤。
論伺服器可靠性 RAS,英特爾、AMD 是半斤八兩,像在 Nehalem-EX(Xeon 7500 系列)
時期,英特爾硬把 Itanium 一整套搬到 x86 平台變成「MCA Recovery」,可在記憶體區
塊標示硬體無法修復的錯誤,通知作業系統或虛擬機器管理員不再使用這些單元,關閉標
示錯誤的資料並重新啟動程式,AMD 也從來沒有缺席(軟體支援性就見仁見智了),但
AMD 在 21 世紀初期曾短暫從英特爾手上奪過伺服器的技術優勢,依然值得大書特書。
經過千錘百鍊的快取資料一致性協定
快取資料一致性協定(Cache Coherence Protocol)對多核心與多處理器平台的效能的重
大影響,無論怎麼說都是「著毋庸議」的,不只伺服器 RAS,x86 CPU 在 AMD K7 問世的
MOESI 協定,相較於行之有年的 MESI,Owner 狀態允許尚未更新主記憶體的內容前,不
同 CPU 之間可提前共享、並交換修改後的快取區塊,可大幅減輕系統匯流排的壓力,這
因 K8 整合記憶體控制器,而在多處理器環境,讓主記憶體分散在四處的 NUMA(
Non-Uniform Memory Access)架構,更是決定效能的關鍵。
AMD 或多或少有英特爾的 MESIF 協定殷鑑在前,Zen 進一步擴充成 MDOEFSI。
L3 快取「海納」L2 快取標籤(Tag)的巧思,使其搖身一變,成為可過濾快取一致性協
定廣播的 Probe Filter(或稱之為 Snoop Filter,AMD 的行銷名稱是 HT Assist),不
必像 K10 切割部分 L3 快取容量,或在系統晶片組塞一大塊 SRAM 當成記錄所有快取區
塊狀態的目錄,僅付出低成本實現高效率的快取一致性。
將 MDOEFSI 協定的細節束之高閣,目前看來在實體 CPU 晶片(CPU Complex)數量極多
的 EPYC 和 Threadripper 運行還不錯,長期大型單一晶粒共用 L3 快取的英特爾卻沒有
這樣的特殊考量,也許當英特爾哪天基於成本因素,被迫和 AMD 一起「包水餃」,那時
才是考驗英特爾快取一致性協定的最佳時機。
支援大量處理器延展性的系統連結架構
最近 AMD 在財務分析師大會發表名為「Infinity Architecture」的 Infinity Fabric
3.0,不僅可連接多顆 CPU 和多顆 GPU,更可當成 CPU 和 GPU 之間的橋梁。
但這對 AMD 來說並非新穎的概念,AMD 早在十幾年前 K8 的 HyperTransport 就打算這
樣幹了,而 Infinity Fabric 就是從 HyperTranspor 延展出來的「超集合」,擁有更完
整的功能,從定義 AMD 內部 SoC IP 區塊的通用控制方式,到解決異構資料一致性的互
連方案,都是持續進化中的 Infinity Fabric 可大展身手的領域。
AMD 未來面對的挑戰依舊嚴峻
本文標題並不表示 AMD 這間公司就此功德圓滿。回顧 25 年的 AMD K 系列 CPU 迢迢來
時路,想必各位可漸漸感受到身為碩果僅存英特爾唯一 x86 競爭者(好吧,勉強還有台
灣 VIA 的 Centaur 和俄羅斯的 Elbrus),面對資源數倍於己的超級強敵,身處毫無犯
錯餘裕、如履薄冰、步步為營的艱困處境,研製產品時的取捨與掙扎,更是 AMD 困境的
縮影。
至於時下的 AMD 是否「已經」成功,也是個巨大的問號,伺服器市場市占率、營收與獲
利仍遠遠不及 K8 核心 Opteron 全盛期水準,另一邊的 GPU 戰場,還是被 nVidia 壓著
打,實際上只能算勉強站穩腳步,離「成功」兩字仍有一段相當長的距離。AMD 另一個比
較大的潛在危機在於「未來性」,這和公司能真正「發大財」互為表裡。
如果對比「蘇大媽」和「皮衣教主」的演講內容,相信大多數人仍會覺得前者「相當傳統
保守」,後者「象徵光明未來」。從量子電腦、人工智慧到自駕車等新興應用,AMD 統統
沾不上邊,連在高效能運算市場要反攻 Top500 席次都還頗有難度,唯有鞏固並擴張資料
中心的獲利與營收,才有足夠銀彈投資未來。偏偏這裡又是英特爾重兵集結、拚死防禦、
明槍暗箭明招暗招毫無保留的「現金母牛」(Cash Cow),絕不會平白拱手讓人。
AMD 能否守住得來不易的戰果,唯有寄望晶圓代工商業模式有機會讓英特爾的製程霸權從
此一去不復返,或英特爾再度犯下重大戰略失策,但筆者對此的態度並不樂觀,2020 年
第三季的 Zen 3 與第三代 EPYC「Milan」對 AMD 將是極為重要的命運轉捩點。從光鮮亮
麗簡報溢出來的滿滿憂慮,其實都早寫在 AMD 高層和無數員工的臉上,只是你沒看出來
。
好戲即將上演,就讓我們拭目以待。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.252.43.91 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1593624595.A.D74.html
... <看更多>