摩爾定律放緩 靠啥提升AI晶片運算力?
作者 : 黃燁鋒,EE Times China
2021-07-26
對於電子科技革命的即將終結的說法,一般認為即是指摩爾定律的終結——摩爾定律一旦無法延續,也就意味著資訊技術的整棟大樓建造都將出現停滯,那麼第三次科技革命也就正式結束了。這種聲音似乎是從十多年前就有的,但這波革命始終也沒有結束。AI技術本質上仍然是第三次科技革命的延續……
人工智慧(AI)的技術發展,被很多人形容為第四次科技革命。前三次科技革命,分別是蒸汽、電氣、資訊技術(電子科技)革命。彷彿這“第四次”有很多種說辭,比如有人說第四次科技革命是生物技術革命,還有人說是量子技術革命。但既然AI也是第四次科技革命之一的候選技術,而且作為資訊技術的組成部分,卻又獨立於資訊技術,即表示它有獨到之處。
電子科技革命的即將終結,一般認為即是指摩爾定律的終結——摩爾定律一旦無法延續,也就意味著資訊技術的整棟大樓建造都將出現停滯,那麼第三次科技革命也就正式結束了。這種聲音似乎是從十多年前就有,但這波革命始終也沒有結束。
AI技術本質上仍然是第三次科技革命的延續,它的發展也依託於幾十年來半導體科技的進步。這些年出現了不少專門的AI晶片——而且市場參與者相眾多。當某一個類別的技術發展到出現一種專門的處理器為之服務的程度,那麼這個領域自然就不可小覷,就像當年GPU出現專門為圖形運算服務一樣。
所以AI晶片被形容為CPU、GPU之後的第三大類電腦處理器。AI專用處理器的出現,很大程度上也是因為摩爾定律的發展進入緩慢期:電晶體的尺寸縮減速度,已經無法滿足需求,所以就必須有某種專用架構(DSA)出現,以快速提升晶片效率,也才有了專門的AI晶片。
另一方面,摩爾定律的延緩也成為AI晶片發展的桎梏。在摩爾定律和登納德縮放比例定律(Dennard Scaling)發展的前期,電晶體製程進步為晶片帶來了相當大的助益,那是「happy scaling down」的時代——CPU、GPU都是這個時代受益,不過Dennard Scaling早在45nm時期就失效了。
AI晶片作為第三大類處理器,在這波發展中沒有趕上happy scaling down的好時機。與此同時,AI應用對運算力的需求越來越貪婪。今年WAIC晶片論壇圓桌討論環節,燧原科技創始人暨CEO趙立東說:「現在訓練的GPT-3模型有1750億參數,接近人腦神經元數量,我以為這是最大的模型了,要千張Nvidia的GPU卡才能做。談到AI運算力需求、模型大小的問題,說最大模型超過萬億參數,又是10倍。」
英特爾(Intel)研究院副總裁、中國研究院院長宋繼強說:「前兩年用GPU訓練一個大規模的深度學習模型,其碳排放量相當於5台美式車整個生命週期產生的碳排量。」這也說明了AI運算力需求的貪婪,以及提供運算力的AI晶片不夠高效。
不過作為產業的底層驅動力,半導體製造技術仍源源不斷地為AI發展提供推力。本文將討論WAIC晶片論壇上聽到,針對這個問題的一些前瞻性解決方案——有些已經實現,有些則可能有待時代驗證。
XPU、摩爾定律和異質整合
「電腦產業中的貝爾定律,是說能效每提高1,000倍,就會衍生出一種新的運算形態。」中科院院士劉明在論壇上說,「若每瓦功耗只能支撐1KOPS的運算,當時的這種運算形態是超算;到了智慧型手機時代,能效就提高到每瓦1TOPS;未來的智慧終端我們要達到每瓦1POPS。 這對IC提出了非常高的要求,如果依然沿著CMOS這條路去走,當然可以,但會比較艱辛。」
針對性能和效率提升,除了尺寸微縮,半導體產業比較常見的思路是電晶體結構、晶片結構、材料等方面的最佳化,以及處理架構的革新。
(1)AI晶片本身其實就是對處理器架構的革新,從運算架構的層面來看,針對不同的應用方向造不同架構的處理器是常規,更專用的處理器能促成效率和性能的成倍增長,而不需要依賴於電晶體尺寸的微縮。比如GPU、神經網路處理器(NPU,即AI處理器),乃至更專用的ASIC出現,都是這類思路。
CPU、GPU、NPU、FPGA等不同類型的晶片各司其職,Intel這兩年一直在推行所謂的「XPU」策略就是用不同類型的處理器去做不同的事情,「整合起來各取所需,用組合拳會好過用一種武器去解決所有問題。」宋繼強說。Intel的晶片產品就涵蓋了幾個大類,Core CPU、Xe GPU,以及透過收購獲得的AI晶片Habana等。
另外針對不同類型的晶片,可能還有更具體的最佳化方案。如當代CPU普遍加入AVX512指令,本質上是特別針對深度學習做加強。「專用」的不一定是處理器,也可以是處理器內的某些特定單元,甚至固定功能單元,就好像GPU中加入專用的光線追蹤單元一樣,這是當代處理器普遍都在做的一件事。
(2)從電晶體、晶片結構層面來看,電晶體的尺寸現在仍然在縮減過程中,只不過縮減幅度相比過去變小了——而且為緩解電晶體性能的下降,需要有各種不同的技術來輔助尺寸變小。比如說在22nm節點之後,電晶體變為FinFET結構,在3nm之後,電晶體即將演變為Gate All Around FET結構。最終會演化為互補FET (CFET),其本質都是電晶體本身充分利用Z軸,來實現微縮性能的提升。
劉明認為,「除了基礎元件的變革,IC現在的發展還是比較多元化,包括新材料的引進、元件結構革新,也包括微影技術。長期賴以微縮的基本手段,現在也在發生巨大的變化,特別是未來3D的異質整合。這些多元技術的協同發展,都為晶片整體性能提升帶來了很好的增益。」
他並指出,「從電晶體級、到晶圓級,再到晶片堆疊、引線接合(lead bonding),精準度從毫米向奈米演進,互連密度大大提升。」從晶圓/裸晶的層面來看,則是眾所周知的朝more than moore’s law這樣的路線發展,比如把兩片裸晶疊起來。現在很熱門的chiplet技術就是比較典型的並不依賴於傳統電晶體尺寸微縮,來彈性擴展性能的方案。
台積電和Intel這兩年都在大推將不同類型的裸晶,異質整合的技術。2.5D封裝方案典型如台積電的CoWoS,Intel的EMIB,而在3D堆疊上,Intel的Core LakeField晶片就是用3D Foveros方案,將不同的裸晶疊在一起,甚至可以實現兩片運算裸晶的堆疊、互連。
之前的文章也提到過AMD剛發佈的3D V-Cache,將CPU的L3 cache裸晶疊在運算裸晶上方,將處理器的L3 cache大小增大至192MB,對儲存敏感延遲應用的性能提升。相比Intel,台積電這項技術的獨特之處在於裸晶間是以混合接合(hybrid bonding)的方式互連,而不是micro-bump,做到更小的打線間距,以及晶片之間數十倍通訊性能和效率提升。
這些方案也不直接依賴傳統的電晶體微縮方案。這裡實際上還有一個方面,即新材料的導入專家們沒有在論壇上多說,本文也略過不談。
1,000倍的性能提升
劉明談到,當電晶體微縮的空間沒有那麼大的時候,產業界傾向於採用新的策略來評價技術——「PPACt」——即Powe r(功耗)、Performance (性能)、Cost/Area-Time (成本/面積-時間)。t指的具體是time-to-market,理論上應該也屬於成本的一部分。
電晶體微縮方案失效以後,「多元化的技術變革,依然會讓IC性能得到進一步的提升。」劉明說,「根據預測,這些技術即使不再做尺寸微縮,也會讓IC的晶片性能做到500~1,000倍的提升,到2035年實現Zetta Flops的系統性能水準。且超算的發展還可以一如既往地前進;單裸晶儲存容量變得越來越大,IC依然會為產業發展提供基礎。」
500~1,000倍的預測來自DARPA,感覺有些過於樂觀。因為其中的不少技術存在比較大的邊際遞減效應,而且有更實際的工程問題待解決,比如運算裸晶疊層的散熱問題——即便業界對於這類工程問題的探討也始終在持續。
不過1,000倍的性能提升,的確說明摩爾定律的終結並不能代表第三次科技革命的終結,而且還有相當大的發展空間。尤其本文談的主要是AI晶片,而不是更具通用性的CPU。
矽光、記憶體內運算和神經型態運算
在非傳統發展路線上(以上內容都屬於半導體製造的常規思路),WAIC晶片論壇上宋繼強和劉明都提到了一些頗具代表性的技術方向(雖然這可能與他們自己的業務方向或研究方向有很大的關係)。這些技術可能尚未大規模推廣,或者仍在商業化的極早期。
(1)近記憶體運算和記憶體內運算:處理器性能和效率如今面臨的瓶頸,很大程度並不在單純的運算階段,而在資料傳輸和儲存方面——這也是共識。所以提升資料的傳輸和存取效率,可能是提升整體系統性能時,一個非常靠譜的思路。
這兩年市場上的處理器產品用「近記憶體運算」(near-memory computing)思路的,應該不在少數。所謂的近記憶體運算,就是讓儲存(如cache、memory)單元更靠近運算單元。CPU的多層cache結構(L1、L2、L3),以及電腦處理器cache、記憶體、硬碟這種多層儲存結構是常規。而「近記憶體運算」主要在於究竟有多「近」,cache記憶體有利於隱藏當代電腦架構中延遲和頻寬的局限性。
這兩年在近記憶體運算方面比較有代表性的,一是AMD——比如前文提到3D V-cache增大處理器的cache容量,還有其GPU不僅在裸晶內導入了Infinity Cache這種類似L3 cache的結構,也更早應用了HBM2記憶體方案。這些實踐都表明,儲存方面的革新的確能帶來性能的提升。
另外一個例子則是Graphcore的IPU處理器:IPU的特點之一是在裸晶內堆了相當多的cache資源,cache容量遠大於一般的GPU和AI晶片——也就避免了頻繁的訪問外部儲存資源的操作,極大提升頻寬、降低延遲和功耗。
近記憶體運算的本質仍然是馮紐曼架構(Von Neumann architecture)的延續。「在做處理的過程中,多層級的儲存結構,資料的搬運不僅僅在處理和儲存之間,還在不同的儲存層級之間。這樣頻繁的資料搬運帶來了頻寬延遲、功耗的問題。也就有了我們經常說的運算體系內的儲存牆的問題。」劉明說。
構建非馮(non-von Neumann)架構,把傳統的、以運算為中心的馮氏架構,變換一種新的運算範式。把部分運算力下推到儲存。這便是記憶體內運算(in-memory computing)的概念。
記憶體內運算的就現在看來還是比較新,也有稱其為「存算一體」。通常理解為在記憶體中嵌入演算法,儲存單元本身就有運算能力,理論上消除資料存取的延遲和功耗。記憶體內運算這個概念似乎這在資料爆炸時代格外醒目,畢竟可極大減少海量資料的移動操作。
其實記憶體內運算的概念都還沒有非常明確的定義。現階段它可能的內涵至少涉及到在儲記憶體內部,部分執行資料處理工作;主要應用於神經網路(因為非常契合神經網路的工作方式),以及這類晶片具體的工作方法上,可能更傾向於神經型態運算(neuromorphic computing)。
對於AI晶片而言,記憶體內運算的確是很好的思路。一般的GPU和AI晶片執行AI負載時,有比較頻繁的資料存取操作,這對性能和功耗都有影響。不過記憶體內運算的具體實施方案,在市場上也是五花八門,早期比較具有代表性的Mythic導入了一種矩陣乘的儲存架構,用40nm嵌入式NOR,在儲記憶體內部執行運算,不過替換掉了數位週邊電路,改用類比的方式。在陣列內部進行模擬運算。這家公司之前得到過美國國防部的資金支援。
劉明列舉了近記憶體運算和記憶體內運算兩種方案的例子。其中,近記憶體運算的這個方案應該和AMD的3D V-cache比較類似,把儲存裸晶和運算裸晶疊起來。
劉明指出,「這是我們最近的一個工作,採用hybrid bonding的技術,與矽通孔(TSV)做比較,hybrid bonding功耗是0.8pJ/bit,而TSV是4pJ/bit。延遲方面,hybrid bonding只有0.5ns,而TSV方案是3ns。」台積電在3D堆疊方面的領先優勢其實也體現在hybrid bonding混合鍵合上,前文也提到了它具備更高的互連密度和效率。
另外這套方案還將DRAM刷新頻率提高了一倍,從64ms提高至128ms,以降低功耗。「應對刷新率變慢出現拖尾bit,我們引入RRAM TCAM索引這些tail bits」劉明說。
記憶體內運算方面,「傳統運算是用布林邏輯,一個4位元的乘法需要用到幾百個電晶體,這個過程中需要進行資料來回的移動。記憶體內運算是利用單一元件的歐姆定律來完成一次乘法,然後利用基爾霍夫定律完成列的累加。」劉明表示,「這對於今天深度學習的矩陣乘非常有利。它是原位的運算和儲存,沒有資料搬運。」這是記憶體內運算的常規思路。
「無論是基於SRAM,還是基於新型記憶體,相比近記憶體運算都有明顯優勢,」劉明認為。下圖是記憶體內運算和近記憶體運算,精準度、能效等方面的對比,記憶體內運算架構對於低精準度運算有價值。
下圖則總結了業內主要的一些記憶體內運算研究,在精確度和能效方面的對應關係。劉明表示,「需要高精確度、高運算力的情況下,近記憶體運算目前還是有優勢。不過記憶體內運算是更新的技術,這幾年的進步也非常快。」
去年阿里達摩院發佈2020年十大科技趨勢中,有一個就是存算一體突破AI算力瓶頸。不過記憶體內運算面臨的商用挑戰也一點都不小。記憶體內運算的通常思路都是類比電路的運算方式,這對記憶體、運算單元設計都需要做工程上的考量。與此同時這樣的晶片究竟由誰來造也是個問題:是記憶體廠商,還是數文書處理器廠商?(三星推過記憶體內運算晶片,三星、Intel垂直整合型企業似乎很適合做記憶體內運算…)
(2)神經型態運算:神經型態運算和記憶體內運算一樣,也是新興技術的熱門話題,這項技術有時也叫作compute in memory,可以認為它是記憶體內運算的某種發展方向。神經型態和一般神經網路AI晶片的差異是,這種結構更偏「類人腦」。
進行神經型態研究的企業現在也逐漸變得多起來,劉明也提到了AI晶片「最終的理想是在結構層次模仿腦,元件層次逼近腦,功能層次超越人腦」的「類腦運算」。Intel是比較早關注神經型態運算研究的企業之一。
傳說中的Intel Loihi就是比較典型存算一體的架構,「這片裸晶裡面包含128個小核心,每個核心用於模擬1,024個神經元的運算結構。」宋繼強說,「這樣一塊晶片大概可以類比13萬個神經元。我們做到的是把768個晶片再連起來,構成接近1億神經元的系統,讓學術界的夥伴去試用。」
「它和深度學習加速器相比,沒有任何浮點運算——就像人腦裡面沒有乘加器。所以其學習和訓練方法是採用一種名為spike neutral network的路線,功耗很低,也可以訓練出做視覺辨識、語言辨識和其他種類的模型。」宋繼強認為,不採用同步時脈,「刺激的時候就是一個非同步電動勢,只有工作部分耗電,功耗是現在深度學習加速晶片的千分之一。」
「而且未來我們可以對不同區域做劃分,比如這兒是視覺區、那兒是語言區、那兒是觸覺區,同時進行多模態訓練,互相之間產生關聯。這是現在的深度學習模型無法比擬的。」宋繼強說。這種神經型態運算晶片,似乎也是Intel在XPU方向上探索不同架構運算的方向之一。
(2)微型化矽光:這個技術方向可能在層級上更偏高了一些,不再晶片架構層級,不過仍然值得一提。去年Intel在Labs Day上特別談到了自己在矽光(Silicon Photonics)的一些技術進展。其實矽光技術在連接資料中心的交換機方面,已有應用了,發出資料時,連接埠處會有個收發器把電訊號轉為光訊號,透過光纖來傳輸資料,另一端光訊號再轉為電訊號。不過傳統的光收發器成本都比較高,內部元件數量大,尺寸也就比較大。
Intel在整合化的矽光(IIIV族monolithic的光學整合化方案)方面應該是商業化走在比較前列的,就是把光和電子相關的組成部分高度整合到晶片上,用IC製造技術。未來的光通訊不只是資料中心機架到機架之間,也可以下沉到板級——就跟現在傳統的電I/O一樣。電互連的主要問題是功耗太大,也就是所謂的I/O功耗牆,這是這類微型化矽光元件存在的重要價值。
這其中存在的技術挑戰還是比較多,如做資料的光訊號調變的調變器調變器,據說Intel的技術使其實現了1,000倍的縮小;還有在接收端需要有個探測器(detector)轉換光訊號,用所謂的全矽微環(micro-ring)結構,實現矽對光的檢測能力;波分複用技術實現頻寬倍增,以及把矽光和CMOS晶片做整合等。
Intel認為,把矽光模組與運算資源整合,就能打破必須帶更多I/O接腳做更大尺寸處理器的這種趨勢。矽光能夠實現的是更低的功耗、更大的頻寬、更小的接腳數量和尺寸。在跨處理器、跨伺服器節點之間的資料互動上,這類技術還是頗具前景,Intel此前說目標是實現每根光纖1Tbps的速率,並且能效在1pJ/bit,最遠距離1km,這在非本地傳輸上是很理想的數字。
還有軟體…
除了AI晶片本身,從整個生態的角度,包括AI感知到運算的整個鏈條上的其他組成部分,都有促成性能和效率提升的餘地。比如這兩年Nvidia從軟體層面,針對AI運算的中間層、庫做了大量最佳化。相同的底層硬體,透過軟體最佳化就能實現幾倍的性能提升。
宋繼強說,「我們發現軟體最佳化與否,在同一個硬體上可以達到百倍的性能差距。」這其中的餘量還是比較大。
在AI開發生態上,雖然Nvidia是最具發言權的;但從戰略角度來看,像Intel這種研發CPU、GPU、FPGA、ASIC,甚至還有神經型態運算處理器的企業而言,不同處理器統一開發生態可能更具前瞻性。Intel有個稱oneAPI的軟體平台,用一套API實現不同硬體性能埠的對接。這類策略對廠商的軟體框架構建能力是非常大的考驗——也極大程度關乎底層晶片的執行效率。
在摩爾定律放緩、電晶體尺寸微縮變慢甚至不縮小的前提下,處理器架構革新、異質整合與2.5D/3D封裝技術依然可以達成1,000倍的性能提升;而一些新的技術方向,包括近記憶體運算、記憶體內運算和微型矽光,能夠在資料訪存、傳輸方面產生新的價值;神經型態運算這種類腦運算方式,是實現AI運算的目標;軟體層面的最佳化,也能夠帶動AI性能的成倍增長。所以即便摩爾定律嚴重放緩,AI晶片的性能、效率提升在上面提到的這麼多方案加持下,終將在未來很長一段時間內持續飛越。這第三(四)次科技革命恐怕還很難停歇。
資料來源:https://www.eettaiwan.com/20210726nt61-ai-computing/?fbclid=IwAR3BaorLm9rL2s1ff6cNkL6Z7dK8Q96XulQPzuMQ_Yky9H_EmLsBpjBOsWg
sram dram速度 在 股民當家 幸福理財 Facebook 的精選貼文
2020.12.28(一)
提前漲價,記憶體春天到
大家早,我是 LEO
.
■ 什麼是記憶體?
常常有人分不清「記憶體」與「硬碟」的差別?!明明都是用來儲存資料,到底有什麼不一樣呢?記憶體又分成DRAM、SRAM、DDR3、DDR4、DDR5、NOR FLASH、NAND FLASH…,到底是什麼意思?
.
大家至少知道電腦中有硬碟這件事,我們常講的C槽、D槽就是常見的硬碟,也是儲存資料的重要地方,當我們打開電腦工作的時候,CPU(中央處理器)就會到硬碟中抓資料、抓程式來執行運算。
.
記憶體就是為了跑「正在執行中的程式或資料」,從硬碟中複製過來存放的,因為CPU在記憶體抓資料,會比CPU不透過記憶體直接到硬碟抓資料快數百萬倍。
.
簡單來說,大家可以把硬碟想像成辦公室的抽屜,平時工作會用的資料就先放抽屜裡,需要用的的時候就拿出來放在辦公桌面(記憶體)上,抽屜越大能夠存放的資料就越多,桌面越大能夠同時處理的工作就越大。
.
硬碟:就是我們說的ROM或者NAND Flash( USB 隨身碟和手機的儲存空間,就是用 NAND Flash 為主),不具揮發性,停電狀態,也能保存資料。
.
記憶體可分為:DRAM(動態隨機記憶體)、SRAM(靜態隨機記憶體)資料儲存都具有揮發性,只要停止供應電源,記憶資料就會消失!
.
SRAM 讀寫速度較快,使用電晶體較多,功耗較高,結構比較複雜,價格就比 DRAM 貴,所以目前還是使用DRAM技術為主。
.
■ Flash分成 NOR Flash & NAND Flash
NOR Flash讀取的速度較快,但寫入的速度慢,價格比較貴,打入任天堂 Switch 主機的 ROM 供應鏈的旺宏(2337)就是做NOR Flash。
.
NAND Flash 寫入的速度快、價格較低,USB 隨身碟和手機儲存空間,普遍使用 NAND Flash 。
.
目前越來越多筆電甚至桌機都採用SSD硬碟又是什麼呢?為什麼價格較傳統HDD硬碟貴,但是開機速度明顯超快,只需要2~3秒就能完成開機動作呢?因為它就是用NAND Flash為基礎建構的裝置,耐震,速度快,重量不到HDD的1/10。
.
■ 中芯受制裁NOR Flash漲價
美國商務部將中國最大晶圓代工廠中芯國際列入禁售令實體清單,中芯國際供應商必須符合美國技術 25% 的門檻規定。中國(Nor Flash)記憶體大廠兆易創新原本委託中芯國際代工,中國 Nor Flash 廠及 iPhone 12 使用的 Nor Flash 都開始陸續傳出轉單華邦電(2344)。
.
兆易創新每月委託中芯國際代工一萬片數量,將使市場供需更吃緊,導致市場報價上漲,市場預估 2021 年 Nor Flash 恐將出現供需失衡,報價可能逐季看漲。
.
■ DRAM 提前漲價
根據市調機構集邦科技預估,DRAM 產業屬寡占市場型態,經過2季的庫存修正後,加上美光桃園廠跳電意外,與年底及農曆年補貨需求升溫,推升DRAM現貨價走揚,12月至今現貨價漲幅達1至2成。
.
12月以來,記憶體綜合價格指數(DXI)也大漲逾二成,並預期明年第1季合約價止跌,甚至有機會上漲。
.
■ 華邦電(2344):蘋果與非蘋陣營均採用 OLED螢幕,帶動 OLED面板外掛 NOR Flash晶片需求大增。
.
TWS(真無線藍牙)耳機需求大爆發,蘋果、Sony、BOSE、Beats、三星、華為,都大推真無線藍芽耳機,每支耳機都需搭載 NOR Flash晶片協助運算!
.
傳出明年上半年 NOR Flash產能滿載,明年第1季漲幅 7-10%,第二、三季各季漲幅將分別約 10%,預期下半年產能將持續滿載。
.
■ 十銓(4967):在 DRAM世代交替的時刻,今年12月率先打造出DDR5消費型記憶體,暫訂為單支16GB 4800MHz 1.1V,功耗下降了10%,也同時提升1.6倍的傳輸速率,目前已連繫各大主機板廠進行相關驗證,最快可於2021 第3季推出。
.
今年擴大在歐美市場的銷售布局,瞄準歐美電商平台,加強線上通路發展,北美Amazon銷售衝上500%的高成長紀錄,樂觀看明年記憶體供需轉好,5G、物聯網、智慧城市、智慧醫療及車載應用等,將帶動記憶體需求進入爆發期。
.
📊 如果你想深入了解更多 2021年明星產業,請按讚,讓團隊知道你看過了~也想知道更多 😃
.
🌞 Line群組〈點網址〉
https://lihi1.com/jjjwf
🌞 Telegram 即時訊息
https://t.me/stock17168
sram dram速度 在 麥克風的市場求生手冊 Facebook 的精選貼文
【台積電佈局新存儲技術】
近年來,在人工智能(AI)、5G等推動下,以MRAM(磁阻式隨機存取存儲器)、鐵電隨機存取存儲器 (FRAM)、相變隨機存取存儲器(PRAM),以及可變電阻式隨機存取存儲器(RRAM)為代表的新興存儲技術逐漸成為市場熱點。這些新技術吸引各大晶圓廠不斷投入,最具代表性的廠商包括台積電、英特爾、三星和格羅方德(Globalfoundries)。
那麼,這些新興存儲技術為什麼會如此受期待呢?主要原因在於:隨着半導體制造技術持續朝更小的技術節點邁進,傳統的DRAM和NAND Flash面臨越來越嚴峻的微縮挑戰,DRAM已接近微縮極限,而NAND Flash則朝3D方向轉型。
此外,傳統存儲技術在高速運算上也遭遇阻礙,處理器與存儲器之間的「牆」成為了提升運算速度和效率的最大障礙。特別是AI的發展,數據需求量暴增,「牆」的負面效應愈加突出,越來越多的半導體廠商正在加大對新興存儲技術的研發和投資力度,尋求成本更佳、速度更快、效能更好的存儲方案。
從目前來看,最受期待的就是MRAM,各大廠商在它上面投入的力度也最大。MRAM屬於非易失性存儲技術,是利用具有高敏感度的磁電阻材料製造的存儲器,斷電時,MRAM儲存的數據不會丟失,且耗能較低,讀寫速度快,可媲美SRAM,比Flash速度快百倍,在存儲容量方面能替代DRAM,且數據保存時間長,適合高性能應用。
MRAM的基本結構是磁性隧道結,研發難度高,目前主要分為兩大類:傳統MRAM和STT-MRAM,前者以磁場驅動,後者則採用自旋極化電流驅動。
另外,相較於DRAM、SRAM和NAND Flash等技術面臨的微縮困境,MRAM可滿足製程進一步微縮需求。目前,DRAM製程工藝節點為1X nm,已接近極限,而Flash走到20 nm以下後,就朝3D製程轉型了。MRAM製程則可推進至10nm以下。
在過去幾年裏,包括台積電、英特爾、三星、格羅方德等晶圓代工廠和IDM,相繼大力投入MRAM 研發,而且主要着眼於STT-MRAM,也有越來越多的嵌入式解決方案誕生,用以取代Flash、EEPROM和SRAM。
- 台積電
早在2002年,台積電就與工研院簽訂了MRAM合作發展計劃。近些年,該公司一直在開發22nm製程的嵌入式STT-MRAM,採用超低漏電CMOS技術。
2018年,台積電進行了eMRAM芯片的「風險生產」,2019年生產採用22nm製程的eReRAM芯片。
2019年,台積電在嵌入式非易失性存儲器技術領域達成數項重要的里程碑:在40nm製程方面,該公司已成功量產Split-Gate(NOR)技術,支持消費類電子產品應用,如物聯網、智慧卡和MCU,以及各種車用電子產品。在28nm製程方面,該公司的嵌入式快閃存儲器支持高能效移動計算和低漏電製程平台。
在ISSCC 2020上,台積電發佈了基於ULL 22nm CMOS工藝的32Mb嵌入式STT-MRAM。該技術基於台積電的22nm ULL(Ultra-Low-Leakage)CMOS工藝,具有10ns的極高讀取速度,讀取功率為0.8mA/MHz/bit。對於32Mb數據,它具有100K個循環的寫入耐久性,對於1Mb數據,具有1M個循環的耐久性。
它支持在260°C下進行90s的IR迴流焊,在150°C下10年的數據保存能力。它以1T1R架構實現單元面積僅為0.046平方微米,25°C下的32Mb陣列的漏電流僅為55mA。
目前,台積電已經完成22nm嵌入式STT-MRAM技術驗證,進入量產階段。在此基礎上,該公司還在推進16 nm 製程的STT-MRAM研發工作。
除了MRAM,台積電也在進行着ReRAM的研發工作,並發表過多篇基於金屬氧化物結構的ReRAM論文。
工研院電光所所長吳志毅表示,由於新興存儲技術將需要整合邏輯製程技術,因此現有存儲器廠商要卡位進入新市場,門檻相對較高,而台積電在這方面具有先天優勢,因為該公司擁有很強的邏輯製程生產能力,因此,台積電跨入新興存儲市場會具有競爭優勢。
據悉,工研院在新興存儲技術領域研發投入已超過10年,通過元件創新、材料突破、電路優化等方式,開發出了更快、更耐久、更穩定、更低功耗的新一代存儲技術,目前,正在與台積電在這方面進行合作。未來,台積電在新興存儲器發展方面,工研院將會有所貢獻,但具體內容並未透露。
- 三星
三星在MRAM研發方面算是起步較早的廠商,2002年就開始了這項工作,並於2005年開始進行STT-MRAM的研發,之後不斷演進,到了2014年,生產出了8Mb的eMRAM。
三星Foundry業務部門的發展路徑主要分為兩條,從28nm節點開始,一條是按照摩爾定律繼續向下發展,不斷提升FinFET的工藝節點,從14nm到目前的7nm,進而轉向下一步的5nm。
另一條線路就是FD-SOI工藝,該公司還利用其在存儲器製造方面的技術和規模優勢,着力打造eMRAM,以滿足未來市場的需求。這方面主要採用28nm製程。
三星28nm製程FD-SOI(28FDS)嵌入式NVM分兩個階段。第一個是2017年底之前的電子貨幣風險生產,第二個是2018年底之前的eMRAM風險生產。並同時提供eFlash和eMRAM(STT-MRAM)選項。
該公司於2017年研製出了業界第一款採用28FDS工藝的eMRAM測試芯片。
2018年,三星開始在28nm平台上批量生產eMRAM。2019年3月,該公司推出首款商用eMRAM產品。據悉,eMRAM模塊可以通過添加三個額外的掩膜集成到芯片製造工藝的後端,因此,該模塊不必要依賴於所使用的前端製造技術,允許插入使用bulk、FinFET或FD-SOI製造工藝生產的芯片中。
三星表示,由於其eMRAM在寫入數據之前不需要擦除週期,因此,它比eFlash快1000倍。與eFlash相比,它還使用了較低的電壓,因此在寫入過程中的功耗極低。
2018年,Arm發佈了基於三星28FDS工藝技術的eMRAM編譯器IP,包括一個支持18FDS (18nm FD-SOI工藝)的eMRAM編譯器。這一平台有助於推動在5G、AI、汽車、物聯網和其它細分市場的功耗敏感應用領域的前沿設計發展。
2019年,三星發佈了採用28FDS工藝技術的1Gb嵌入STT-MRAM。基於高度可靠的eMRAM技術,在滿足令人滿意的讀取,寫入功能和10年保存時間的情況下,可以實現90%以上的良率。並且具備高達1E10週期的耐久性,這些對於擴展eMRAM應用有很大幫助。
2019年底,Mentor宣佈將為基於Arm的eMRAM編譯器IP提供IC測試解決方案,該方案基於三星的28FDS工藝技術。據悉,該測試方案利用了Mentor的Tessent Memory BIST,為SRAM和eMRAM提供了一套統一的存儲器測試和修復IP。
- Globalfoundries(格羅方德半導體股份有限公司)
2017年,時任Globalfoundries首席技術官的Gary Patton稱,Globalfoundries已經在其22FDX(22nm製程的FD-SOI工藝技術)製程中提供了MRAM,同時也在研究另一種存儲技術。
由於Globalfoundries重點發展FD-SOI技術,特別是22nm製程的FD-SOI,已經很成熟,所以該公司的新興存儲技術,特別是MRAM,都是基於具有低功耗特性的FD-SOI技術展開的。
今年年初,Globalfoundries宣佈基於22nm FD-SOI 平台的eMRAM投入生產。該eMRAM技術平台可以實現將數據保持在-40°C至+125°C的温度範圍內,壽命週期可以達到100,000,可以將數據保留10年。該公司表示,正在與多個客户合作,計劃在2020年安排多次流片。
據悉,該公司的eMRAM旨在替代NOR閃存,可以定期通過更新或日誌記錄進行重寫。由於是基於磁阻原理,在寫入所需數據之前不需要擦除週期,大大提高了寫入速度,宏容量從4-48Mb不等。
- 英特爾
英特爾也是MRAM技術的主要推動者,該公司採用的是基於FinFET技術的22 nm製程。
2018年底,英特爾首次公開介紹了其MRAM的研究成果,推出了一款基於22nm FinFET製程的STT-MRAM,當時,該公司稱,這是首款基於FinFET的MRAM產品,並表示已經具備該技術產品的量產能力。
結語
由於市場需求愈加凸顯,且有各大晶圓廠大力投入支持,加快了以MRAM為代表的新興存儲技術的商業化進程。未來幾年,雖然DRAM和NAND Flash將繼續站穩存儲芯片市場主導地位,但隨着各家半導體大廠相繼投入發展,新興存儲器的成本將逐步下降,可進一步提升 MRAM等技術的市場普及率。
原文:
https://mp.weixin.qq.com/s/sMZ0JwclWf1zAEPkW8Rn0Q