全文共4990字,預(yù)計閱讀時間13分鐘
作者 | 程韞韻(Emily)
編輯 | 譚舒雯(Poppy)
注:文中圖片均來源于網(wǎng)絡(luò)
前言
在人工智能高速發(fā)展的熱潮下,龐大的數(shù)據(jù)量和復(fù)雜的算法模型對算力及芯片提出了新的需求。類腦芯片成為近年來學(xué)術(shù)界和產(chǎn)業(yè)界都越來越關(guān)注的重點方向,甚至在Gartner的芯片產(chǎn)業(yè)預(yù)測圖中將類腦芯片判斷為第三代人工智能芯片。上海新氦類腦智能科技有限公司(以下簡稱“新氦類腦智能”)就在此背景下誕生,類腦芯片及片上智能系統(tǒng)是新氦類腦智能的研發(fā)及商業(yè)轉(zhuǎn)化的重點方向。近年來新氦類腦智能看到許多類腦芯片領(lǐng)域的創(chuàng)新突破和科研熱潮,因此新氦類腦智能總結(jié)了類腦芯片領(lǐng)域的現(xiàn)狀、問題和趨勢,希望在充滿信心的同時保持客觀冷靜分析,給行業(yè)的發(fā)展帶來一些啟發(fā)和推動作用。
數(shù)字運算與模擬運算
電子學(xué)史上第一批被發(fā)明出來并得到大規(guī)模生產(chǎn)的器件是模擬的,后來隨著微電子學(xué)的發(fā)展,數(shù)字技術(shù)的成本大大降低,加上計算機對于數(shù)字信號的要求,使得數(shù)字方法在人機交互等領(lǐng)域具有可行性和較高的性價比。但當數(shù)字運算芯片變得越來越小,發(fā)熱程度越來越嚴重時,它卻限制了速度和性能的提升。此外,數(shù)字運算離散逐步的方法不適合動態(tài)或連續(xù)時間問題,例如等離子體建模和神經(jīng)網(wǎng)絡(luò)運行,也不適用于其他需要對現(xiàn)實世界輸入做出實時反應(yīng)的系統(tǒng)。這種情況下模擬運算將會是一個更好的替代品,它能夠直接在連續(xù)時間問題的核心解決常微分方程。深度學(xué)習(xí)訓(xùn)練階段的計算效率需要通過進一步開發(fā)深度學(xué)習(xí)工作流程隨機和近似的特性來提升,這在數(shù)字運算里意味著權(quán)衡計算效率與數(shù)值精確度,也為重新考慮模擬運算在非易失內(nèi)存上執(zhí)行深度學(xué)習(xí)的矩陣操作帶來了可能。在數(shù)字電路中,晶體管有開和關(guān)兩種狀態(tài),用二進制表達分別對應(yīng)1和0兩個邏輯電平。而在模擬電路中,晶體管會有無數(shù)種狀態(tài),理論上能表示連續(xù)變化的數(shù)值,涉及連續(xù)函數(shù)形式模擬信號的電路,模擬主要指電壓或電流對于真實信號成比例的再現(xiàn)。
數(shù)字運算(Digital Computing)
數(shù)字運算處理的是離散數(shù)據(jù)塊,雖然數(shù)字運算設(shè)備能夠使用任何數(shù)字系統(tǒng)處理數(shù)據(jù),但目前應(yīng)用最廣泛的是由1和0構(gòu)成的二進制數(shù)字系統(tǒng)。不同類型的信息,包括字符和十進制數(shù),在被數(shù)字運算設(shè)備處理前都會在二進制數(shù)字系統(tǒng)內(nèi)進行編碼。
世界上第一臺現(xiàn)代數(shù)字計算機是由英國數(shù)學(xué)家Charles Babbage設(shè)計的可編程計算器。這種計算器使用十進制數(shù)字系統(tǒng),每個數(shù)字用齒輪齒表示。第一臺電子數(shù)字計算機同時使用二進制和十進制數(shù)字系統(tǒng)。由美國物理學(xué)家Vincent Atanasoff和他的研究生Clifford E. Berry在十九世紀三十年代后期搭建的計算機在數(shù)字電路中僅使用二進制系統(tǒng),但只適用于有限的問題類型。由美國工程師J. Presper Eckert和John W. Mauchly設(shè)計的電子數(shù)字積分計算機(Electronic Numerical Integrator and Computer,ENIAC)被認為是世界上第一臺通用電子數(shù)字計算機。而第一臺實際操作中可編程數(shù)字計算機,電子儲存程序計算機(Electronic Delay Storage Automatic Calculator,EDSAC),由英國學(xué)者Maurice V. Wilkes在1949年發(fā)明,采用二進制編碼。自此,所有適用性數(shù)字運算設(shè)備在機器水平均使用二進制系統(tǒng),而在更高的抽象水平上使用八進制或十六進制系統(tǒng)。[1]
數(shù)字計算機速度上的優(yōu)勢讓使用者能夠接受其準確度上的小缺陷。例如,如果用積分求解曲線下區(qū)域的面積,數(shù)字運算的方法是“畫”出大量邊長極短的長方形進行曲線擬合,這些長方形面積的和就是積分運算結(jié)果的近似值。機器速度越快,“畫”出的長方形越多,計算結(jié)果就越精確。
當處理器整合到單個芯片上時,數(shù)據(jù)在組件間的傳輸速度因為距離的縮短而加快,數(shù)字運算對速度的提升效果顯著。數(shù)字計算機由超過1000個并行處理器組成,這使它能夠完成一些人類無法完成的任務(wù)。首先,它能夠快速地完成計算;其次,相較于人類,它可以更好地控制其他數(shù)字或模擬運算設(shè)備;最后,數(shù)字計算機的規(guī)模和速度能夠讓它模擬各種復(fù)雜場景,如機翼的風(fēng)場、熱核爆炸的第一微秒,或一個看似牢不可破的密碼。
數(shù)字設(shè)備與模擬設(shè)備的主要區(qū)別與準確度和速度有關(guān)。因為傳感器、示波器或其他設(shè)備的數(shù)據(jù)無法直接在運算中表示,所以編碼對于數(shù)字運算系統(tǒng)至關(guān)重要。雖然信息是離散數(shù)值,但變化是連續(xù)的,所以傳輸?shù)綌?shù)字計算機的信息只是近似值。例如,在使用浮點運算法處理數(shù)字設(shè)備中的多位數(shù)時,將它們從完整結(jié)構(gòu)轉(zhuǎn)換為浮點數(shù)會降低其準確度。當浮點數(shù)參與計算,誤差會復(fù)合增長。此外,數(shù)字設(shè)備處理的是編碼過的現(xiàn)實信息,由于轉(zhuǎn)換過程的存在和計算的非連續(xù)性,相較于模擬設(shè)備,數(shù)字設(shè)備的速度更慢。
模擬運算(Analog Computing)
近幾年,模擬計算已被證明在模擬生物系統(tǒng)上比數(shù)字計算更高效。模擬運算能夠在許多方面彌補數(shù)字運算的不足,如生物、流體動力學(xué)、天氣預(yù)測、量子化學(xué)、等離子物理等領(lǐng)域。與數(shù)字信號處理不同,由于模擬運算使用電子、機械或液壓等物理現(xiàn)象連續(xù)變化的量來模擬所要解決的問題,模擬計算會受到模擬噪聲的限制,但不受量化噪聲的影響。傳統(tǒng)數(shù)字計算的限制在于每次數(shù)字電路的轉(zhuǎn)換都會消耗能量,單個芯片上數(shù)以億計的晶體管以千兆赫的速度轉(zhuǎn)換將會產(chǎn)生大量熱量。相比之下,模擬運算適用于極低或極高頻率的場合,如果速度低至約10kHz至100kHz之間,數(shù)字運算的性能遠超過所需水平。而在數(shù)百MHz和數(shù)GHz的情況下,數(shù)字運算需要昂貴且高能耗的高速A/D轉(zhuǎn)換器和高性能處理核。
以二元微分方程為例,模擬計算電路中流經(jīng)兩條線的電流由同一個方程式控制,電流值即原始方程式的解。這一過程涉及到模擬積分器、倍增器、扇出模塊和提供恒定電流的電源。在求解非線性微分方程時,單芯片模擬計算機通過時間連續(xù)電路生成能夠建立任意函數(shù)的模塊。因此,通用模擬計算機能夠用包含多個數(shù)字控制下運行的模擬電路的可編程芯片搭建,還可以將模擬計算機得到的結(jié)果輸入數(shù)字計算機中提升其精度。(圖1)[2]



圖1 模擬計算電路
反向傳播算法的核心包含三種不同的操作:矩陣乘法、權(quán)重修改和激活函數(shù)的應(yīng)用。矩陣乘法可以采用模擬運算的方法,因為二維矩陣可以映射到與抽象數(shù)學(xué)對象有相同行列數(shù)的物理陣列中(圖2)。在每行每列的交點處用電導(dǎo)G表示連接強度,如果施加電壓V到給定的行列,會產(chǎn)生電流j,公式如下


圖2 模擬存儲陣列



矩陣乘法中使用導(dǎo)電組件陣列的做法并不新穎,而是在許多年前就已被提出。隨著深度學(xué)習(xí)的興起,這種方法因為可以加速運算而得到關(guān)注(表1)[3]。因為權(quán)重數(shù)據(jù)儲存在物理陣列中,所以所有操作都需要就近進行,不能在存儲中反復(fù)移出移入。因此,內(nèi)存要能夠存儲和保持權(quán)重,有非破壞性的讀取機制,還能夠在一次操作中讀取和寫入整個存儲陣列。盡管前兩個要求傳統(tǒng)存儲操作能夠滿足,但第三個要求與隨機順序存取截然相反,或至少會限制可存取地址空間。因此,可以使用傳統(tǒng)的存儲元件,但必須創(chuàng)造不同于傳統(tǒng)存儲架構(gòu)的新陣列架構(gòu)。 [5]
表1 重要計算模型的時空分類


應(yīng)用案例與趨勢展望
表2 主要Analog/Digital項目的特性比較

關(guān)于模擬運算和數(shù)字運算的實際應(yīng)用,國內(nèi)外已有多個相關(guān)研究項目和芯片產(chǎn)出結(jié)果(表2)。SpiNNaker芯片中,CPU與本地存儲器在單個芯片上緊密相連,它擁有幾種芯片中最高的可重構(gòu)性。然而它的能耗和速率不如其他芯片,尤其是當模擬復(fù)雜的神經(jīng)元和突觸模型時。除SpiNNaker以外,大多數(shù)芯片是基于數(shù)字電路或AMS電路(Analog and Mixed Signal,模擬混合信號電路)的硬件實現(xiàn),而SpiNNaker是在多核ARM處理器上運行。AMS電路實現(xiàn)的優(yōu)勢是模擬電路的物理特性,能夠直接模擬連續(xù)神經(jīng)動力學(xué),擁有比數(shù)字實現(xiàn)更強的計算能力和功率效率,亞閾值的AMS電路還能夠?qū)崿F(xiàn)超低能耗。BrainScaleS芯片由幾個晶圓相連而成,每個晶圓含有數(shù)個HiCANN神經(jīng)內(nèi)核,這一項目旨在模擬出有精確生物神經(jīng)行為和人腦規(guī)模的神經(jīng)網(wǎng)絡(luò)。海德堡大學(xué)研發(fā)的HiCANN芯片比實時快10000倍,晶片規(guī)模集成電路能夠?qū)崿F(xiàn)大規(guī)模并行處理。HiCANN芯片旨在為神經(jīng)系統(tǒng)科學(xué)家提供超級電腦來加速大規(guī)模SNN模擬,而非開發(fā)需要實時操作的低能耗智能嵌入系統(tǒng)。Neurogrid是一種為閾下模擬電路設(shè)計的SNN鑒別器,能夠?qū)崟r運行并對生物機制進行仿真。TrueNorth是應(yīng)用在數(shù)字電路上的神經(jīng)形態(tài)芯片,能夠?qū)Φ凸拇笠?guī)模網(wǎng)絡(luò)進行評估,但TrueNorth系統(tǒng)不支持片上學(xué)習(xí)。SNN的參數(shù),如SNN的拓撲結(jié)構(gòu)和神經(jīng)元間的連接強度,在配置后保持不變。在線下CPU/GPU平臺上訓(xùn)練后,將訓(xùn)練過的SNN參數(shù)配置到芯片上。沒有了片上訓(xùn)練,芯片設(shè)計將大大簡化。然而,這樣的芯片無法實現(xiàn)自適應(yīng),任何SNN參數(shù)上的變化都需要重新配置和啟動。這四種芯片被認為是脈沖神經(jīng)形態(tài)處理器領(lǐng)域的重要進步與前沿探索,多數(shù)以生物學(xué)模擬為目標,而TrueNorth旨在實現(xiàn)擁有強化操作符的低功耗機器學(xué)習(xí)。Loihi芯片是一種數(shù)字處理器,能夠靈活地對大規(guī)模SNN進行評估。就功能而言,Loihi芯片處于生物模擬和SNN機器學(xué)習(xí)的前沿領(lǐng)域,它將片上學(xué)習(xí)與不同學(xué)習(xí)規(guī)則、復(fù)雜神經(jīng)元模型、信息編碼協(xié)議整合到一起,因此能夠?qū)崿F(xiàn)對不同算法的模擬。
國內(nèi)主要的SNN研究項目包括清華大學(xué)的天機芯片和浙江大學(xué)的達爾文芯片。第一代天機芯片在2015年完成,2017年進化為第二代,速度更快,性能更高,功耗更低,比IBM TrueNorth功能更全、更靈活、擴展性更好,密度大20%,速度快至少10倍,帶寬高至少100倍。最新一代天機芯片采用28nm工藝制造,核心面積僅3.8x3.8毫米,含有156個FCores核心,大約40000個神經(jīng)元和1000萬個神經(jīng)突觸,既支持神經(jīng)科學(xué)模型和計算機科學(xué)模型,又支持神經(jīng)科學(xué)發(fā)現(xiàn)的眾多神經(jīng)回路網(wǎng)絡(luò)和異構(gòu)網(wǎng)絡(luò)的混合建模。芯片采用了存算一體技術(shù),無需外掛DDR(Double Data Rate, 雙倍數(shù)據(jù)速率)緩存,極大節(jié)省了空間、功耗和成本。為實現(xiàn)脈沖神經(jīng)網(wǎng)絡(luò)(SNN)和人工神經(jīng)網(wǎng)絡(luò)(ANN)的融合,研究團隊構(gòu)建了一個跨范式的神經(jīng)元方案并設(shè)計了一個統(tǒng)一的功能核(FCore),包含了軸突、突觸、樹突、胞體和神經(jīng)路由器構(gòu)建單元。依靠可重構(gòu)功能核靈活的建模配置和拓撲連接,編碼方式可以在ANN和SNN模式之間轉(zhuǎn)換,從而實現(xiàn)異構(gòu)神經(jīng)網(wǎng)絡(luò)。

圖3 天機芯片
類腦芯片達爾文2于2019年8月在杭州發(fā)布,該芯片由浙江大學(xué)牽頭研發(fā),杭州電子科技大學(xué)和華為中央研究院分別參與了芯片研制與算法和應(yīng)用場景研究工作。單芯片支持多達15萬個神經(jīng)元,相當于果蠅的神經(jīng)元數(shù)目,是目前國內(nèi)已知單芯片神經(jīng)元規(guī)模最大的脈沖神經(jīng)網(wǎng)絡(luò)類腦芯片。達爾文2采用55nm標準CMOS工藝制造,單芯片有576個內(nèi)核,每個內(nèi)核支持256個神經(jīng)元和超過一千萬的神經(jīng)突觸,可通過系統(tǒng)級擴展構(gòu)建千萬級神經(jīng)元類腦計算系統(tǒng)。2020年9月,浙江大學(xué)聯(lián)合之江實驗室共同研制成功包含792顆達爾文2代芯片的機架式類腦計算機,數(shù)量規(guī)模相當于小鼠大腦,能支持1.2億脈沖神經(jīng)元和近千億神經(jīng)突觸,但運行功耗僅需要350-500瓦。[6]

圖4 達爾文芯片
現(xiàn)今深度學(xué)習(xí)已然成為人工智能的同義詞,雖然業(yè)界希望深度學(xué)習(xí)能夠像微電子元件一樣廣泛應(yīng)用到生活的各個方面,但它至今沒有相似的比例縮小規(guī)則,甚至沒有一個能作為引導(dǎo)的基本理論。雖然已經(jīng)開發(fā)出含數(shù)百萬參數(shù)的復(fù)雜神經(jīng)網(wǎng)絡(luò)、采集了大量標記過的數(shù)據(jù)集,并找到了能夠執(zhí)行算法的硬件,但對于深度學(xué)習(xí)的廣泛應(yīng)用,成本是一個主要問題,包括建造模型花費的時間和訓(xùn)練執(zhí)行所需的計算資源。GPU的出現(xiàn)讓這些任務(wù)能夠被處理,而為深度學(xué)習(xí)定制的硬件將會有優(yōu)于傳統(tǒng)CPU的性能。目前已經(jīng)出現(xiàn)了新一代的深度學(xué)習(xí)加速硬件,通過權(quán)衡通用性與計算效率來優(yōu)化成本。建造和訓(xùn)練模型的復(fù)雜程度迫使研究者從系統(tǒng)層面上尋找解決方法,同時使用數(shù)個深度學(xué)習(xí)加速器來解決問題。深度學(xué)習(xí)機器的系統(tǒng)最終會影響到新的人工智能硬件加速器的可行性。模擬加速器的基礎(chǔ)設(shè)計和材料性質(zhì)等問題亟待解決,以增強系統(tǒng)層面整合的可能性。雖然不期望深度學(xué)習(xí)模擬運算能夠從根本上開創(chuàng)新的生態(tài)系統(tǒng),但它需要能夠增強現(xiàn)有的數(shù)字運算。因此,我們將會看到對神經(jīng)網(wǎng)絡(luò)性能提升的持續(xù)性推動,而數(shù)字硬件的解決方法將會被開發(fā)利用到極限。如果情況樂觀,模擬運算方案將會與這一改變無縫銜接。
聲明:本文章發(fā)布目的在于傳遞更多信息,并不代表本公眾號贊同其觀點和對其真實性負責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時與我司聯(lián)系,我們將在第一時間處理!
/
程 韞 韻 Emily
/
新氦類腦智能戰(zhàn)略總監(jiān),復(fù)旦-麻省理工學(xué)院國際工商管理碩士,擁有多年跨區(qū)域、跨行業(yè)的企業(yè)戰(zhàn)略咨詢經(jīng)驗。在類腦智能、人工智能技術(shù)及應(yīng)用落地方向有深入的行業(yè)分析和市場洞察,為政府、企業(yè)提供數(shù)智化轉(zhuǎn)型咨詢服務(wù),為AI創(chuàng)業(yè)團隊提供商業(yè)落地建議。主導(dǎo)撰寫AI技術(shù)白皮書,類腦芯片白皮書。



滬公網(wǎng)安備 31011002003093號