娇妻各种场合肉hnp,怡红院av在线播放,高h喷水荡肉爽文公交车

新氦類腦智能 > 資訊洞察 > 行業(yè)動態(tài) > 【類腦芯片】實現(xiàn)低功耗高性能的架構(gòu)（上） 2022/8/3

【類腦芯片】實現(xiàn)低功耗高性能的架構(gòu)（上）

全文共4990字，預(yù)計閱讀時間13分鐘

作者 | 程韞韻（Emily）

編輯 | 譚舒雯（Poppy）

注：文中圖片均來源于網(wǎng)絡(luò)

前言

在人工智能高速發(fā)展的熱潮下，龐大的數(shù)據(jù)量和復(fù)雜的算法模型對算力及芯片提出了新的需求。類腦芯片成為近年來學(xué)術(shù)界和產(chǎn)業(yè)界都越來越關(guān)注的重點方向，甚至在Gartner的芯片產(chǎn)業(yè)預(yù)測圖中將類腦芯片判斷為第三代人工智能芯片。上海新氦類腦智能科技有限公司（以下簡稱“新氦類腦智能”）就在此背景下誕生，類腦芯片及片上智能系統(tǒng)是新氦類腦智能的研發(fā)及商業(yè)轉(zhuǎn)化的重點方向。近年來新氦類腦智能看到許多類腦芯片領(lǐng)域的創(chuàng)新突破和科研熱潮，因此新氦類腦智能總結(jié)了類腦芯片領(lǐng)域的現(xiàn)狀、問題和趨勢，希望在充滿信心的同時保持客觀冷靜分析，給行業(yè)的發(fā)展帶來一些啟發(fā)和推動作用。

數(shù)字運算與模擬運算

電子學(xué)史上第一批被發(fā)明出來并得到大規(guī)模生產(chǎn)的器件是模擬的，后來隨著微電子學(xué)的發(fā)展，數(shù)字技術(shù)的成本大大降低，加上計算機對于數(shù)字信號的要求，使得數(shù)字方法在人機交互等領(lǐng)域具有可行性和較高的性價比。但當數(shù)字運算芯片變得越來越小，發(fā)熱程度越來越嚴重時，它卻限制了速度和性能的提升。此外，數(shù)字運算離散逐步的方法不適合動態(tài)或連續(xù)時間問題，例如等離子體建模和神經(jīng)網(wǎng)絡(luò)運行，也不適用于其他需要對現(xiàn)實世界輸入做出實時反應(yīng)的系統(tǒng)。這種情況下模擬運算將會是一個更好的替代品，它能夠直接在連續(xù)時間問題的核心解決常微分方程。深度學(xué)習(xí)訓(xùn)練階段的計算效率需要通過進一步開發(fā)深度學(xué)習(xí)工作流程隨機和近似的特性來提升，這在數(shù)字運算里意味著權(quán)衡計算效率與數(shù)值精確度，也為重新考慮模擬運算在非易失內(nèi)存上執(zhí)行深度學(xué)習(xí)的矩陣操作帶來了可能。在數(shù)字電路中，晶體管有開和關(guān)兩種狀態(tài)，用二進制表達分別對應(yīng)1和0兩個邏輯電平。而在模擬電路中，晶體管會有無數(shù)種狀態(tài)，理論上能表示連續(xù)變化的數(shù)值，涉及連續(xù)函數(shù)形式模擬信號的電路，模擬主要指電壓或電流對于真實信號成比例的再現(xiàn)。

數(shù)字運算（Digital Computing）

數(shù)字運算處理的是離散數(shù)據(jù)塊，雖然數(shù)字運算設(shè)備能夠使用任何數(shù)字系統(tǒng)處理數(shù)據(jù)，但目前應(yīng)用最廣泛的是由1和0構(gòu)成的二進制數(shù)字系統(tǒng)。不同類型的信息，包括字符和十進制數(shù)，在被數(shù)字運算設(shè)備處理前都會在二進制數(shù)字系統(tǒng)內(nèi)進行編碼。

世界上第一臺現(xiàn)代數(shù)字計算機是由英國數(shù)學(xué)家Charles Babbage設(shè)計的可編程計算器。這種計算器使用十進制數(shù)字系統(tǒng)，每個數(shù)字用齒輪齒表示。第一臺電子數(shù)字計算機同時使用二進制和十進制數(shù)字系統(tǒng)。由美國物理學(xué)家Vincent Atanasoff和他的研究生Clifford E. Berry在十九世紀三十年代后期搭建的計算機在數(shù)字電路中僅使用二進制系統(tǒng)，但只適用于有限的問題類型。由美國工程師J. Presper Eckert和John W. Mauchly設(shè)計的電子數(shù)字積分計算機（Electronic Numerical Integrator and Computer，ENIAC）被認為是世界上第一臺通用電子數(shù)字計算機。而第一臺實際操作中可編程數(shù)字計算機，電子儲存程序計算機（Electronic Delay Storage Automatic Calculator，EDSAC），由英國學(xué)者Maurice V. Wilkes在1949年發(fā)明，采用二進制編碼。自此，所有適用性數(shù)字運算設(shè)備在機器水平均使用二進制系統(tǒng)，而在更高的抽象水平上使用八進制或十六進制系統(tǒng)。[1]

數(shù)字計算機速度上的優(yōu)勢讓使用者能夠接受其準確度上的小缺陷。例如，如果用積分求解曲線下區(qū)域的面積，數(shù)字運算的方法是“畫”出大量邊長極短的長方形進行曲線擬合，這些長方形面積的和就是積分運算結(jié)果的近似值。機器速度越快，“畫”出的長方形越多，計算結(jié)果就越精確。

當處理器整合到單個芯片上時，數(shù)據(jù)在組件間的傳輸速度因為距離的縮短而加快，數(shù)字運算對速度的提升效果顯著。數(shù)字計算機由超過1000個并行處理器組成，這使它能夠完成一些人類無法完成的任務(wù)。首先，它能夠快速地完成計算；其次，相較于人類，它可以更好地控制其他數(shù)字或模擬運算設(shè)備；最后，數(shù)字計算機的規(guī)模和速度能夠讓它模擬各種復(fù)雜場景，如機翼的風(fēng)場、熱核爆炸的第一微秒，或一個看似牢不可破的密碼。

數(shù)字設(shè)備與模擬設(shè)備的主要區(qū)別與準確度和速度有關(guān)。因為傳感器、示波器或其他設(shè)備的數(shù)據(jù)無法直接在運算中表示，所以編碼對于數(shù)字運算系統(tǒng)至關(guān)重要。雖然信息是離散數(shù)值，但變化是連續(xù)的，所以傳輸?shù)綌?shù)字計算機的信息只是近似值。例如，在使用浮點運算法處理數(shù)字設(shè)備中的多位數(shù)時，將它們從完整結(jié)構(gòu)轉(zhuǎn)換為浮點數(shù)會降低其準確度。當浮點數(shù)參與計算，誤差會復(fù)合增長。此外，數(shù)字設(shè)備處理的是編碼過的現(xiàn)實信息，由于轉(zhuǎn)換過程的存在和計算的非連續(xù)性，相較于模擬設(shè)備，數(shù)字設(shè)備的速度更慢。

模擬運算（Analog Computing）

近幾年，模擬計算已被證明在模擬生物系統(tǒng)上比數(shù)字計算更高效。模擬運算能夠在許多方面彌補數(shù)字運算的不足，如生物、流體動力學(xué)、天氣預(yù)測、量子化學(xué)、等離子物理等領(lǐng)域。與數(shù)字信號處理不同，由于模擬運算使用電子、機械或液壓等物理現(xiàn)象連續(xù)變化的量來模擬所要解決的問題，模擬計算會受到模擬噪聲的限制，但不受量化噪聲的影響。傳統(tǒng)數(shù)字計算的限制在于每次數(shù)字電路的轉(zhuǎn)換都會消耗能量，單個芯片上數(shù)以億計的晶體管以千兆赫的速度轉(zhuǎn)換將會產(chǎn)生大量熱量。相比之下，模擬運算適用于極低或極高頻率的場合，如果速度低至約10kHz至100kHz之間，數(shù)字運算的性能遠超過所需水平。而在數(shù)百MHz和數(shù)GHz的情況下，數(shù)字運算需要昂貴且高能耗的高速A/D轉(zhuǎn)換器和高性能處理核。

以二元微分方程為例，模擬計算電路中流經(jīng)兩條線的電流由同一個方程式控制，電流值即原始方程式的解。這一過程涉及到模擬積分器、倍增器、扇出模塊和提供恒定電流的電源。在求解非線性微分方程時，單芯片模擬計算機通過時間連續(xù)電路生成能夠建立任意函數(shù)的模塊。因此，通用模擬計算機能夠用包含多個數(shù)字控制下運行的模擬電路的可編程芯片搭建，還可以將模擬計算機得到的結(jié)果輸入數(shù)字計算機中提升其精度。（圖1）[2]

圖1 模擬計算電路

反向傳播算法的核心包含三種不同的操作：矩陣乘法、權(quán)重修改和激活函數(shù)的應(yīng)用。矩陣乘法可以采用模擬運算的方法，因為二維矩陣可以映射到與抽象數(shù)學(xué)對象有相同行列數(shù)的物理陣列中（圖2）。在每行每列的交點處用電導(dǎo)G表示連接強度，如果施加電壓V到給定的行列，會產(chǎn)生電流j，公式如下

圖2 模擬存儲陣列

矩陣乘法中使用導(dǎo)電組件陣列的做法并不新穎，而是在許多年前就已被提出。隨著深度學(xué)習(xí)的興起，這種方法因為可以加速運算而得到關(guān)注（表1）[3]。因為權(quán)重數(shù)據(jù)儲存在物理陣列中，所以所有操作都需要就近進行，不能在存儲中反復(fù)移出移入。因此，內(nèi)存要能夠存儲和保持權(quán)重，有非破壞性的讀取機制，還能夠在一次操作中讀取和寫入整個存儲陣列。盡管前兩個要求傳統(tǒng)存儲操作能夠滿足，但第三個要求與隨機順序存取截然相反，或至少會限制可存取地址空間。因此，可以使用傳統(tǒng)的存儲元件，但必須創(chuàng)造不同于傳統(tǒng)存儲架構(gòu)的新陣列架構(gòu)。 [5]

表1 重要計算模型的時空分類

應(yīng)用案例與趨勢展望

表2 主要Analog/Digital項目的特性比較

關(guān)于模擬運算和數(shù)字運算的實際應(yīng)用，國內(nèi)外已有多個相關(guān)研究項目和芯片產(chǎn)出結(jié)果（表2）。SpiNNaker芯片中，CPU與本地存儲器在單個芯片上緊密相連，它擁有幾種芯片中最高的可重構(gòu)性。然而它的能耗和速率不如其他芯片，尤其是當模擬復(fù)雜的神經(jīng)元和突觸模型時。除SpiNNaker以外，大多數(shù)芯片是基于數(shù)字電路或AMS電路（Analog and Mixed Signal，模擬混合信號電路）的硬件實現(xiàn)，而SpiNNaker是在多核ARM處理器上運行。AMS電路實現(xiàn)的優(yōu)勢是模擬電路的物理特性，能夠直接模擬連續(xù)神經(jīng)動力學(xué)，擁有比數(shù)字實現(xiàn)更強的計算能力和功率效率，亞閾值的AMS電路還能夠?qū)崿F(xiàn)超低能耗。BrainScaleS芯片由幾個晶圓相連而成，每個晶圓含有數(shù)個HiCANN神經(jīng)內(nèi)核，這一項目旨在模擬出有精確生物神經(jīng)行為和人腦規(guī)模的神經(jīng)網(wǎng)絡(luò)。海德堡大學(xué)研發(fā)的HiCANN芯片比實時快10000倍,晶片規(guī)模集成電路能夠?qū)崿F(xiàn)大規(guī)模并行處理。HiCANN芯片旨在為神經(jīng)系統(tǒng)科學(xué)家提供超級電腦來加速大規(guī)模SNN模擬，而非開發(fā)需要實時操作的低能耗智能嵌入系統(tǒng)。Neurogrid是一種為閾下模擬電路設(shè)計的SNN鑒別器，能夠?qū)崟r運行并對生物機制進行仿真。TrueNorth是應(yīng)用在數(shù)字電路上的神經(jīng)形態(tài)芯片，能夠?qū)Φ凸拇笠?guī)模網(wǎng)絡(luò)進行評估，但TrueNorth系統(tǒng)不支持片上學(xué)習(xí)。SNN的參數(shù)，如SNN的拓撲結(jié)構(gòu)和神經(jīng)元間的連接強度，在配置后保持不變。在線下CPU/GPU平臺上訓(xùn)練后，將訓(xùn)練過的SNN參數(shù)配置到芯片上。沒有了片上訓(xùn)練，芯片設(shè)計將大大簡化。然而，這樣的芯片無法實現(xiàn)自適應(yīng)，任何SNN參數(shù)上的變化都需要重新配置和啟動。這四種芯片被認為是脈沖神經(jīng)形態(tài)處理器領(lǐng)域的重要進步與前沿探索，多數(shù)以生物學(xué)模擬為目標，而TrueNorth旨在實現(xiàn)擁有強化操作符的低功耗機器學(xué)習(xí)。Loihi芯片是一種數(shù)字處理器，能夠靈活地對大規(guī)模SNN進行評估。就功能而言，Loihi芯片處于生物模擬和SNN機器學(xué)習(xí)的前沿領(lǐng)域，它將片上學(xué)習(xí)與不同學(xué)習(xí)規(guī)則、復(fù)雜神經(jīng)元模型、信息編碼協(xié)議整合到一起，因此能夠?qū)崿F(xiàn)對不同算法的模擬。

國內(nèi)主要的SNN研究項目包括清華大學(xué)的天機芯片和浙江大學(xué)的達爾文芯片。第一代天機芯片在2015年完成，2017年進化為第二代，速度更快，性能更高，功耗更低，比IBM TrueNorth功能更全、更靈活、擴展性更好，密度大20%，速度快至少10倍，帶寬高至少100倍。最新一代天機芯片采用28nm工藝制造，核心面積僅3.8x3.8毫米，含有156個FCores核心，大約40000個神經(jīng)元和1000萬個神經(jīng)突觸，既支持神經(jīng)科學(xué)模型和計算機科學(xué)模型，又支持神經(jīng)科學(xué)發(fā)現(xiàn)的眾多神經(jīng)回路網(wǎng)絡(luò)和異構(gòu)網(wǎng)絡(luò)的混合建模。芯片采用了存算一體技術(shù)，無需外掛DDR（Double Data Rate, 雙倍數(shù)據(jù)速率）緩存，極大節(jié)省了空間、功耗和成本。為實現(xiàn)脈沖神經(jīng)網(wǎng)絡(luò)（SNN）和人工神經(jīng)網(wǎng)絡(luò)（ANN）的融合，研究團隊構(gòu)建了一個跨范式的神經(jīng)元方案并設(shè)計了一個統(tǒng)一的功能核（FCore），包含了軸突、突觸、樹突、胞體和神經(jīng)路由器構(gòu)建單元。依靠可重構(gòu)功能核靈活的建模配置和拓撲連接，編碼方式可以在ANN和SNN模式之間轉(zhuǎn)換，從而實現(xiàn)異構(gòu)神經(jīng)網(wǎng)絡(luò)。

圖3 天機芯片

類腦芯片達爾文2于2019年8月在杭州發(fā)布，該芯片由浙江大學(xué)牽頭研發(fā)，杭州電子科技大學(xué)和華為中央研究院分別參與了芯片研制與算法和應(yīng)用場景研究工作。單芯片支持多達15萬個神經(jīng)元，相當于果蠅的神經(jīng)元數(shù)目，是目前國內(nèi)已知單芯片神經(jīng)元規(guī)模最大的脈沖神經(jīng)網(wǎng)絡(luò)類腦芯片。達爾文2采用55nm標準CMOS工藝制造，單芯片有576個內(nèi)核，每個內(nèi)核支持256個神經(jīng)元和超過一千萬的神經(jīng)突觸，可通過系統(tǒng)級擴展構(gòu)建千萬級神經(jīng)元類腦計算系統(tǒng)。2020年9月，浙江大學(xué)聯(lián)合之江實驗室共同研制成功包含792顆達爾文2代芯片的機架式類腦計算機，數(shù)量規(guī)模相當于小鼠大腦，能支持1.2億脈沖神經(jīng)元和近千億神經(jīng)突觸，但運行功耗僅需要350-500瓦。[6]

圖4 達爾文芯片

現(xiàn)今深度學(xué)習(xí)已然成為人工智能的同義詞，雖然業(yè)界希望深度學(xué)習(xí)能夠像微電子元件一樣廣泛應(yīng)用到生活的各個方面，但它至今沒有相似的比例縮小規(guī)則，甚至沒有一個能作為引導(dǎo)的基本理論。雖然已經(jīng)開發(fā)出含數(shù)百萬參數(shù)的復(fù)雜神經(jīng)網(wǎng)絡(luò)、采集了大量標記過的數(shù)據(jù)集，并找到了能夠執(zhí)行算法的硬件，但對于深度學(xué)習(xí)的廣泛應(yīng)用，成本是一個主要問題，包括建造模型花費的時間和訓(xùn)練執(zhí)行所需的計算資源。GPU的出現(xiàn)讓這些任務(wù)能夠被處理，而為深度學(xué)習(xí)定制的硬件將會有優(yōu)于傳統(tǒng)CPU的性能。目前已經(jīng)出現(xiàn)了新一代的深度學(xué)習(xí)加速硬件，通過權(quán)衡通用性與計算效率來優(yōu)化成本。建造和訓(xùn)練模型的復(fù)雜程度迫使研究者從系統(tǒng)層面上尋找解決方法，同時使用數(shù)個深度學(xué)習(xí)加速器來解決問題。深度學(xué)習(xí)機器的系統(tǒng)最終會影響到新的人工智能硬件加速器的可行性。模擬加速器的基礎(chǔ)設(shè)計和材料性質(zhì)等問題亟待解決，以增強系統(tǒng)層面整合的可能性。雖然不期望深度學(xué)習(xí)模擬運算能夠從根本上開創(chuàng)新的生態(tài)系統(tǒng)，但它需要能夠增強現(xiàn)有的數(shù)字運算。因此，我們將會看到對神經(jīng)網(wǎng)絡(luò)性能提升的持續(xù)性推動，而數(shù)字硬件的解決方法將會被開發(fā)利用到極限。如果情況樂觀，模擬運算方案將會與這一改變無縫銜接。

上下滑動查看文章參考資料：

[1]

https://www.encyclopedia.com/computing/news-wires-white-papers-and-books/digital-computing

Digital Computing by James E. Tomayko

[2]

https://ieeexplore.ieee.org/abstract/document/8278135 Not your Father’s analog computer by Yannis Tsividis

[3]

A Generic Systolic Array Building Block for Neural Networks with on-Chip Learning by C. Lehmann, M. Viredaz, and F. A. Blayo

[4]

A Survey on Analog Models of Computation by Oliver Bournez and Amaury Pouly

[5]

The Next Generation of Deep Learning Hardware: Analog Computing by Wilfried Haensch, Tayfun Gokmen, and Ruchir Puri.

[6]

http://www.news.zju.edu.cn/2020/0903/c775a2191128/pagem.htm 神經(jīng)元規(guī)模最大的類腦計算機誕生，與小鼠大腦神經(jīng)元數(shù)量規(guī)模相當

聲明：本文章發(fā)布目的在于傳遞更多信息，并不代表本公眾號贊同其觀點和對其真實性負責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時與我司聯(lián)系，我們將在第一時間處理！

作者介紹

程韞韻 Emily

新氦類腦智能戰(zhàn)略總監(jiān)，復(fù)旦-麻省理工學(xué)院國際工商管理碩士，擁有多年跨區(qū)域、跨行業(yè)的企業(yè)戰(zhàn)略咨詢經(jīng)驗。在類腦智能、人工智能技術(shù)及應(yīng)用落地方向有深入的行業(yè)分析和市場洞察，為政府、企業(yè)提供數(shù)智化轉(zhuǎn)型咨詢服務(wù)，為AI創(chuàng)業(yè)團隊提供商業(yè)落地建議。主導(dǎo)撰寫AI技術(shù)白皮書，類腦芯片白皮書。

上一篇：【類腦芯片】實現(xiàn)低功耗高性能的架構(gòu)（下）下一篇：【類腦芯片】模擬大腦信號傳遞方式的算法

激情五月av久久久久久久_狠狠干少妇_欧美同性男男激情_肉大榛一进一出免费视频_亚洲视屏一区,女人张开腿免费视频,男生女生一起叉叉,av中文不卡