在不久前的人機大戰中,AlphaGo依靠模仿人腦生物機理的深度學(xué)習算法而擊敗人類(lèi)。深度學(xué)習,是源于對生物人腦機理的仿生學(xué)研究而形成的一種人工智能算法。作為深度學(xué)習神經(jīng)網(wǎng)絡(luò )的一種,卷積神經(jīng)網(wǎng)絡(luò )(CNN)算法已經(jīng)成為當前人工智能機器視覺(jué)領(lǐng)域的研究熱點(diǎn),其特性可以概括為海量的輸入數據、大規模的MAC運算、稀疏的權值矩陣、靈活的數據位寬和多樣的網(wǎng)絡(luò )拓撲等。
中國神經(jīng)網(wǎng)絡(luò )處理器前進(jìn)到哪里?
而兩家中國企業(yè)也在探索神經(jīng)網(wǎng)絡(luò )處理器的道路上取得了可喜的突破。今年3月,中科院計算技術(shù)研究所發(fā)布全球首個(gè)神經(jīng)網(wǎng)絡(luò )處理器科研成果。由陳云霽、陳天石課題組提出的深度學(xué)習處理器指令集DianNaoYu被計算機體系結構領(lǐng)域頂級國際會(huì )議ISCA2016所接收,其評分排名在近300篇投稿中高居第一。該成果的模擬實(shí)驗表明,采用DianNaoYu指令集的寒武紀深度學(xué)習處理器相對于x86指令集的CPU有兩個(gè)數量級的性能提升,但是面積和功耗僅為1/10。預計該項成果今年年內將正式投入產(chǎn)業(yè)化,未來(lái)將實(shí)現刷臉支付、手機圖片搜索等應用。
據了解,DianNao是寒武紀系列的第一個(gè)原型處理器結構,包含一個(gè)處理器核,主頻為0.98GHz,峰值性能達每秒4520億次神經(jīng)網(wǎng)絡(luò )基本運算,65nm工藝下功耗為0.485W,面積3.02mm2。在若干代表性神經(jīng)網(wǎng)絡(luò )上的實(shí)驗結果表明,DianNao的平均性能與主流GPGPU相當,但面積和功耗僅為主流GPGPU百分之一量級。DaDianNao則在DianNao的基礎上進(jìn)一步擴大了處理器的規模,包含16個(gè)處理器核和更大的片上存儲,并支持多處理器芯片間直接高速互連,避免了高昂的內存訪(fǎng)問(wèn)開(kāi)銷(xiāo)。
6月,中星微“數字多媒體芯片技術(shù)”國家重點(diǎn)實(shí)驗室也宣布,經(jīng)過(guò)五年多的攻堅克難和不懈努力,中國首款嵌入式神經(jīng)網(wǎng)絡(luò )處理器(NPU)芯片誕生,并已于今年3月6日在臺積電(TSMC)實(shí)現投片量產(chǎn)。NPU采用了“數據驅動(dòng)并行計算”的架構,顛覆了傳統的馮諾依曼架構。這種數據流(Dataflow)類(lèi)型的處理器,極大地提升了計算能力與功耗的比例,特別擅長(cháng)處理視頻、圖像類(lèi)的海量多媒體數據,使得人工智能在嵌入式機器視覺(jué)應用中可以大顯身手。目前,該芯片已成功在視頻監控領(lǐng)域實(shí)現產(chǎn)業(yè)化,并可廣泛應用于智能駕駛輔助、無(wú)人機、機器人等嵌入式機器視覺(jué)領(lǐng)域。
型號為VC0758的NPU是針對CNN的算法模型特性而專(zhuān)門(mén)設計的一款神經(jīng)網(wǎng)絡(luò )處理器。每個(gè)NPU處理器具有4個(gè)內核,每個(gè)內核有兩個(gè)數據流處理器, 每個(gè)數據流處理器具有8個(gè)長(cháng)位寬或16個(gè)短位寬的單指令多數據(SIMD)運算單元。在一個(gè)時(shí)鐘周期內可同時(shí)完成64個(gè)長(cháng)位寬MAC運算或者128個(gè)短位寬MAC運算。每個(gè)NPU核具有38G Ops的長(cháng)位寬處理能力或者76G Ops的短位寬處理能力。NPU的處理性能可以組成多核陣列來(lái)提升,也可以通過(guò)多芯片級聯(lián)的方式進(jìn)一步擴展,以滿(mǎn)足更復雜的CNN網(wǎng)絡(luò )運算的性能需求。
“每個(gè)NPU核還具有256KB Level-2 Cache,以及整塊數據搬移(Block Data Access),片內數據共享(Data-sharing Between Processor Units),提升數據流的吞吐效率。”國家重點(diǎn)實(shí)驗室執行主任張韻東表示,在軟件方面,利用了稀疏數據優(yōu)化(Optimization for Sparse Data)等特性提高計算效率。NPU支持Caffe、TensorFlow等多種神經(jīng)網(wǎng)絡(luò )框架, 支持AlexNet、GoogleNet等各類(lèi)神經(jīng)網(wǎng)絡(luò )。
此外,通過(guò)集成NPU處理器內核以及國家標準的音視頻編解碼器(SVAC Codec),VC0758芯片也成為全球首顆具備深度學(xué)習人工智能的嵌入式視頻采集壓縮編碼系統級芯片。
后摩爾時(shí)代,中國企業(yè)變道超車(chē)的機會(huì )
“隨著(zhù)逐步逼近香農定理、摩爾定律的極限,面對大流量、低延時(shí)的理論還未創(chuàng )造出來(lái)。大家感到前途茫茫,找不到方向。”張韻東說(shuō),后摩爾定律時(shí)代有幾條不同的路徑,一種觀(guān)點(diǎn)是繼續推進(jìn)摩爾定律,繼續在新型材料、工藝制程和器件結構上努力,將摩爾定律再推進(jìn)一步;另一種觀(guān)點(diǎn)是超越摩爾定律,通過(guò)SoC將數字電路、模擬電路、存儲器甚至射頻電路集成在一顆芯片里,以實(shí)現更多的功能,或通過(guò)SIP采用多芯片堆疊的方式,將多顆裸芯片封裝在一起。
面對摩爾定律的盡頭,中星微通過(guò)NPU這塊“引玉之磚”給出了全新的技術(shù)路線(xiàn):智能摩爾之路(Intelligent Moore)。其內涵是,雖然物理層面和信號層面都受到物理規律的制約,但在信息層面的技術(shù)創(chuàng )新還遠沒(méi)有達到極限。如何進(jìn)一步借鑒人腦智慧機制,研究新型人工智能計算方法,進(jìn)一步提升信息處理的性能功耗價(jià)格比,可能是下一次信息革命的關(guān)鍵。
陳天石此前曾表示,寒武紀科技通過(guò)前期的工作,積累了多項深度學(xué)習芯片的“山頂專(zhuān)利”,形成了對深度學(xué)習處理器所有關(guān)鍵技術(shù)的全覆蓋,構建寒武紀科技在這個(gè)領(lǐng)域的專(zhuān)業(yè)壁壘。如同過(guò)去中國人進(jìn)入處理器行業(yè),必須面臨虛擬架構的一些技術(shù)壁壘一樣,之后進(jìn)入這個(gè)領(lǐng)域的公司,也必須面臨寒武紀的壁壘,這是中國人的機會(huì )。
“寒武紀”處理器不是用來(lái)取代CPU的顛覆式革命,更像是一款針對智能認知等應用的專(zhuān)用芯片,優(yōu)勢集中在人臉識別、聲音識別等人工智能方面。根據此前曝光的“寒武紀”處理器產(chǎn)業(yè)化時(shí)間表,第一步,2016年將率先在客戶(hù)端、手機端以IP形式嵌入到芯片中;第二步,預期在2017年推出云端芯片,這也是寒武紀第一輪天使融資的主要目的。目前,寒武紀已經(jīng)與曙光展開(kāi)了戰略合作,其云端芯片將有望應用到曙光云數據中心之中,作為大數據、人工智能的引擎,這也與曙光“數據中國”戰略相匹配。