深度神經(jīng)網(wǎng)絡(luò )就像遙遠地平線(xiàn)上的海嘯一樣涌來(lái)。

鑒于該技術(shù)仍在演變的算法和應用,目前還不清楚深度神經(jīng)網(wǎng)絡(luò )(DNNs)最終會(huì )帶來(lái)什么變化。但是,迄今為止,它們在翻譯文本、識別圖像和語(yǔ)言方面所取得的成就,清楚地表明他們將重塑計算機設計,而這種變化正在半導體設計和制造方面發(fā)生同樣深刻的變化。

量身定制的第一批商用芯片將于今年上市。由于訓練新的神經(jīng)網(wǎng)絡(luò )模型可能需要幾周或幾個(gè)月的時(shí)間,因此這些芯片可能是迄今為止制造的最大的,因此也是最昂貴的大規模商用集成電路芯片。

新創(chuàng )公司追逐深度學(xué)習

今年的行業(yè)可能會(huì )看到來(lái)自創(chuàng )業(yè)公司Graphcore的一款微處理器,該公司不使用DRAM,而是來(lái)自競爭對手Cerebras Systems的晶圓級集成開(kāi)拓先鋒。英特爾收購的2.5-D Nervana芯片已經(jīng)在生產(chǎn)樣片,其他十幾個(gè)處理器正在開(kāi)發(fā)中。同時(shí),從Arm到西部數據(Western Digital)的芯片公司正在研究?jì)群?,以加速深層神?jīng)網(wǎng)絡(luò )的推理部分。

“我認為(2018年)將是一場(chǎng)即將到來(lái)的派對。”加州大學(xué)伯克利分校名譽(yù)教授大衛·帕特森(David Patterson)表示:“我們剛剛開(kāi)始看到許多公司正在評估一些想法。”

這個(gè)趨勢非常明顯,帕特森和合著(zhù)者約翰·亨尼西(John Hennessey)在上個(gè)月發(fā)表的關(guān)于計算機的開(kāi)創(chuàng )性文本的最新版本中,為它寫(xiě)了一個(gè)新的篇章。作者對內部設計提供了深入的見(jiàn)解,例如Patterson為其貢獻的Google TensorFlow處理器(TPU),以及最新Apple和Google智能手機芯片中的Microsoft Catapult FPGA和推理模塊。

“這是計算機體系結構和封裝的復興。” Patterson說(shuō):“明年我們會(huì )看到比過(guò)去十年更有趣的電腦。”

深度神經(jīng)網(wǎng)絡(luò )的興起在過(guò)去幾年里把風(fēng)險投資的資金帶回到了半導體領(lǐng)域。 “EE Times(電子工程專(zhuān)輯美國版)”最新推出的初創(chuàng )公司評選項目“Silicon 60”中,列舉了七家初創(chuàng )公司,其中包括兩個(gè)鮮為人知的名稱(chēng):寒武紀科技 Cambricon Technologies(北京寒武紀科技)和Mythic Inc.(Austin,Texas)。

“我們看到基于新架構的新創(chuàng )公司激增。我自己跟蹤了15到20家......過(guò)去10到15年中,在任何一個(gè)細分領(lǐng)域中半導體行業(yè)都不曾有超過(guò)15家的半導體公司同時(shí)涌現的事情”,企業(yè)家Chris Rowen說(shuō)。他從Cadence Design Systems離職后,成立了一家公司Cognite Ventures,專(zhuān)注于神經(jīng)網(wǎng)絡(luò )軟件。

“Nvidia由于其強大的軟件地位,將難以與高端服務(wù)器進(jìn)行訓練的競爭。如果你去追求智能手機市場(chǎng)你會(huì )覺(jué)得自己瘋了,因為你必須在很多方面都做得出色。不過(guò)在高端或是低端的智能手機市場(chǎng),還是會(huì )可能有一些機會(huì )。”羅文說(shuō)。

市場(chǎng)觀(guān)察家Linley集團負責人Linley Gwennap表示,Nvidia在最新的GPU(Volta)方面做得非常出色,他們調整了對DNN的速度培訓。 “但我當然不認為這是最好的設計,”Gwennap說(shuō)。

Gwennap說(shuō),Graphcore(英國布里斯托爾)和Cerebras(加利福尼亞州Los Altos)是培訓芯片最多的兩家初創(chuàng )公司,因為他們籌集的資金最多,而且似乎擁有最好的團隊。由Google前芯片設計師創(chuàng )立的初創(chuàng )公司Groq聲稱(chēng),它將在2018年推出一款推理芯片,在每秒的總操作和推論中都會(huì )以四倍的優(yōu)勢擊敗競爭對手。

AI18012302

英特爾的Nervana是一個(gè)大型線(xiàn)性代數加速器,位于硅中介層上,緊鄰四個(gè)8-GB HBM2存儲器堆棧。消息來(lái)源:Hennessy和Patterson著(zhù)寫(xiě)的《計算機體系結構:一種定量方法》

Intel的Nervana,被稱(chēng)為L(cháng)ake Crest(上圖),是最受關(guān)注的定制設計之一。它執行16位矩陣操作,數據共享指令集中提供的單個(gè)5位指數。

與Nvidia的Volta一樣,Lake Crest邏輯器件位于TSMC的CoWoS(襯底上芯片上芯片)中介層上,緊鄰著(zhù)四個(gè)HBM2高帶寬存儲器堆棧。這些芯片被設計成網(wǎng)狀,提供五到十倍于Volta的性能。

雖然去年微軟在DNN上使用了FPGA,但Patterson仍然對這種方法持懷疑態(tài)度。 “你為(FPGA)的靈活性付出了很多代價(jià)。編程真的很難,”他說(shuō)。

Gwennap在去年年底的一項分析中指出,DSP也將發(fā)揮作用。 Cadence、Ceva和Synopsys都提供面向神經(jīng)網(wǎng)絡(luò )的DSP內核,他說(shuō)。

加速器缺少共同基準

雖然芯片即將問(wèn)世,但是架構師們還沒(méi)有決定如何去評估它們。

就像RISC處理器的早期,Patterson回憶說(shuō),“每個(gè)公司都會(huì )說(shuō),'你不能相信別人的基準,但是你可以相信我的',那不太好。

那時(shí),RISC供應商在SPEC基準測試中進(jìn)行了合作?,F在,DNN加速器需要自己定義的測試套件,涵蓋各種數據類(lèi)型的訓練和推理以及獨立的或是集群的芯片。

聽(tīng)取了這個(gè)呼吁,交易處理性能委員會(huì )(TPC)是一個(gè)由20多個(gè)頂級服務(wù)器和軟件制造商組成的小組,12月12日宣布已經(jīng)組建了一個(gè)工作組來(lái)定義機器學(xué)習的硬件和軟件基準。 TPC-AI委員會(huì )主席Raghu Nambiar表示,目標是創(chuàng )建與加速器是CPU還是GPU的測試。但是,這個(gè)團隊的成員名單和時(shí)間框架還處于不斷變化之中。

百度公司于2016年9月發(fā)布了一個(gè)基于其深度學(xué)習工作負載的開(kāi)放源代碼基準測試工具,使用32位浮點(diǎn)數學(xué)進(jìn)行訓練任務(wù)。它在六月份更新了DeepBench以涵蓋推理工作和16位數學(xué)的使用。

哈佛研究人員發(fā)表的Fathom套件中定義的八個(gè)AI工作負載支持整數和浮點(diǎn)數據。帕特森說(shuō):“這是一個(gè)開(kāi)始,但是要獲得一個(gè)讓人感覺(jué)舒適的全面基準測試套件,還需要更多的工作。”

“如果我們把努力做成一個(gè)好的基準,那么所有投入工程的錢(qián)都會(huì )花得值得。”他說(shuō)。

除了基準之外,工程師需要跟蹤仍在演變的神經(jīng)網(wǎng)絡(luò )算法,以確保他們的設計不會(huì )被束之高閣。

高通公司下一代核心研發(fā)總監Karam Chatha表示:“軟件總是在變化,但是你需要盡早把硬件拿出來(lái),因為它會(huì )影響軟件 - 你不得不催促讓它發(fā)生。到目前為止,移動(dòng)芯片供應商正在驍龍SoC的DSP和GPU內核上運行神經(jīng)網(wǎng)絡(luò )工作,但一些觀(guān)察家預計,它將為機器學(xué)習定制一個(gè)新的模塊, 放在2019年7納米驍龍 SoC里。

AI18012303圖文:高通公司展示了一個(gè)自定義DNN加速器的研究范例,但是現在它使用通用DSP和GPU內核的軟件。 (來(lái)源:高通)

Patterson說(shuō):“市場(chǎng)決定哪種芯片最好。 “這是殘酷的,但這是設計電腦讓人興奮之處。”

早期進(jìn)入的玩家已經(jīng)有機會(huì )進(jìn)入到游戲中。

例如,Facebook最近證明,通過(guò)大幅增加打包到所謂批量大小的功能數量,可以將培訓時(shí)間從一天縮短到一小時(shí)。對于試圖在本地SRAM中運行所有操作的Graphcore來(lái)說(shuō)這可能是個(gè)壞消息,消除了外部DRAM訪(fǎng)問(wèn)的延遲,同時(shí)也限制了它的內存占用。

“他們?yōu)樾∨繑祿O計的,但幾個(gè)月前的軟件結果表明你想要一個(gè)大批量數據包。這表明事情變化的速度有多快,“帕特森說(shuō)。

另一方面,雷克斯電腦(Rex Computing)認為正在迎來(lái)一個(gè)有利的機遇。該初創(chuàng )公司的SoC最初是為高性能服務(wù)器設計的,它使用了一種新穎的暫存器內存。 Rex的方法消除了在虛擬頁(yè)面表中緩存數據的需求,這是GPU使用的一種技術(shù),增加了他們的延遲,聯(lián)合創(chuàng )始人Thomas Sohmers說(shuō)。

因此,Rex芯片比現在的GPU要好得多,特別是在處理流行的矩陣/矢量運算神經(jīng)網(wǎng)絡(luò )時(shí),他說(shuō)。新創(chuàng )公司計劃6月份推出16納米的256核的SoC,希望能提供256 Gflops / watt的運算能力。

與此同時(shí),研究人員正在嘗試從32位到單位浮點(diǎn)和整數數學(xué)的一切可能,以找到最有效的方法來(lái)計算神經(jīng)網(wǎng)絡(luò )結果。他們似乎同意的一點(diǎn)是,最好不要在精確度級別之間轉換。

AI算法仍處于發(fā)展初期

深度神經(jīng)網(wǎng)絡(luò )是幾十年來(lái)一直在人工智能方面進(jìn)行的相對較小的工作。從2012年左右開(kāi)始,包括Facebook的Yann LeCun在內的研究人員開(kāi)始使用特定種類(lèi)的DNN識別圖像,并最終以比人類(lèi)更高的準確度顯示令人驚嘆的結果。深度學(xué)習技術(shù)吸引了研究界,現在正以高速發(fā)表論文,尋求新的突破。

DNN現在提供商業(yè)服務(wù),如亞馬遜的Alexa和谷歌翻譯,以及Facebook的面部識別。網(wǎng)絡(luò )巨頭和他們的全球競爭對手,正在競相將這些技術(shù)應用于盡可能多的服務(wù)中,并期待盡可能找到殺手級應用。

微軟每年都會(huì )以AI為主題舉行兩次員工內部會(huì )議。最近一次有5000人參加,前SPARC處理器架構師Marc Tremblay表示,他現在領(lǐng)導微軟在定制AI芯片和系統方面的工作。

專(zhuān)家承認,他們并不完全理解為什么現有的算法工作得很好。辯論主題是探討這些網(wǎng)絡(luò )算法的相對有效性,例如遞歸(RNN)和卷積(CNN)神經(jīng)網(wǎng)絡(luò )。同時(shí),新的模式仍在發(fā)明之中。

“五年內算法仍然極有可能發(fā)生改變。我們在賭,像矩陣乘法這樣的最底層的算法是不可改變的。”AMD研究員艾倫·拉什(Allen Rush)在最近一次關(guān)于人工智能的IEEE研討會(huì )上說(shuō)。

這就是Google用TPU做出的賭注,最新版本的TPU是針對訓練和推理工作的。它本質(zhì)上是一個(gè)大的乘法累加單元,運行和存儲線(xiàn)性代數例程的結果。 Nervana和Graphcore芯片通常預計將效仿。

哈佛大學(xué)前大腦研究人員Amir Khosrowshahi說(shuō),在神經(jīng)網(wǎng)絡(luò )方面取得的成功主要集中在人工智能領(lǐng)域。他目前是英特爾Nervana集團的首席技術(shù)官,創(chuàng )立了Nervana公司。他在IEEE研討會(huì )上表示:“由于深度學(xué)習非常成功,所以事情正在席卷而下。 每個(gè)人都在做卷積神經(jīng)網(wǎng)絡(luò ),這是一場(chǎng)悲劇......不要以為現在發(fā)生的事情一年后就一定會(huì )到來(lái)。”

AI18012304圖:今天的DNN得到了很多關(guān)注,但是只代表了更廣泛AI領(lǐng)域的一小部分。 (來(lái)源:英特爾)

盡管DNN可以比人類(lèi)更精確地識別圖像,“如今的數據科學(xué)家被迫花費著(zhù)難以接受的時(shí)間對數據進(jìn)行預處理,對模型和參數進(jìn)行迭代,并且等待訓練的收斂......每一步都要么過(guò)于勞累,要么太計算密集型,“Khosrowshahi說(shuō)。

總的來(lái)說(shuō),“人工智能的難題仍然非常難,”他補充說(shuō)。 “最好的研究人員可以得到一個(gè)機器人來(lái)打開(kāi)一扇門(mén),但拿起杯子可能比贏(yíng)得Alpha Go還要更難。”

在這種環(huán)境下,Facebook和Google等網(wǎng)絡(luò )巨頭正在發(fā)布大型數據集,以吸引更多的人從事諸如視頻等新應用領(lǐng)域或數據類(lèi)型的識別問(wèn)題。

拓展應用領(lǐng)域

隨著(zhù)算法的發(fā)展,研究人員也在推動(dòng)深度學(xué)習的應用前沿。

Google旨在系統地將DNN應用于從幫助盲人用到的自動(dòng)字幕照片,到以閱讀磁共振成像掃描結果、到監測工廠(chǎng)車(chē)間的質(zhì)量控制等問(wèn)題。谷歌人工智能研發(fā)負責人李佳(Jia Li)在IEEE研討會(huì )上表示:“人工智能不是一項技術(shù)或產(chǎn)品。 “我們需要開(kāi)始理解一個(gè)領(lǐng)域,然后收集數據,找到算法,并提出解決方案。每一個(gè)新問(wèn)題我們都需要一個(gè)不同的模型。“

事實(shí)上,人們正在將DNN應用于幾乎所有領(lǐng)域,包括設計和制造芯片。英特爾編制了四十多種可能用途的清單,包括了從消費者網(wǎng)上購物助手到華爾街自動(dòng)交易的程序。

目前擔任Target公司數據科學(xué)家,前IBM研究人員Shirish Tatikonda,對應用領(lǐng)域給予了更加清醒的認識。大部分零售商的數據都是關(guān)系數據,而不是最適合神經(jīng)網(wǎng)絡(luò )的非結構化數據。 Shirish Tatikonda在個(gè)活動(dòng)后的簡(jiǎn)短采訪(fǎng)中表示,Target的業(yè)務(wù)問(wèn)題中只有大約10%適用于DNN。盡管如此,該公司正在積極開(kāi)拓這一領(lǐng)域,其系統中約有10%是面向培訓神經(jīng)網(wǎng)絡(luò )模型的GPU服務(wù)器。

為了擴大這種巨大的努力,谷歌的研究人員正在探索他們所謂的AutoML。這個(gè)想法是使用神經(jīng)網(wǎng)絡(luò )自動(dòng)生成模型,而不需要數據科學(xué)家手動(dòng)調整它們。

AI18012305盡管許多最近的努力試圖縮小它們的內存占用量,但是DNN模型在尺寸上仍然差別很大。 來(lái)源:高通

機器人技術(shù)先驅羅德尼•布魯克斯(Rodney Brooks)擔心,預期可能會(huì )失控。 他在最近的一次談話(huà)中說(shuō):“深度學(xué)習是好的,但它正在成為一個(gè)錘子,人們可以用它去打碎一切東西。”

就帕特森而言,他仍然樂(lè )觀(guān)。 他說(shuō),雖然廣泛的人工智能領(lǐng)域沒(méi)有達到過(guò)去的承諾,但它在機器翻譯等領(lǐng)域的成功是真實(shí)的。 “可能所有低處的果實(shí)都被采摘下來(lái)后,人們沒(méi)有發(fā)現什么更令人興奮的事情,但是你幾乎每個(gè)星期都會(huì )看到新的進(jìn)展......所以我認為我們會(huì )發(fā)現AI有更多的用途。”

首度致力于軟體融合

行業(yè)第一次致力于軟件融合。

在早期的瘋狂和分散之中,即使是軟件融合的努力也是分散的。百度的人工智能研究團隊進(jìn)行了一項調查,發(fā)現了11項措施,彌補用于管理神經(jīng)網(wǎng)絡(luò )的競爭軟件框架之間的差距。

最有希望的是開(kāi)放神經(jīng)網(wǎng)絡(luò )交換(ONNX),這是一個(gè)由Facebook和微軟開(kāi)始的開(kāi)源項目,最近由亞馬遜加入。該小組在12月份發(fā)布了ONNX格式的第一版。它旨在將用十幾個(gè)競爭軟件框架中的任何一個(gè)創(chuàng )建的神經(jīng)網(wǎng)絡(luò )模型轉換成圖形表示。

芯片制造商可以在結果圖上定位他們的硬件。這對于那些不能編寫(xiě)獨立軟件來(lái)支持競爭模型框架的創(chuàng )業(yè)公司來(lái)說(shuō)是個(gè)好消息,例如Amazon的MxNet,Google的TensorFlow,Facebook的Caffe2以及微軟的CNTK。

由30多家主要芯片供應商組成的團隊于12月20日發(fā)布了他們的首選選項 - 神經(jīng)網(wǎng)絡(luò )交換格式(Neural Network Exchange Format,簡(jiǎn)稱(chēng)NNEF)。NNEF旨在為芯片制造商提供創(chuàng )建自己的內部格式的替代方案,就像英特爾在Nervana Graph和Nvidia所做的那樣與TensorRT。

在百度找到的其他格式的大寫(xiě)字母名稱(chēng)縮寫(xiě)中,有ISAAC,NNVM,Poplar和XLA。百度硅谷人工智能實(shí)驗室高級研究員格雷格·迪莫斯(Greg Diamos)表示:“現在知道是否會(huì )出現一個(gè)成功的實(shí)施可能還為時(shí)過(guò)早,但是我們正在走上一條更好的路,其中一條最終可能會(huì )勝出。”

AI18012401圖文: 在人工智能框架中,亞馬遜聲稱(chēng)其MxNet框架和新興的Gluon API提供了最好的效率。 (來(lái)源:亞馬遜)

另外,谷歌已經(jīng)開(kāi)始使用軟件來(lái)自動(dòng)化精簡(jiǎn)DNN模型的過(guò)程,以便他們可以運行從智能手機到物聯(lián)網(wǎng)(IoT)節點(diǎn)的所有事情。 如果成功的話(huà),可以將50Mbyte的模型降低到500K字節。

谷歌還在探索如何在手機上進(jìn)行有限的模型培訓,方法是根據當天收集的數據調整模型的頂層或者在夜間運行的一個(gè)流程。 像SqueezeNet和MobileNet這樣的行業(yè)工作也類(lèi)似地展示了更簡(jiǎn)單的成像模型的路徑。

負責Google TensorFlow Lite工作的Pete Warden表示:“我們看到了大量使用機器學(xué)習的人們在各種各樣的產(chǎn)品中大量涌現。 “讓每次運算的能耗降下來(lái)這件事,讓我每天工作到深夜。”

展望未來(lái)

當專(zhuān)家細看AI的未來(lái)時(shí),他們看到了一些有趣的可能。

今天我們使用基于手動(dòng)調整模型的監督式學(xué)習。谷歌的守望者(Warden)是在不久的將來(lái)出現半監督方法的研究人員之一,手機等客戶(hù)端設備自己處理一些學(xué)習。最終目標是無(wú)監督的學(xué)習 - 計算機教育它們自己,而不再需要建造它們的工程師的編程幫助。

在這條路上,研究人員正在設法自動(dòng)標記數據,這些數據來(lái)自手機或物聯(lián)網(wǎng)(IoT)節點(diǎn)等設備。

“谷歌說(shuō),現在我們需要大量的計算,在這個(gè)過(guò)度階段,一旦事情被自動(dòng)標記,你只需要索引新的增量?jì)热?,這更像是人類(lèi)如何處理數據,”Janet George,西部數據的科學(xué)家說(shuō)。

無(wú)監督學(xué)習打開(kāi)了加速機器智能時(shí)代的大門(mén),有些人認為這是數字化的必殺技。另一些人則擔心技術(shù)可能會(huì )在沒(méi)有人為干預的情況下以災難性的方式失控。 Google公司TPU項目負責人Norm Jouppi說(shuō):“這讓我感到害怕。

同時(shí),從事半導體工作的學(xué)者對未來(lái)的AI芯片有自己的長(cháng)遠展望。

英特爾,Graphcore和Nvidia“已經(jīng)在制造全標線(xiàn)芯片,下一步就是三維技術(shù)”,Patterson說(shuō)。 “當摩爾定律如火如荼時(shí),由于擔心可靠性和成本問(wèn)題,人們會(huì )在看到復雜的封裝技術(shù)之前就臨陣退縮了?,F在摩爾定律正在結束,我們將看到很多封裝方面的實(shí)驗。“

這里的最終游戲是創(chuàng )造出新型的晶體管,可以在邏輯和存儲器層上堆疊。

Notre Dame電氣工程教授蘇曼·達塔(Suman Datta)看好負電容鐵電晶體管技術(shù)的晶體管。他在最近召開(kāi)的所謂的單體三維(3-D)結構會(huì )議上展望了該領(lǐng)域的前景。這樣的設計應用和先進(jìn)的3-D NAND閃存已經(jīng)采用了on-die芯片堆棧技術(shù)。

來(lái)自伯克利,麻省理工學(xué)院和斯坦福大學(xué)的團隊將在二月份的國際固態(tài)電路會(huì )議上展示一個(gè)類(lèi)似的前沿技術(shù)。芯片(下圖)將電阻RAM(ReRAM)結構堆疊在由碳納米管制成的邏輯上的碳納米管。

AI18012402伯克利,麻省理工學(xué)院和斯坦福大學(xué)的研究人員將在ISSCC上報告一種使用碳納米管,ReRAM和圖案作為計算元素的新型加速器。 (來(lái)源:加州大學(xué)伯克利分校)

從DNN獲得靈感,該設備被編程為近似模式,而不是計算機迄今使用的確定性數字。 伯克利教授揚·拉巴伊(Jan Rabaey)說(shuō),這個(gè)所謂的高維計算使用了幾萬(wàn)維的向量作為計算元素,伯克利教授為本文做出了貢獻,并且是英特爾AI顧問(wèn)委員會(huì )成員。

Rabaey說(shuō),這樣的芯片可以從例子中學(xué)習,并且比傳統系統需要的操作要少得多。一塊測試芯片將很快問(wèn)世,它使用振蕩器陣列,作為與相關(guān)存儲器陣列中的采用了ReRAM單元的模擬邏輯。

Rabaey在IEEE人工智能研討會(huì )上表示:“我夢(mèng)想的引擎,是可以隨身攜帶,現場(chǎng)為我提供指導......我的目標是推動(dòng)AI運行在小于100毫伏的運行。 我們需要重新思考我們如何做計算。 我們正在從基于算法的系統轉向基于數據的系統。”