盡管有眾多人工智慧(AI)處理器競相搶市──每一種都自稱(chēng)是“突破”──今日的AI社群仍被無(wú)數問(wèn)題所困擾,包括能量、速度、AI硬體的尺寸與AI演算法,這些都尚未證實(shí)在強韌度以及性能方面有所改善。

在電腦視覺(jué)方面,如IBM Research的電腦視覺(jué)與多媒體研究經(jīng)理Rogerio Feris所言,最大的挑戰在于如何”讓視覺(jué)分析更有效率“。要特別說(shuō)明的是,AI仍在早期發(fā)展階段,需要全新的想法、長(cháng)期性的眼光,以及學(xué)界與研究機構在研發(fā)上的更多投入。

IBM Research會(huì )在本周于鹽湖城(Salt Lake City)舉行的2018年度電腦視覺(jué)與圖形識別研討會(huì )(Conference on Computer Vision and Pattern Recognition,CVPR)上,發(fā)表兩篇關(guān)于A(yíng)I軟體與硬體技術(shù)的論文;CVPR是由電腦視覺(jué)基金會(huì )(Computer Vision Foundation)以及IEEE電腦學(xué)會(huì )贊助,號稱(chēng)是最具競爭力的電腦視覺(jué)技術(shù)研討會(huì )之一。

在A(yíng)I硬體部分,IBM Research正在推廣一種立體視覺(jué)(stereo-vision)系統,是透過(guò)將以大腦啟發(fā)的棘波神經(jīng)網(wǎng)路(spiking neural-network)技術(shù)應用于資料擷取(感測器)與資料處理所開(kāi)發(fā);該設計利用了IBM自家的TureNorth晶片──是一種非馮諾伊曼(non-von-Neumann)架構處理器──以及一對瑞士業(yè)者iniLabs開(kāi)發(fā)的事件導向(event-driven)攝影機

ai1

IBM的TrueNorth架構

在A(yíng)I軟體部分,IBM Research的論文是關(guān)于“Blockdrop”,也就是被認為可降低深度殘差網(wǎng)路(deep residual networks)所需之總運算量的關(guān)鍵步驟。Feris解釋?zhuān)陨蟽善撐氖菑膬蓚€(gè)不同角度解決一個(gè)相同的問(wèn)題──視覺(jué)分析效率。

Feris表示,當有人要過(guò)馬路,自動(dòng)駕駛車(chē)輛會(huì )被預期要做出”即時(shí)推論“;雖然影像辨識準確度很重要,不過(guò)自駕車(chē)要花多少時(shí)間產(chǎn)生結論、識別出那是什么東西,才是它在現實(shí)世界應用的終極試驗。

什么是“Blockdrop”? 在2015年ImageNet大會(huì )上成為贏(yíng)家的殘差網(wǎng)路,在電腦視覺(jué)技術(shù)社群掀起了一場(chǎng)風(fēng)暴;該技術(shù)已經(jīng)證明了它能提供優(yōu)異的識別結果,因為能訓練神經(jīng)網(wǎng)路中的數百甚至數千層。不過(guò)Feris指出:”將殘差網(wǎng)路需要的那些一體適用運算應用于所有成像,會(huì )太沒(méi)有效率;“他解釋?zhuān)绻幸恢还吩诎咨尘扒?,?huì )比在忙碌都市街景中更容易被識別。

為此IBM Research開(kāi)發(fā)了BlockDrop,這是一種學(xué)習動(dòng)態(tài)選擇殘差網(wǎng)路中哪些區塊(包括多個(gè)層)來(lái)執行推論任務(wù)的方法;Feris指出:"該方法的目標是妥善減少整體運算輛,同時(shí)不損失預測準確度。”

ai2

IBM聲稱(chēng),BlockDrop在測試中平均能將識別速度提升20%,有時(shí)甚至能加快36%,而且不犧牲殘差網(wǎng)路在ImagNet資料集中達到的準確度。Feris表示,IBM這項研究是在2017年夏天與美國德州大學(xué)(University of Texas)、馬里蘭大學(xué)(University of Maryland)合作展開(kāi),該公司將會(huì )把BlockDrop釋出給開(kāi)放源碼社群。

立體視覺(jué)應用的神經(jīng)形態(tài)技術(shù) 在硬體方面,IBM Research瞄準了一種利用棘波神經(jīng)網(wǎng)路的立體視覺(jué)系統;該公司表示,目前產(chǎn)業(yè)界是使用兩個(gè)傳統(訊框)攝影機來(lái)產(chǎn)生立體視覺(jué),但從未有人嘗試過(guò)神經(jīng)形態(tài)技術(shù)。雖然以傳統攝影機提供立體影像并非不可能,不過(guò)會(huì )需要高畫(huà)質(zhì)影像訊號處理,例如高動(dòng)態(tài)范圍(HDR)成像、超高解析度處理以及自動(dòng)校準等。

根據IBM研究員Alexander Andreopoulos在論文中的描述,其系統是利用兩個(gè)iniLabs開(kāi)發(fā)的事件導向攝影機(又被稱(chēng)為動(dòng)態(tài)視覺(jué)感測器-DVSe),擷取畫(huà)面之后以IBM TrueNorth晶片叢集來(lái)提取快速移動(dòng)物體之深度。

IBM的目標是大幅降低取得立體影像所需的功耗與延遲,在接收直播的棘波輸入(這已經(jīng)大幅降低資料量)后,該系統是用IBM的神經(jīng)形態(tài)硬體重建3D影像,透過(guò)估算來(lái)自?xún)蓚€(gè)DVSe之影像的差異,以及藉由三角測量定位3D空間中的物體。

ai3

神經(jīng)形態(tài)立體影像

資料擷取與處理 有一家法國新創(chuàng )公司Prophesee是利用神經(jīng)形態(tài)技術(shù)來(lái)擷取資料,并降低感測器所收集的資料量;該公司的感測器技術(shù)并非以訊框為基礎,而是以簡(jiǎn)化并打造適合機器使用的資料為設計目標。Prophesee執行長(cháng)先前接受EE Times采訪(fǎng)時(shí)表示,這能大幅減輕資料量負擔,應該也能因此讓車(chē)子能做出幾乎即時(shí)性的決策。

不過(guò)新一代的IBM立體視覺(jué)系統不只將類(lèi)人腦技術(shù)用于資料擷取,也用在資料處理上,以重建立體影像;Andreopoulos表示,該系統還有一個(gè)最大的成就,是透過(guò)編程讓TrueNorth有效率地執行"棘波神經(jīng)網(wǎng)路立體視覺(jué)必備的各種常見(jiàn)子程序(sub-routines)”。IBM補充指出,TrueNorth晶片的架構功耗比傳統系統低,這會(huì )有利于自動(dòng)駕駛系統的設計。

同樣的,利用一對DVS攝影機(非訊框式)也能降低資料量與功耗,并提升速度、減少延遲,提供更好的動(dòng)態(tài)范圍,而IBM表示這些都是即時(shí)系統設計的關(guān)鍵元素。在被問(wèn)到新的TrueNorth系統還有那些優(yōu)勢時(shí),Andreopoulos表示,與采用傳統CPU/GPU處理器或FPGA的最先進(jìn)系統相較,其每畫(huà)素視差圖功率(power per pixel disparity map)有兩百倍的改善。

利用以事件為基礎的輸入,饋入IBM系統的即時(shí)影像資料,是以9顆TrueNorth晶片進(jìn)行處理,每秒能計算400張視差圖,延遲僅11毫秒(ms)。IBM在論文中指出,藉由特定的權衡(trade-offs),該系統能將速率進(jìn)一步提升到每秒2,000張視差圖。

采用TrueNorth晶片的立體視覺(jué)系統何時(shí)可以商業(yè)化?Andreopoulos表示:"我們還不能透露時(shí)間點(diǎn),只能說(shuō)我們已經(jīng)進(jìn)行測試并且成功編程晶片有效處理視差圖,現階段是概念驗證。“