機器視覺(jué)目前處于爆發(fā)前期,潛在能量巨大,視覺(jué)體驗不斷進(jìn)步,對視覺(jué)的理解也有賴(lài)于A(yíng)I的演進(jìn)。根據Automated Imaging Association發(fā)布的統計數據,2015年全球機器視覺(jué)系統及部件市場(chǎng)規模是42億美元,2016年這一數字約為46億美元,預計2017年,全球機器視覺(jué)系統及部件市場(chǎng)規模將達到50億美元。從長(cháng)遠的潛在市場(chǎng)規模來(lái)看,根據AIA調查,當前只有5%的潛在用戶(hù)使用了機器視覺(jué),也就是還有95%的潛在用戶(hù)需要但還沒(méi)有用上機器視覺(jué),全部潛力發(fā)揮出來(lái)后,全球的市場(chǎng)可達到1200億美元。科學(xué)實(shí)驗模塊
機器視覺(jué)就是用機器代替人眼來(lái)做測量和判斷。它是人工智能正在快速發(fā)展的一個(gè)分支。機器視覺(jué)正從平面2D邁向3D立體效果。3D較2D可識別圖像更有深度更立體、精確,但對圖像處理性能的要求更高,對軟硬件提出更大挑戰。在工業(yè)、汽車(chē)、醫療、消費電子等領(lǐng)域3D機器視覺(jué)前景廣闊,其背后的架構體系以及人工智能也在走向新階段。
汽車(chē)機器視覺(jué):從英特爾收購Mobileye,到分布式架構駕起汽車(chē)的智慧
“在我看來(lái),機器視覺(jué)現在是在自動(dòng)駕駛中非常重要的組成部分,因為機器視覺(jué)實(shí)際上在整個(gè)自動(dòng)駕駛中成本有所下降。” 英特爾無(wú)人駕駛事業(yè)部中國區市場(chǎng)總監徐偉杰說(shuō),現有的自動(dòng)駕駛的方案,包括了機器視覺(jué)、激光雷達、雷達等。其中像谷歌、百度在激光雷達方案上用得多,但是激光雷達面臨一個(gè)問(wèn)題是成本無(wú)法達到真正的量產(chǎn)化和規?;?。而機器視覺(jué)確實(shí)能彌補一部分,特別是像現在的單目或者雙目。所以從某些角度來(lái)說(shuō),包括特斯拉現有的一些方案,機器視覺(jué)實(shí)際上會(huì )給當前自動(dòng)駕駛提供一個(gè)主要的工具,這是前景。也是我們認為整個(gè)機器視覺(jué)在自動(dòng)駕駛上很重要的一點(diǎn)。
市場(chǎng)狀況來(lái)看,機器視覺(jué)有單目、雙目的方案。因為汽車(chē)屬于工業(yè)品,需要考慮量產(chǎn)成本,所以現在單目方案,很多公司都投入了大量的研發(fā)精力和大量的投資成本,希望在這上面有一個(gè)突破。機器視覺(jué)圖像方案也是當前在可靠性和成本之間的平衡。從這個(gè)角度來(lái)說(shuō),單目、雙目方案是非常重要的,也是市場(chǎng)可預見(jiàn)的。因為機器視覺(jué)更多涉及到這些圖像的處理,很多人都在談?wù)摰募す饫走_,目前成本比較高,未來(lái)也不排除成本降下來(lái)的可能。但是無(wú)人駕駛要考慮很多場(chǎng)景,視覺(jué)的部分是必不可少的,盡管雷達可實(shí)現,但是視覺(jué)的處理也是一個(gè)重要問(wèn)題。
英特爾不僅僅是收購Mobileye,在機器視覺(jué)上有兩方面部署。第一是收購Mobileye,這是英特爾在機器視覺(jué)上一個(gè)巨大的投入。如今在機器視覺(jué)部分,Mobileye應該是全球做得非常領(lǐng)先的;第二塊是英特爾自己也在設計做相應的機器視覺(jué),因為英特爾提供的方案更多的是集成在底層的芯片和計算平臺上?;谶@兩塊,英特爾也在芯片級別和計算平臺上開(kāi)展研發(fā)工作,將來(lái)在自動(dòng)駕駛領(lǐng)域也會(huì )有機器視覺(jué)方面的芯片和相應的計算平臺。
Mobileye當前在機器視覺(jué)最大的優(yōu)勢在于它有足夠多的數據,第二,Mobileye在機器視覺(jué)上的算法現在也是在行業(yè)內領(lǐng)先的。而英特爾實(shí)際上現有的所有內部的投資和方向是不涉及這兩塊的,我們主要是涉及在底層處理器的處理能力和上層的計算平臺,從而輔助、加速處理。但加上Mobileye的數據與Mobileye的算法以后,就形成了一個(gè)完整的解決方案。
在無(wú)人駕駛汽車(chē)上實(shí)現3D機器視覺(jué)主要的挑戰將來(lái)自于哪些方面?徐偉杰認為,現有的狀態(tài),3D機器視覺(jué)對比2D會(huì )多一維數據量的處理,數據量的處理不僅僅是多一維,從設計來(lái)說(shuō)整個(gè)數據量會(huì )呈一個(gè)幾何級的增加。英特爾當前更多的使用機器學(xué)習和深度學(xué)習的方式,應用于機器視覺(jué)。從計算方面會(huì )做相應的機器視覺(jué)形成我們的計算框架,而算法上,我們與商業(yè)伙伴共同合作,例如英特爾之前收購了Itseez和其他公司,將他們機器視覺(jué)算法應用到我們的計算框架和平臺上。
機器視覺(jué)解決了看的問(wèn)題,解析這些攝取到的圖像有賴(lài)于智能化程度。3D機器視覺(jué)對人工智能帶來(lái)新的挑戰。機器視覺(jué)在“看”以后我們要去“想”,通過(guò)深度學(xué)習、神經(jīng)網(wǎng)絡(luò )的方式把它變成可學(xué)習的場(chǎng)景,同時(shí)這些場(chǎng)景我們可以把它徹底的泛化。徐偉杰分析,這樣的過(guò)程面臨著(zhù)一個(gè)挑戰,因為我們看到的場(chǎng)景非常多,深度學(xué)習對計算能力和計算時(shí)間提出更高要求。但是,自動(dòng)駕駛方對實(shí)時(shí)性是有要求的,這跟后端的智能學(xué)習不一樣。同時(shí)對于能效也有要求,如果功耗太大在車(chē)上很難實(shí)現??偠灾?,在過(guò)程中面臨的挑戰,一是如何提高它的時(shí)效性、實(shí)時(shí)性。第二是如何提高它的能效比。第三,自動(dòng)駕駛整個(gè)領(lǐng)域現在是新興領(lǐng)域,所有的算法、方案,沒(méi)有形成一個(gè)真正的工業(yè)標準,算法在三個(gè)月內會(huì )有一次更新,會(huì )有翻天覆地的變化。如何能夠保證設計在這種變化中具有足夠的靈活性,這也是我們要探討的。
當前英特爾如何解決這三個(gè)問(wèn)題。第一,如何解決實(shí)時(shí)性的問(wèn)題。英特爾現在有一套端到端的解決方案,同時(shí)也有英特爾®GO™平臺,從芯片級到軟件、SDK,同時(shí)從系統架構設計來(lái)保證符合自動(dòng)駕駛對于實(shí)時(shí)性的要求。第二,能效比,英特爾在自動(dòng)駕駛方案上采用分布式體系結構,從而保證計算可以分布到不同的處理器上,并且每一個(gè)處理器都有它的特點(diǎn),讓算法在這個(gè)處理器上達到最優(yōu),也保證它的能耗最優(yōu)。第三,英特爾收購了Altera,FPGA作為自動(dòng)駕駛整個(gè)系統平臺上一個(gè)輔助的加速器,是一個(gè)可拓展的產(chǎn)品,保證了在算法變化時(shí),FPGA可做出相應的拓展。 FPGA現在從工業(yè)界來(lái)看,用來(lái)做深度學(xué)習等計算時(shí),它的單位功耗是最好的。也就是說(shuō),同樣的工作,做同樣的計算處理時(shí),它的功耗是比較低的。
處理大量實(shí)時(shí)數據需要密集的運算能力,要實(shí)現穩定的3D感測影像變得困難,分布式體系架構對于平衡性能和功耗起到關(guān)鍵作用。同時(shí)也在平衡算法需求。徐偉杰表示,在自動(dòng)駕駛上,算法實(shí)際上是一種多樣性的算法,有一些是深度學(xué)習的算法,它需要特別強的并行計算能力。有一些是類(lèi)似于人腦邏輯的前期的預測判斷性算法,這種判斷性算法需要很強的邏輯推導和很強的傳統CPU的計算能力。英特爾現在所做的工作就是采用一種分布式方式,把這些有特點(diǎn)的算法分布到對應的處理器上去,構建處理計算框架,來(lái)保證這種算法是對癥下藥,從而保證了它在性能和功耗上得到最大優(yōu)化。
各大廠(chǎng)商都在積極布局無(wú)人駕駛,我們看到英特爾在處理器、5G、云計算等方面都有全面的部署。徐偉杰表示服務(wù)器端和汽車(chē)端均擁有一整套的解決方案,以及5G連接。在今年CES上英特爾發(fā)布GO™平臺,提出一個(gè)端到端的解決方案。這個(gè)端到端的解決方案不是所說(shuō)的進(jìn)和出這樣端到端,而是說(shuō)明我們會(huì )在服務(wù)器階段,從數據的采集、數據的存儲到人工智能的訓練,到整個(gè)自動(dòng)駕駛方案的模型的形成,模型的仿真,到將來(lái)車(chē)端的工程化。同時(shí)在汽車(chē)端我們也有一整套的解決方案,從服務(wù)器端過(guò)來(lái)的模型支持從perception到sensing fusion到driving strategy到execution整個(gè)的過(guò)程中,我們也有一整套的芯片與計算平臺的解決方案。再加上無(wú)延時(shí)的5G的連接,從而形成了自動(dòng)駕駛從數據采集到最后自動(dòng)駕駛上車(chē),完整的端到端解決方案。
英特爾以前在機器視覺(jué)perception階段,在汽車(chē)的數據和算法有相應的不足,收購Mobileye 實(shí)際上把這一塊補足了。同時(shí)在服務(wù)器端,類(lèi)似于人工智能英特爾也收購了Nervana,從而形成一個(gè)鏈狀的整體解決方案。
無(wú)人駕駛汽車(chē)的機器視覺(jué)在體系架構中得到性能和智能提升,而這無(wú)時(shí)無(wú)刻不伴隨著(zhù)汽車(chē)安全性的考量。“英特爾非常重視安全性,安全涉及到兩個(gè)方面,第一是function safety。第二是security safety。為此投入很大的人力物力,同時(shí)我們也建立了內部相應的流程。其中function safety方面需要認證流程,同時(shí)我們也收購了做OTA升級的公司,可以說(shuō),英特爾現在對安全方面做了系統的思考和補足。”
3D機器視覺(jué)全面走向眾多應用領(lǐng)域,開(kāi)放式的平臺能集結更多合作伙伴。英特爾計算平臺正以開(kāi)放式,同時(shí)關(guān)注底層芯片的計算能力和計算框架,令更多的不同領(lǐng)域對這些計算框架不同級別的應用,比如工業(yè)自動(dòng)化、機器人等,都有不同的合作伙伴。對英特爾來(lái)說(shuō)更關(guān)注的是如何加速計算,如何方便客戶(hù)應用,從這個(gè)角度規劃開(kāi)放式的計算平臺。
移動(dòng)市場(chǎng)應用帶動(dòng)3D視覺(jué) 與AI融合
隨著(zhù)產(chǎn)品制造要求高品質(zhì)、高精度的需求變化,3D機器視覺(jué)已經(jīng)由開(kāi)發(fā)試用階段發(fā)展成實(shí)際應用的狀態(tài),并且以驚人的速度在擴散至各個(gè)制造領(lǐng)域,甚至是生活消費領(lǐng)域。而目前推動(dòng)3D機器視覺(jué)技術(shù)開(kāi)發(fā)的主力市場(chǎng),晶焱科技總經(jīng)理姜信欽博士認為還是以汽車(chē)與制藥行業(yè)為主。若就3D機器視覺(jué)的未來(lái)前景做預測,識別應用市場(chǎng)應該是最醒目的市場(chǎng),它會(huì )讓3D機器視覺(jué)技術(shù)同時(shí)開(kāi)枝散葉到制造環(huán)境及生活環(huán)境中。現在,構建一個(gè)很好的3D視覺(jué)系統的必要技術(shù)似乎都已面世,但利用這些技術(shù)開(kāi)發(fā)出完整、低功耗的集成方案的進(jìn)展仍然緩慢。CEVA 多媒體產(chǎn)品市場(chǎng)總監Yair Siegel接受?chē)H電子商情采訪(fǎng)時(shí)表示,這一技術(shù)的成敗仍然取決于移動(dòng)市場(chǎng)的采納與否,蘋(píng)果自然是關(guān)鍵,谷歌(Project Tango)作為第二大驅動(dòng)力量也很重要,他們能夠帶動(dòng)3D視覺(jué)市場(chǎng)真正發(fā)展起來(lái)。而主要因素還是在于移動(dòng)市場(chǎng)的規模經(jīng)濟效應。一旦得到移動(dòng)市場(chǎng)采納,3D視覺(jué)就能夠拓展到其它市場(chǎng),比如消費電子、機器人和企業(yè)級應用等市場(chǎng)。此外,像亞馬遜的ECHO等家用設備也會(huì )推動(dòng)3D視覺(jué)的發(fā)展。AR/VR可穿戴設備市場(chǎng)已經(jīng)有大量投資進(jìn)入,這也會(huì )促進(jìn)3D視覺(jué)的發(fā)展,因為它是更好地融合現實(shí)和虛擬物體的關(guān)鍵器件。
3D較2D可識別圖像更有深度更立體、精確,但對圖像處理性能的要求更高,對軟硬件提出更大挑戰。要想獲得很好的3D用戶(hù)體驗,需要結合各方面的技術(shù),比如好的傳感器、算法、實(shí)時(shí)邊緣處理,以及低功耗以確保很好的電池續航能力?,F今市場(chǎng)上有很多不同的3D方案,比如Time-of-Flight或Lidar、Structured-light、被動(dòng)立體成像、主動(dòng)立體成像等。每種技術(shù)都有其優(yōu)缺點(diǎn),主要挑戰是如何能夠淡化弱點(diǎn),以合理的成本向市場(chǎng)推出集成方案一個(gè)比較好的選擇是集成幾種技術(shù),這要求比較強的處理能力。CEVA的視覺(jué)平臺是一種可編程DSP,可以在設備端實(shí)現低功耗視覺(jué)處理。因此,視覺(jué)平臺可以幫助市場(chǎng)達到這個(gè)目標,讓3D視覺(jué)技術(shù)快速進(jìn)入大批量生產(chǎn)階段。
“精密“是3D機器視覺(jué)技術(shù)主要的挑戰,精密的識別、精密的控制、可持續維持精密識別與控制的能力,這些都是智慧型制造產(chǎn)線(xiàn)所需要的功能。為滿(mǎn)足這些精密要求,目前3D機器視覺(jué)技術(shù)的開(kāi)發(fā)還是著(zhù)重在硬體的開(kāi)發(fā)上,譬如高功能電路板、攝像頭、信號處理器、光學(xué)元件、照明元件、圖像辨識元件等,這些組件必須要很可靠地互相連結、互相溝通、互相協(xié)作,要對環(huán)境雜訊有高抗受能力?;诖?,姜信欽表示晶焱在提高3D機器視覺(jué)系統對環(huán)境雜訊的高抗受能力有一系列完整有效的IC零組件方案提供,包括抗靜電雜訊、抗浪涌雜訊、抗過(guò)電壓雜訊、以及過(guò)電源電壓保護元件等。僅僅有視覺(jué)顯然不夠,深度學(xué)習是AI和智能設備的起點(diǎn)。姜信欽分析,深度學(xué)習所面臨的挑戰莫過(guò)于即時(shí)的大數據處理能力,因為接收到的數據就是超大量的數據,而要處理這些數據的數學(xué)模型就會(huì )越趨複雜,衍生出來(lái)的訓練模型也是很復雜,并且導引出付的模型設定參數,這都增加了運算速度的壓力。為了達成即時(shí)的大數據處理能力,硬體的提升是必要的,增加一切動(dòng)作的運算速度唯有硬體能解決,至于軟體的發(fā)展則著(zhù)重在平臺的開(kāi)發(fā),這需要大量新的演算法被開(kāi)發(fā)出來(lái)。
“現在的問(wèn)題是大部分深度學(xué)習發(fā)展都還處于實(shí)驗室階段,要將這些算法應用于嵌入式攝像頭是一項復雜的任務(wù),而現有的處理引擎又不適合這些算法。深度學(xué)習網(wǎng)絡(luò )中的存儲帶寬也很快成為瓶頸。”Yair Siegel表示,CEVA的視覺(jué)處理器可以支持繁重的深度學(xué)習算法,使其適用于低功耗運行的嵌入式設備。CEVA很早就涉足這一領(lǐng)域,并且已經(jīng)開(kāi)發(fā)出一種軟件工具包,可以“一鍵式”簡(jiǎn)便地從實(shí)驗室網(wǎng)絡(luò )遷移到嵌入式適用的網(wǎng)絡(luò ),實(shí)現性能和存儲帶寬的優(yōu)化。過(guò)去一年我們也贏(yíng)得很好的市場(chǎng)認可,預計近期就會(huì )有一批新的設備使用我們的技術(shù),可以讓深度學(xué)習在設備端單獨運行,或與3D視覺(jué)及其它成像技術(shù)結合使用。
雖然3D成像和機器視覺(jué)技術(shù)的難題是獨特的,但它們與其它嵌入式功能,比如CEVA已經(jīng)開(kāi)發(fā)多年的蜂窩基帶,也有很多內在的共性。CEVA的視覺(jué)IP平臺專(zhuān)注于為低功耗設備提供高性能可編程引擎,并且提供一系列開(kāi)發(fā)工具和IP庫,從而可以讓合作伙伴縮短開(kāi)發(fā)周期,提早進(jìn)入批量生產(chǎn)。CEVA用于簡(jiǎn)化運算的一些技術(shù)包括有效使用定點(diǎn)運算的方法,以及快速將重度圖像處理負荷從通用引擎轉移到專(zhuān)用視覺(jué)處理器。
當下最熱門(mén)的3D技術(shù)莫過(guò)于由iPhone 7 plus帶動(dòng)的立體攝影成像。在這支手機中,3D視覺(jué)獲取的信息可以實(shí)現背景虛化 (Bokeh) 效果,從而將物體與其背景分開(kāi)。CEVA的視覺(jué)DSP可以在設備端以高分辨率運行背景虛化處理,同時(shí)保持手機的電池續航能力。此外,也可以實(shí)現其它利用這類(lèi)深度信息的功能。一個(gè)實(shí)際的設備是Asus ZenFone 3 zoom,這支手機包含一個(gè)由CEVA客戶(hù)設計的SoC芯片,可以在手機上實(shí)現上述功能。另一個(gè)例子是實(shí)現類(lèi)似Tango的3D體驗,這種AR技術(shù)可以構建一個(gè)虛擬的3D物體,將其融入現實(shí)世界的場(chǎng)景,看起來(lái)栩栩如生。CEVA的視覺(jué)DSP還可以實(shí)現復雜的多種技術(shù)融合,在一個(gè)設備上同時(shí)運行3D視覺(jué)、本地化、映像以及物體識別。
目前3D視覺(jué)向智能手機等終端設備導入,例如聯(lián)想支持Tango技術(shù)的手機Phab2Pro,據稱(chēng)蘋(píng)果新一代手機前置攝像頭也將采用3D傳感器。工業(yè)自動(dòng)化、智能駕駛、機器人也是熱門(mén)領(lǐng)域。實(shí)際上這是不同市場(chǎng)的科技公司已經(jīng)鋪排好的路徑,這意味著(zhù)IC供應商必須使用專(zhuān)用視覺(jué)處理器來(lái)完成這些復雜的任務(wù),而不是使用CPU和GPU等通用型引擎,因為它們不是專(zhuān)門(mén)為此任務(wù)設計的,處理效率不夠高。
這也要求軟件算法開(kāi)發(fā)團隊進(jìn)一步提升這些產(chǎn)品的質(zhì)量。傳感器和模塊開(kāi)發(fā)商也需要將傳感器與IC和計算模塊進(jìn)一步集成,無(wú)論是以堆疊裸片的形式還是僅僅緊湊排列,這樣才能實(shí)現高效和低成本的快速處理方案。因此,我們將看到更加智能、集成度更高,而且成本更有效的攝像頭。
3D視覺(jué)會(huì )有大量的攝像頭,這些攝像頭會(huì )暴露在高雜訊的工作環(huán)境中,性能的要求已被應用端所決定,并沒(méi)有太大的妥協(xié)空間存在,因此開(kāi)發(fā)低功耗的硬體零組件與系統及變成重點(diǎn)。要實(shí)現一個(gè)低功耗的系統的方式,就是大量采用IC零組件。而當大量低功耗、高性能的IC零組件聚在一起工作,工作環(huán)境的雜訊會(huì )是一大殺手,因此這樣的低功耗系統,抗環(huán)境雜訊防護設計就變成是必須的。
面對復雜的3D機器視覺(jué)技術(shù)需求,單獨的強勢無(wú)法造就出完善好用的3D機器視覺(jué)系統產(chǎn)品。晶焱的規劃即是與3D機器視覺(jué)系統產(chǎn)品的硬體開(kāi)發(fā)商維持密切的合作聯(lián)盟關(guān)系,對抗環(huán)境雜訊防護設計做最深入的研究與開(kāi)發(fā),以提出最符合軟硬體所需要的抗環(huán)境雜訊能力的防護設計。
CEVA與供應生態(tài)鏈中的不同供應商合作,不斷改進(jìn)處理引擎,擴展生態(tài)系統和可用算法以配合這種智能攝像頭的發(fā)展。這將是容納數十億計設備的市場(chǎng)機遇,在未來(lái)幾個(gè)月以至未來(lái)數年,配備有這種改善的圖像傳感器的新式智能設備將大量涌現,實(shí)現3D視覺(jué)與AI功能的融合。