“(計算機)從2D到3D世界,是1995年之后最大的消費電子技術(shù)轉折點(diǎn),這將徹底改變人們的計算體驗。”
從人們的角度來(lái)看,這個(gè)世界永遠在變化。當我們四處移動(dòng)時(shí),我們的目光也游走在整個(gè)環(huán)境中,豐富動(dòng)態(tài)的場(chǎng)景信息不停地被傳送到我們的大腦里。我們可以理解這些不斷改變的信號,并以此生成對這個(gè)世界的根本性了解,從而和這個(gè)世界進(jìn)行無(wú)縫交互。在過(guò)去三十年的計算機視覺(jué)領(lǐng)域中,有相當龐大的工作被投入到了這一塊,嘗試通過(guò)顏色和深度攝像頭來(lái)模擬人類(lèi)的感知能力??梢哉f(shuō),計算機視覺(jué)一直是人工智能領(lǐng)域里最活躍的部分,指紋識別、掌紋識別、人臉識別都屬于其應用,而深度攝像頭就是計算機的眼睛。
深度攝像頭技術(shù)解析
那么究竟什么是深度攝像頭?消費者最熟悉的當屬微軟開(kāi)發(fā)的Kinect系列,Leap Motion的體感設備,三星智能電視的手勢遙控功能等產(chǎn)品,這些均是深度攝像頭的
傳統體感類(lèi)應用。實(shí)現深度探測的主流技術(shù)目前有三類(lèi): 1:(單目)結構光技術(shù)路線(xiàn) 代表公司:PrimeSense / 代表產(chǎn)品:Kinect I代 主要優(yōu)勢:識別距離遠 / 主要問(wèn)題:硬件難度和成本稍高 陣營(yíng)公司:Apple(PrimeSense)、Microsoft、Intel、Google, etc. 主流評價(jià):目前最主流的機器視覺(jué)工程化實(shí)現方法
2:雙目可見(jiàn)光(可配合紅外補光) 代表公司:LeapMotion / 代表產(chǎn)品:LeapMotion 主要優(yōu)勢:高精度 / 主要問(wèn)題:檢測范圍太?。ú蛔?米),遠距離檢測問(wèn)題很多 陣營(yíng)公司:LeapMotion 主流評價(jià):應用場(chǎng)景太少
3:飛行時(shí)間法(ToF) 代表公司:Microsoft / 代表產(chǎn)品:Kinect II代 主要優(yōu)勢:體感應用好 / 主要問(wèn)題:傳感器供應受限、體積和功耗大、像素低 陣營(yíng)公司:Microsoft、SoftKinetic(剛被SONY收購) 主流評價(jià):除微軟在體感游戲之外民用應用不多
以結構光技術(shù)為例,其原理如圖。光源向檢測空間內投射經(jīng)過(guò)編碼的激光光斑陣列,對空間進(jìn)行標定并輔助計算三維空間位置。它是整合了衍射光學(xué)、圖像處理、計算視覺(jué)算法和處理器計算平臺的跨界組合工程,非標準的光學(xué)器件需要設計定制。其關(guān)鍵技術(shù)包括兩個(gè)部分:投射光學(xué)系統、“結構光”pattern編碼和衍射光學(xué)系統設計;以及圖像處理和視覺(jué)計算算法。
該技術(shù)的代表公司是PrimeSense,它創(chuàng )立于 2005 年,于 2006 年研發(fā)出 3D 傳感器,在當年的 E3 大展上與微軟建立了聯(lián)系,并催化出代號為 Project Natal 的神秘項目。等到 2009 年 E3 大展時(shí),微軟發(fā)布了內置 PrimeSense 3D 傳感器的 Kinect,成功掀起了“體感游戲”大潮。PrimeSense的原理,是使用3D光學(xué)感測技術(shù),使用紅外線(xiàn)系統來(lái)繪制場(chǎng)景的網(wǎng)格。通過(guò)傳感器讀取網(wǎng)格中的點(diǎn),并結合來(lái)自CMOS傳感器的圖像信息,繪制出包含了深度信息的3D地圖。這種方法被稱(chēng)為“RGB-D”,它由傳統的紅色,綠色和藍色的圖像信息加上“深度”信息構成。其核心為L(cháng)ight Coding技術(shù),是利用連續光(近紅外線(xiàn))對測量空間進(jìn)行編碼,經(jīng)感應器讀取編碼的光線(xiàn),交由芯片運算進(jìn)行解碼后,產(chǎn)生成一張具有深度的圖像。Light Coding技術(shù)的關(guān)鍵是激光散斑,當激光照射到粗糙物體、或是穿透毛玻璃后,會(huì )形成隨機的反射斑點(diǎn),稱(chēng)之為散斑。散斑具有高度隨機性,也會(huì )隨著(zhù)距離而變換圖案,空間中任何兩處的散斑都會(huì )是不同的圖案,等于是將整個(gè)空間加上了標記,所以任何物體進(jìn)入該空間、以及移動(dòng)時(shí),都可確切紀錄物體的位置。
深度攝像頭供應格局
隨著(zhù)深度攝像頭技術(shù)的不斷發(fā)展,更多機器視覺(jué)應用正在不斷涌現,例如行為捕捉和分析用于智能安防,環(huán)境感知(SLAM)用于視覺(jué)導航,消費類(lèi) 3D建模等,同時(shí)深度攝像頭也是近年來(lái)最火爆的AR/VR設備的核心模塊之一。高級行為分析功能必需基于三維深度信息實(shí)現,此前市場(chǎng)上只有基于PrimeSense方案的體感游戲攝像頭可用,在2013年P(guān)rimeSense被Apple 收購,其對外供貨和技術(shù)授權在15年中止,業(yè)界急需要合適的替代產(chǎn)品。例如有一款采用PrimeSense開(kāi)發(fā)板設計的iPad外置深度攝像頭產(chǎn)品,在Kickstarter上募集了約130萬(wàn)美金,同樣因為Apple收購PrimeSense的原因,類(lèi)似項目全部陷入困境。在A(yíng)R/VR設備應用中,遠距離深度攝像頭用于環(huán)境感知和建模;近距離深度攝像頭用于手勢識別。預計將來(lái) 99% 的 AR 設備和 50% 以上的 VR 設備將配備深度攝像頭,而這兩類(lèi)應用的崛起,也將大力推動(dòng)深度攝像頭市場(chǎng)的增長(cháng)。
PrimeSense的產(chǎn)品有深度攝像頭模塊,有完善的SDK(其中最著(zhù)名的是開(kāi)源的Open NI應用程序接口),更有其定制的DSP+硬件加速器芯片以及強大的專(zhuān)利池。在PrimeSense被Apple 收購之后,市場(chǎng)上類(lèi)似方案供應幾乎成為空白,隨后谷歌、英特爾、臉書(shū)旗下Oculus、索尼和三星等企業(yè)都相繼在這一領(lǐng)域進(jìn)行了投入,收購動(dòng)作頻繁。谷歌Project Tango,利用深度攝像頭進(jìn)行機器人室內導航;英特爾演示RealSense深度攝像頭對無(wú)人機進(jìn)行視覺(jué)導航等等……??梢哉f(shuō),深度攝像頭是所有需要視覺(jué)傳感器的機器,包括機器人、無(wú)人機、工業(yè)設備的必需模塊。據IHS預計,到2019年手勢感應傳感器全球市場(chǎng)規模將從2015年的23億達到95億美金,年復合增長(cháng)率達到42.6%。
下圖是該產(chǎn)業(yè)領(lǐng)導廠(chǎng)商主要技術(shù)發(fā)展及深度攝像頭平臺情況。上圖顯示了科技行業(yè)巨頭在深度攝像頭領(lǐng)域的布局,他們通過(guò)收購構筑了各自的技術(shù)護城河。其中,微軟Kinect一代的技術(shù)方案供應商,機器視覺(jué)民用化的先驅PrimeSense被蘋(píng)果收購可以視為一個(gè)轉折點(diǎn),收購以后,其對外授權和供貨會(huì )在 2015 年終止,所以那些使用了PrimeSense技術(shù)的廠(chǎng)商們不得不尋找替代方案,再加上AR/VR設備的興起,讓國內一些初創(chuàng )企業(yè)盯住了這一市場(chǎng),圖漾科技即是其中之一。
圖漾:業(yè)界最獨特的技術(shù)路線(xiàn)
費浙平曾經(jīng)是處理器巨頭ARM在中國大陸的第一位員工,在全球頂尖的CPU和GPU公司工作十多年,于2013年開(kāi)始啟動(dòng)深度攝像頭的技術(shù)研發(fā),團隊的技術(shù)合伙人來(lái)自于國內機器視覺(jué)領(lǐng)域的著(zhù)名團隊Click研發(fā)小組,在光學(xué)、硬件和算法上非常有經(jīng)驗和積累。在強大的技術(shù)團隊背景下,圖漾立志成為機器視覺(jué)領(lǐng)域的世界級核心技術(shù)平臺。
2015年初,圖漾科技獲得Pre-angel 400萬(wàn)天使輪融資,目前已經(jīng)完成了所有核心技術(shù)的研發(fā)和器件定制,產(chǎn)品已經(jīng)開(kāi)始在諸多行業(yè)客戶(hù)中使用。區別于主流的單目結構光技術(shù)方案,他們創(chuàng )造性地采用了主動(dòng)雙目的技術(shù)路線(xiàn),主動(dòng)雙目(Active Stereo)技術(shù)的不斷演進(jìn)和優(yōu)化,能夠把深度攝像頭性能推向極致,同時(shí)徹底規避了與市場(chǎng)先行者的專(zhuān)利風(fēng)險。主動(dòng)雙目方案可以看成是純雙目方案和單目結構光兩種方案的融合,由于這兩種方式都可以獲得深度信息,在系統魯棒性方面會(huì )大大超過(guò)現有方案。在某些環(huán)境下(比如室外)由于環(huán)境光的干擾,該方案可以直接轉變成純雙目方案,繼續獲得深度信息而不會(huì )直接失效,也可以真正杜絕不同深度攝像頭之間空間散斑的互相干擾(這個(gè)問(wèn)題在機器視覺(jué)社區非常常見(jiàn),但單目結構光方案由于原理問(wèn)題,無(wú)法避免)。同時(shí)雙目結構光方案的光學(xué)標定方式不同于單目結構光,激光發(fā)射器(產(chǎn)品壽命最大瓶頸)可以直接替換,由此帶來(lái)攝像頭模塊的工作時(shí)間可以達到商用和工業(yè)領(lǐng)域的高可靠性和高可用性需求,還能帶來(lái)維護成本的大幅度降低(不需要整個(gè)模塊替換),這對行業(yè)用戶(hù)的重要性不言而喻。
費浙平表示,圖漾目前已完成1500萬(wàn)人民幣的pre-A輪融資,本輪融資由專(zhuān)投機器人領(lǐng)域的兩個(gè)投資機構參投,資金將主要用于產(chǎn)品商業(yè)化布局和硬件設備落地,普及更多的客戶(hù)。“深度攝像頭能夠獲取世界的三維信息,由此給VR/AR、動(dòng)作捕捉、三維掃描與打印、室內導航與定位等應用提供了基礎的技術(shù)支持。有了深度攝像頭,你的設備將讀懂這個(gè)世界所發(fā)生的一切,更加智能。”他表示。
根據他的規劃,圖漾的第一個(gè)產(chǎn)品型態(tài)是深度攝像頭(傳感器),可利用視覺(jué)計算原理,計算出拍攝場(chǎng)景內物體的3維空間位置信息,在此基礎上可以實(shí)現環(huán)境感知、體感、建模、行為識別等各種應用。在第二階段,跟行業(yè)合作伙伴配合,為最終客戶(hù)提供基于深度信息的視覺(jué)應用開(kāi)發(fā)支持,比如3D建模和SLAM等,構建起深度技術(shù)應用的技術(shù)平臺。圖漾的硬件技術(shù)發(fā)展路線(xiàn)和方向有兩個(gè),一是提供適合移動(dòng)設備用的小型化低功耗深度攝像頭,二是遠距離和超高分辨率的高性能產(chǎn)品。
在競爭格局上,費浙平表示,被Apple收購后的PrimeSense基本上會(huì )是自用,微軟綁定了Win10,也在明顯趨于封閉,而且它不會(huì )進(jìn)入硬件模塊市場(chǎng);英特爾的產(chǎn)品規格非常固定,且需綁定 x86 處理器,應用場(chǎng)景比較受限;谷歌志不在成為硬件供應商,甚至有朝一日很可能會(huì )徹底開(kāi)源其Project Tango的源代碼,幫助促進(jìn)深度攝像頭的大規模普及應用。以色列有一個(gè)技術(shù)極好的創(chuàng )業(yè)公司群體,但是這類(lèi)企業(yè)的目標在于被巨頭收購,難以成為可靠的合作伙伴。事實(shí)上,在過(guò)去的12個(gè)月里面,市面上大多數的深度技術(shù)公司都已經(jīng)被大公司收入旗下了。“這一領(lǐng)域的特點(diǎn)是技術(shù)門(mén)檻極高,技術(shù)發(fā)展整體上尚屬于早期,整個(gè)行業(yè)都在技術(shù)起飛過(guò)程當中。類(lèi)似于高仿Kinect硬件加軟件破解的方式不是我們的興趣所在,我們的目標是成為世界頂尖的深度技術(shù)公司,在這個(gè)技術(shù)點(diǎn)上做出創(chuàng )造性的領(lǐng)先技術(shù)和產(chǎn)品,
支持計算視覺(jué)應用從行業(yè)擴展到我們每個(gè)人的工作和生活當中。”在技術(shù)和產(chǎn)品山寨橫行的中國市場(chǎng),有這樣愿意挑戰業(yè)界技術(shù)巔峰的企業(yè)實(shí)屬罕見(jiàn)。
費浙平解釋深度攝像頭的幾個(gè)關(guān)鍵技術(shù)規格,一個(gè)是檢測范圍,看最大檢測距離;第二是檢測精度,看誤差多少;第三是檢測角度,看鏡頭的視角多大;第四是檢測速度,每秒能刷新多少次。他表示目前已有小批量試用模組提供給早期客戶(hù)評估,該深度攝像頭采用雙目立體視覺(jué),配以紅外結構光輔助投影,能夠獲得比傳統
立體視覺(jué)更多的景深細節。板載深度數據專(zhuān)用處理器,所有圖像處理均在設備端高速完成,直接輸出深度數據供客戶(hù)調用處理。這一型號采用裸板模組設計,適合企業(yè)客戶(hù)直接用于自家產(chǎn)品的安裝使用,適用于機器人導航避障,及低精度的姿態(tài)識別等領(lǐng)域應用,支持Linux、windows操作系統。首款產(chǎn)品模組規格描述:
- 尺寸88mmx38mmx35mm,基線(xiàn)長(cháng)度55mm。
- 輸出深度分辨率560x460@10fps,micro USB 2.0。
- 設備功耗為3.5w。
- 檢測距離1-5m,水平檢測范圍58°。
- 供電方式:雙USB供電。
- 提供模組安裝定位孔。
“目前我們的深度攝像頭模組內置專(zhuān)用圖像處理芯片,能夠高速實(shí)時(shí)檢測物體的三維信息,無(wú)需占用任何設備外計算資源。通過(guò)巧妙的光學(xué)設計,保證深度傳感器的識別范圍有了更大的延伸,實(shí)現最遠可達到10米內的目標檢測,并實(shí)現雙圖像捕獲激光投射,能夠對物體三維信息實(shí)時(shí)測量,檢測精度達到毫米級,” 費浙平指出,“而且即插即用,無(wú)需復雜的驅動(dòng),可直接輸出深度信息流,支持不同的平臺。此外我們對所有開(kāi)發(fā)者免費開(kāi)放豐富的開(kāi)發(fā)包,可以讓開(kāi)發(fā)者充分發(fā)揮想象,將深度信息的利用發(fā)揮到極致。同時(shí)也為企業(yè)客戶(hù)提供交鑰匙方案,攝像頭模組可以輕松外置或嵌入各型號電子產(chǎn)品,幫助客戶(hù)提升產(chǎn)品的國際競爭力。” 值得注意的是,目前的模組導出的數據是原始數據,需要客戶(hù)自己去進(jìn)一步分析處理,因此圖漾現階段選擇的都是具備一定技術(shù)實(shí)力的客戶(hù)。
視覺(jué)處理器:新的藍海
費浙平指出,目前的處理器架構不足以支撐現有的計算機視覺(jué)的發(fā)展。未來(lái)關(guān)于深度識別方面,也需要專(zhuān)門(mén)優(yōu)化過(guò)的處理器來(lái)處理相關(guān)的應用,才能做到又快又好。近期由于視覺(jué)處理器創(chuàng )業(yè)公司CogniVue被飛思卡爾收購,該領(lǐng)域的創(chuàng )業(yè)機會(huì )也被業(yè)界看好,谷歌project Tango中所使用的視覺(jué)處理器供應商Movidius已經(jīng)成為當紅炸子雞。“深度攝像頭技術(shù)發(fā)展仍處于早期階段,還有很長(cháng)的路要走,同時(shí),這也意味著(zhù)有很多機會(huì )等著(zhù)我們。”處理器行業(yè)出身的費浙平在說(shuō)到視覺(jué)處理器話(huà)題時(shí),仍舊兩眼放光,讓人不禁浮想聯(lián)翩……。