目前,車(chē)載用戶(hù)對智能車(chē)載的接受程度已是越來(lái)越高,而人機交互技術(shù)無(wú)疑能讓車(chē)載更加智能。來(lái)自相關(guān)調研機構的數據顯示,在消費者最感興趣、最實(shí)用的智能車(chē)載功能里面,語(yǔ)音交互已經(jīng)排到了第二位,僅次于被盜車(chē)輛定位之后。另外,在一些車(chē)載設備里,包括智能車(chē)機、智能后視鏡、行車(chē)記錄儀、HUB和車(chē)載音箱等產(chǎn)品里,人機語(yǔ)音交互已無(wú)處不在。
“實(shí)際上,在智能車(chē)載系統1.0到3.0的迭代更新過(guò)程中,人機語(yǔ)音交互的作用和重要性已經(jīng)越來(lái)越得到車(chē)主的認可。”思必馳信息科技有限公司的副總裁雷雄國認為,在車(chē)載領(lǐng)域,人機語(yǔ)音交互已成為車(chē)載設備的標配。
語(yǔ)音交互需攻克三大難點(diǎn)
不過(guò),值得注意的是,車(chē)載語(yǔ)音在應用的過(guò)程中尚有一些難點(diǎn)需要去攻克。
雷雄國指出,首先是駕車(chē)環(huán)境下的噪音干擾。在駕車(chē)環(huán)境里,人與車(chē)載硬件的距離在0.3-1m以?xún)?。在近?chǎng)距離里,存在各種噪音干擾、聲音反射和混合,加大了機器對自然人聲的辨識難度。“能夠在車(chē)載的環(huán)境下,把噪聲問(wèn)題解決掉是人機交互第一步的基礎。解決這個(gè)問(wèn)題的方向包括:在出現錯誤時(shí),允許糾正打斷;對一些車(chē)載噪聲以及環(huán)境噪聲的抑制自適應;車(chē)設備在播放音樂(lè )或聲音的時(shí)候,能夠隨時(shí)打斷它等。”他說(shuō)。其次是智能交互。實(shí)際上,在交互的過(guò)程中,很多的語(yǔ)音控制依然要結合手動(dòng)操作,這給用戶(hù)的體驗非常不好。“全自然語(yǔ)言交互、完全解放雙手,是用戶(hù)的核心訴求,也是車(chē)載生態(tài)蓬勃的根本。” 雷雄國稱(chēng),這其實(shí)更多的包括人工智能的核心技術(shù)引進(jìn),包括跟車(chē)內業(yè)務(wù)的整合,使得車(chē)內的人機語(yǔ)音交互能達到更好的用戶(hù)體驗,這里面就包括對于語(yǔ)音的理解,以及人機多人的交互對話(huà),基于任務(wù)式的深度的交互理解。
三是更貼合用戶(hù)需求的產(chǎn)品設計。這包括ID設計;麥克、喇叭等硬件結構布局;硬件的問(wèn)題只會(huì )通過(guò)軟件體驗的不足來(lái)體現;用戶(hù)體驗邏輯;語(yǔ)音交互與后端服務(wù)的結合,進(jìn)行系統優(yōu)化。“其實(shí)技術(shù)的發(fā)展達到一定階段后,需要上下游合作伙伴一起來(lái)針對車(chē)聯(lián)網(wǎng)產(chǎn)品進(jìn)行多方位、多層次的結合與設計。”他舉例稱(chēng),在車(chē)載語(yǔ)音交互里面比較重要的一塊是回聲消除,包括喚醒打斷,這實(shí)際上需要考慮麥克風(fēng)與喇叭的一些結構設計,產(chǎn)品也需要在這一塊做些配合。再比如,語(yǔ)音技術(shù)怎樣與業(yè)務(wù)結合,怎樣與導航結合,怎樣把第三方的音樂(lè )資源對接得更加地緊密、無(wú)縫,這里面也需要投入大量的產(chǎn)品設計以及開(kāi)發(fā),才能把用戶(hù)體驗做到極致。
“語(yǔ)音交互只是手段,不是目的。交互的目的,是為了讓機器更好地完成任務(wù)。因此,后端的第三方服務(wù)顯得更為重要。”雷雄國稱(chēng),在車(chē)載語(yǔ)音交互技術(shù)上,思必馳與上下游合作伙伴進(jìn)行了整合,把導航、電臺、個(gè)人社交、周邊搜索、音樂(lè )等與車(chē)主相關(guān)的第三方服務(wù)整合在一起。他直言,打造一個(gè)在車(chē)的環(huán)境下能夠實(shí)現全程真正解放雙手的交互模式,這是非常重要的。
多模態(tài)交互是發(fā)展方向
“從交互的角度來(lái)看,語(yǔ)音僅僅是占人機交互其中的一個(gè)環(huán)節,在接下來(lái)的車(chē)載智能化的過(guò)程中,我們希望看到更多交互技術(shù)與語(yǔ)音結合在一塊的,包括體感、手勢、圖象等一系列的人工智能的技術(shù)能夠迅速進(jìn)入到車(chē)內,即多模態(tài)交互。”雷雄國如是說(shuō)。思必馳是國內一家專(zhuān)注于智能硬件領(lǐng)域的語(yǔ)音公司,主要面向智能硬件三個(gè)垂直領(lǐng)域:智能車(chē)載、智能家居和智能機器人,提供自然語(yǔ)言交互解決方案。其中,車(chē)載在思必馳整體的業(yè)務(wù)中所占比重最大 ,其次是家居。思必馳市場(chǎng)總監龍夢(mèng)竹在接受?chē)H電子商情采訪(fǎng)時(shí)表示,思必馳在智能車(chē)載領(lǐng)域側重于后裝市場(chǎng),這部分的市場(chǎng)份額大概占40%的比例。從具體的應用市場(chǎng)來(lái)看,在智能后視鏡市場(chǎng)估計占60%左右的市場(chǎng)份額。龍夢(mèng)竹還透露,在車(chē)載前裝市場(chǎng),思必馳目前已進(jìn)入前裝車(chē)廠(chǎng)的測試階段,合作的互聯(lián)網(wǎng)汽車(chē)包括小鵬、智車(chē)優(yōu)行等。
目前,思必馳能提供的語(yǔ)音技術(shù)包括語(yǔ)音識別、語(yǔ)音合成、語(yǔ)音識別++、語(yǔ)義理解和智能對話(huà)等。雷雄國稱(chēng),當前語(yǔ)義理解和智能對話(huà)已慢慢在研究使用階段,未來(lái)多模態(tài)的交互是很重要的一個(gè)方向,如語(yǔ)音與手勢、圖象識別等第三方的交互融合。另外一個(gè)方向就是與核心技術(shù)往云端移植,因為現在大部分的技術(shù)在云端,IoT發(fā)展起來(lái)之后,很多端上面會(huì )有云交互的需求,因此整個(gè)核心技術(shù)往端上移植也是一個(gè)大的方向。而人工智能是最重要的,人工智能與大數據融合,對大數據進(jìn)行分析,這也是未來(lái)人工智能與語(yǔ)音的發(fā)展方向。
雷雄國透露,思必馳的研發(fā)方向與核心就在于人工智能。在多模態(tài)交互方面,思必馳也在與第三方合作推動(dòng)。“我們做過(guò)手勢識別、圖象識別、虹膜識別、體感識別等與語(yǔ)音技術(shù)結合的多模態(tài)交互。”雷雄國稱(chēng),未來(lái)一定是從單一的輸入輸出互動(dòng)形式向多模態(tài)交互發(fā)展,從被動(dòng)服務(wù)向主動(dòng)式服務(wù)及智能服務(wù)方向發(fā)展。