2016年,F(xiàn)acebook正式發(fā)售Oculus Rift頭戴式VR設(shè)備,大大革新了人們對(duì)于VR技術(shù)的認(rèn)知,這一年也因此被稱為VR元年。5年過去,現(xiàn)在VR技術(shù)發(fā)展到哪了?從原生VR游戲《半條命:愛莉克斯》來看,在這類游戲場(chǎng)景下,人們與虛擬世界的交互上已經(jīng)非常成熟。

《半條命:愛莉克斯》動(dòng)圖(gif)
但龐大的頭顯設(shè)備,仍是阻礙VR應(yīng)用普及的重要原因。還以《半條命:愛莉克斯》為例,這部游戲的精華是在于手部交互,而實(shí)現(xiàn)撿東西、扔?xùn)|西、扣動(dòng)扳機(jī)等等復(fù)雜的虛擬交互,則需要一部VR頭盔和一部VR手柄才能完成。
近日,計(jì)算機(jī)視覺領(lǐng)域國際頂會(huì) ICCV 2021 收錄了一篇題為“I2UV-HandNet: Image-to-UV Prediction Network for Accurate and High-fidelity 3D Hand Mesh Modeling”論文,論文由愛奇藝深度學(xué)習(xí)云算法團(tuán)隊(duì)聯(lián)合慕尼黑工業(yè)大學(xué)學(xué)者完成,他們?cè)谡撐闹刑岢鲆惶酌麨镮2UV-HandNet高精度手部重建系統(tǒng),通過“看”單目RGB人手圖片,就能實(shí)現(xiàn)高精度三維重建。

言外之意,如果將這項(xiàng)技術(shù)“適配”到帶有攝像功能的眼鏡或者頭盔中,那么使用者即使不用手柄,也能實(shí)現(xiàn)與虛擬世界的高質(zhì)量對(duì)話。
重建效果如何?該論文在已經(jīng)在頗受認(rèn)可的HO3D在線測(cè)評(píng)榜上,力壓群雄,持續(xù)數(shù)月排名第一。在Freihand 在線測(cè)評(píng)榜上,截至論文編寫時(shí)仍排名第一。

圖注:HO3D 榜單排行結(jié)果,紅框處為愛奇藝

圖注:論文編寫時(shí)Freihand榜單排行結(jié)果,紅框處為愛奇藝。
目前,研究員們正在嘗試將該技術(shù)應(yīng)用到愛奇藝下一代VR設(shè)備中,從而減少對(duì)手柄依賴,打造出更輕、更快、更舒適的VR設(shè)備。同時(shí)手勢(shì)重建、交互技術(shù)目前也同步在愛奇藝其他業(yè)務(wù)場(chǎng)景和硬件終端進(jìn)行落地探索,相信不久后會(huì)相繼和用戶見面。
I2UV-HandNet:業(yè)界首創(chuàng)的手部三維重建技術(shù)
在人機(jī)交互和虛擬現(xiàn)實(shí)的應(yīng)用中,高精度的人手三維重建技術(shù)發(fā)揮著重要作用。但由于手勢(shì)多變以及嚴(yán)重的遮擋,現(xiàn)有的重建方法在準(zhǔn)確性和精度方面仍差些火候。
一方面,目前學(xué)術(shù)界在進(jìn)行手部三維重建評(píng)測(cè),如在Freihand數(shù)據(jù)集上進(jìn)行評(píng)測(cè)主要是突出算法的精度優(yōu)勢(shì),不需要考慮算力、延遲等,所以可以采用計(jì)算復(fù)雜度非常高(如transformer等)的一些算法。
另一方面在工業(yè)界,特別是VR等移動(dòng)端設(shè)備,在算力、功耗、電池的續(xù)航及發(fā)熱等各方面有嚴(yán)格限制,在應(yīng)用上必須采用計(jì)算復(fù)雜度偏低的算法。
而VR等設(shè)備的攝像頭因?yàn)橐苿?dòng)端硬件的功耗、續(xù)航限制必須降低清晰度而不是采用高清晰度的攝像頭,采集到的圖像清晰度相對(duì)偏低,這對(duì)于算法的識(shí)別就存在一定挑戰(zhàn)性。

圖注:I2UV-HandNet框架圖,由AffineNet和SRNet組成
愛奇藝這篇論文中提出的I2UV-HandNet,獨(dú)創(chuàng)性地將UV映射表征引入到三維手勢(shì)和形狀估計(jì)中,其設(shè)計(jì)的UV重建模塊AffineNet能夠從單目圖像中預(yù)測(cè)手部網(wǎng)絡(luò)(hand mesh),從而完成由粗到精的人手3D模型重建。
這一設(shè)計(jì)意味著對(duì)于三維重建中所需的空間中的景深信息,不用再通過昂貴的硬件完成偵測(cè),在普通RGB攝像頭拍攝的圖片中就可以完成景深信息獲取。
I2UV-HandNet另一個(gè)組成部分是SRNet網(wǎng)絡(luò),其作用是對(duì)已有人手三維模型進(jìn)行更高精度的重建。SRNet網(wǎng)絡(luò)以研究團(tuán)隊(duì)獨(dú)創(chuàng)的“將點(diǎn)的超分轉(zhuǎn)化為圖像超分的思想”為原則,實(shí)現(xiàn)在不增加過多計(jì)算量的情況下,進(jìn)行上萬點(diǎn)云的超分重建。
此外,由于缺乏高保真的手部數(shù)據(jù)來訓(xùn)練SRNet,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為SuperHandScan的掃描數(shù)據(jù)集訓(xùn)練SRNet。由于SRNet的輸入是基于UV的“粗糙”手部網(wǎng)格。因此SRNet的應(yīng)用范圍很廣,換句話說,一個(gè)“訓(xùn)練有素”的SRNet可以對(duì)任何粗手部網(wǎng)格進(jìn)行超分辨率重建。
據(jù)介紹,SRNet和AffineNet組成的I2UV-HandNet系統(tǒng),未做任何優(yōu)化情況下,能夠在Nvidia v100達(dá)到46fps;而經(jīng)過工程優(yōu)化后版本能夠在驍龍865CPU+DSP下達(dá)到實(shí)時(shí)。

表注:在FreiHAND上進(jìn)行真實(shí)場(chǎng)景下多姿態(tài)的人手3D重建對(duì)比,↓表示越低越好,↑表示越高越好。
為了驗(yàn)證I2UV-HandNet方法對(duì)姿態(tài)的魯棒性,研究團(tuán)隊(duì)選用了包含大量姿態(tài)的真實(shí)人手?jǐn)?shù)據(jù)集FreiHAND作為測(cè)試集,并通過FreiHAND Competition在線測(cè)評(píng)與相關(guān)SOTA工作進(jìn)行對(duì)比,結(jié)果如上表所示,證明了該UV重建方法的有效性。

表注:在HO3D上進(jìn)行真實(shí)場(chǎng)景下具有遮擋的人手3D重建實(shí)驗(yàn)對(duì)比,↓表示越低越好,↑表示越高越好。
同時(shí)為了驗(yàn)證在各種遮擋場(chǎng)景下的重建性能,研究團(tuán)隊(duì)選取包含大量遮擋樣本的HO3D數(shù)據(jù)集進(jìn)行測(cè)評(píng),結(jié)果如上表所示,各項(xiàng)指標(biāo)也都達(dá)到了SOTA。

表注:↓表示越低越好,↑表示越高越好。
為了定量評(píng)價(jià)SRNet,研究團(tuán)隊(duì)還在HIC數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。如上所示,SRNet的輸出(表中的“OUTPUT”)得到了優(yōu)于原始深度圖的結(jié)果。
模型介紹:AffineNet+SRNet=I2UV-HandNet

圖注:AffineNet網(wǎng)絡(luò)框架圖,AffineNet由編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)組成,在解碼時(shí)通過Affine Connection和多stage完成由粗到精的UV學(xué)習(xí)。
如上圖所示,AffineNet由編解碼網(wǎng)絡(luò)組成,編碼骨干網(wǎng)絡(luò)ResNet-50,解碼時(shí)采用由粗到精的層級(jí)結(jié)構(gòu),其中Affine Connection是指通過當(dāng)前層級(jí)預(yù)測(cè)的UV用仿射變換(類似STN)的方式實(shí)現(xiàn)編碼特征向UV圖的對(duì)齊,即:
D4=fupE5IUV4=fcon(D4)
同時(shí)有:
A3=fup(fac(πIUV4,E4))D3=fupD4IUV3=fcon(A3,D3,fup(IUV4))
以及:
Ai=fup(fac(πIUVi+1,Ei+1))Di=fupfconDi+1,Ai+1,IUVi+1,i=0,1,2IUVi=fcon(Ai,Di,fup(IUVi+1))
其中,Ei表示1/2i分辨率下的編碼特征圖,fup(x)表示將x放大2倍,πIUVi表示根據(jù)稠密的IUVi在固定投影矩陣的投影坐標(biāo),fac(x,y)表示Affine Connection操作,A ^i表示通過仿射變換后與UV對(duì)齊后的特征圖,相對(duì)于E ^i ,其包含更多與手相關(guān)的特征。Di表示1/2i分辨率下的解碼特征圖,fcon表示卷積操作。通過上面三個(gè)公式看出,解碼過程本質(zhì)上就是一套低分辨率UVmap到高分辨率UVmap重建的過程,同時(shí)也是3D點(diǎn)云重建由粗到精的過程。
AffineNet的損失函數(shù)分為3項(xiàng):
Eaffine=λ1EUV+λ2Egrad+λ3Everts
其中,使用L1作為UV的重建Loss:
EUV=|IUV?IUV?M|
IUV為真實(shí)UV圖,IUV為重建結(jié)果,M為UV的3D手有效映射掩碼。
UV圖本質(zhì)上可以看成將3D模型上每個(gè)三角面不重疊地映射到二維平面,所以在UV圖上對(duì)應(yīng)的三角片區(qū)域的值應(yīng)該是連續(xù)的,因此引入Gradient loss:
Egrad=?uIUV?M??uIUV??M+?vIUV?M??vIUV??M
其中?u和?v分別表示在UV圖的U軸和V軸方向求梯度。
在訓(xùn)練階段對(duì)分辨率最大的4個(gè)stage(即i=0,1,2,3)重建的UV進(jìn)行Eaffine優(yōu)化,其中λ1=λ2=λ3=1,投影矩陣選用正投影矩陣,每個(gè)stage間的loss比例都為1。

圖注:SRNet每層的設(shè)置
SRNet的網(wǎng)絡(luò)結(jié)構(gòu)類似于超分辨率卷積神經(jīng)網(wǎng)絡(luò)(SRCNN),但輸入和輸出是UV圖而非RGB圖像。
研究團(tuán)隊(duì)巧妙地通過UV圖的方式將點(diǎn)的超分轉(zhuǎn)換為圖像的超分,將偽高精度UV圖作為輸入,高精度UV圖作為標(biāo)簽,通過偽高精度3D模型生成的UV圖到高精度3D模型生成的UV圖的超分學(xué)習(xí),完成1538個(gè)面到6152個(gè)面,778個(gè)點(diǎn)到3093個(gè)點(diǎn)的超分學(xué)習(xí),超分Loss設(shè)計(jì)如下:
ESR=EUV_SR+Everts_SR
在測(cè)試階段只需要將AffineNet重建的UV圖作為輸入,便可得到經(jīng)過超分重建后的高精度UV圖,從而實(shí)現(xiàn)人手的高精度3D重建。
將AffineNet和SRNet結(jié)合成I2UV-HandNet系統(tǒng)便可完成High-fidelity的人手3D重建。為了快速驗(yàn)證將點(diǎn)的超分轉(zhuǎn)化為圖像的超分的可行性,研究團(tuán)隊(duì)將SRCNN網(wǎng)絡(luò)結(jié)構(gòu)用于SRNet中,并選取SHS數(shù)據(jù)集進(jìn)行訓(xùn)練。
Batch size設(shè)置為512,輸入U(xiǎn)V圖的大小為256*256,初始學(xué)習(xí)率為1e-3,優(yōu)化器Adam,并采用cosine lr下降方式,并在scale、旋轉(zhuǎn)等方面進(jìn)行數(shù)據(jù)增廣。
同時(shí)為了網(wǎng)絡(luò)模型具有更好的泛化性,也隨機(jī)對(duì)高精度UV圖進(jìn)行高斯平緩處理,并將結(jié)果作為網(wǎng)絡(luò)的輸入。在測(cè)試時(shí),將AffineNet輸出的UV圖作為SRNet的輸入實(shí)現(xiàn)I2UV-HandNet系統(tǒng)的high-fidelity 3D人手重建。

圖注:在HO-3D數(shù)據(jù)集(左)和FreiHAND數(shù)據(jù)集(右)上的重建結(jié)果。從左到右依次為:輸入、AffineNet的重建結(jié)果、SRNet輸出的超分結(jié)果(high-fidelity)
上圖顯示I2UV-HandNet在各種姿態(tài)和遮擋條件下基于單目RGB圖的人手的High-fidelity的3D重建結(jié)果。通過上圖的Coarse Mesh和High-fidelity meshes對(duì)比可以看出,通過UV圖超分輸出的包含3093個(gè)點(diǎn)/6152個(gè)面的3D模型(High-fidelity)明顯要比AffineNet輸出的包含778個(gè)點(diǎn)/1538個(gè)面的MANO模型(Coarse Mesh)更加精細(xì),具體表現(xiàn)在折痕細(xì)節(jié)和皮膚鼓脹等。
在論文中,研究團(tuán)隊(duì)還在FreiHAND測(cè)試集上進(jìn)行了Loss分析、Affine Connection存在性、UV展開方式以及由粗到精的方式多項(xiàng)屬性消融的實(shí)驗(yàn)分析,分析結(jié)果依次見表4到表7。

圖注:不同的UV展開形式


通過實(shí)驗(yàn)分析進(jìn)一步證明本算法在各方面都具有較好的魯棒性,尤其是對(duì)背景具有強(qiáng)抗干擾性,非常適合應(yīng)用于實(shí)際產(chǎn)品中。
下一步:“適配”更加豐富的應(yīng)用場(chǎng)景
手部重建比較與人體重建相似,當(dāng)前學(xué)術(shù)界做人體重建的算法可以遷移到手部的應(yīng)用。但相對(duì)于比較火熱的人臉重建,手部和人體存在自遮擋更多,姿態(tài)復(fù)雜度更高等問題,因此研究難度大,業(yè)界可借鑒資料、行業(yè)內(nèi)的應(yīng)用都相對(duì)較少。
但手部、人體重建卻是用自然的肢體語言實(shí)現(xiàn)人機(jī)交互的關(guān)鍵技術(shù),相比一些可穿戴設(shè)備,更能帶來體驗(yàn)和沉浸度。例如手柄無法模擬手指每一個(gè)關(guān)節(jié)的活動(dòng),手部重建則能實(shí)現(xiàn)更加精細(xì)的操控。這意味著游戲、數(shù)字化工廠、虛擬場(chǎng)景培訓(xùn)等更多場(chǎng)景。
接下來,愛奇藝技術(shù)團(tuán)隊(duì)將會(huì)致力于算法的計(jì)算效率提升,能夠更好的滿足VR設(shè)備應(yīng)用場(chǎng)景對(duì)功耗及計(jì)算資源的嚴(yán)苛要求;同時(shí)也會(huì)繼續(xù)研究當(dāng)前學(xué)術(shù)界的一些難題,例如對(duì)于重疊/遮擋的手的重建,愛奇藝深度學(xué)習(xí)云算法小組也已經(jīng)開始布局。