2020年伊始,突如其來的疫情使以短視頻和直播為代表的網(wǎng)絡(luò)視頻產(chǎn)業(yè)再次成為關(guān)注焦點(diǎn)。
隨著AI、大數(shù)據(jù)、AR/VR技術(shù)的加持,在線視頻以其更加豐富互動形式、更加多樣的場景化模式以及更加貼近消費(fèi)者的內(nèi)容,給消費(fèi)者帶來更加個性化、實(shí)時化、沉浸式的體驗(yàn)。
Gartner 2020年重要戰(zhàn)略科技發(fā)展趨勢中提出了多重體驗(yàn)(Multi Experience),即到2028年用戶體驗(yàn)將在用戶感知和用戶交互兩個維度發(fā)生巨大的變化,人機(jī)會話平臺正在改變?nèi)伺c數(shù)字世界的交互方式,而虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)與混合現(xiàn)實(shí)(MR)正在影響著人們對數(shù)字與真實(shí)世界的感知。
目前多重體驗(yàn)專注于多重互動技術(shù)的綜合運(yùn)用,并向著結(jié)合增強(qiáng)現(xiàn)實(shí),虛擬現(xiàn)實(shí),混合現(xiàn)實(shí),以及多渠道人機(jī)界面和感知技術(shù)的沉浸式體驗(yàn)方向發(fā)展。事實(shí)佐證,AI創(chuàng)作的智能影像內(nèi)容有望成為主流內(nèi)容組合,其建立多種互動模式與用戶溝通的能力,將為傳遞更細(xì)致和豐富的信息提供更加多樣化的場景。
另一方面,視頻化表達(dá)已成為主流,而互動視頻這一新興方向得到足夠重視。事實(shí)上,這是AI視覺技術(shù)與用戶多重體驗(yàn)相互校驗(yàn)的一個應(yīng)用場景——在視頻內(nèi)容之上自動疊加互動文字、動畫、圖表、聲音等,根據(jù)不同興趣用戶可選劇情推進(jìn)線,以獲得最佳的個人用戶互動體驗(yàn)。
2018年底,Netflix推出的《黑鏡:潘達(dá)斯奈基》,制作方為觀眾安排了上百個互動點(diǎn),以及312分鐘的視頻素材以及5個不同的結(jié)局,供觀眾自主選擇劇情走向和觀看不同的結(jié)局。可以說,在當(dāng)時技術(shù)條件下Netflix將個性化互動體驗(yàn)做到了極致。
迪士尼創(chuàng)新實(shí)驗(yàn)室則推出了一套觀眾興趣捕獲系統(tǒng),根據(jù)表情、注意力等指標(biāo)來演算用戶對劇情的喜愛程度,以推動下一個劇情的演進(jìn),事實(shí)上,這是個性化視頻創(chuàng)作自動化流程。

互動視頻本質(zhì)上是人與機(jī)器的交互以及人與內(nèi)容的交互,在人與內(nèi)容互動上,《黑鏡:潘達(dá)斯奈基》以及國內(nèi)的《最后的搬山道人》等則代表了這種交互模式,需要制作方對視頻內(nèi)容進(jìn)行大量的素材定制,主流的方式是從生產(chǎn)角度入手,通過智能影像生產(chǎn)技術(shù)快速制作與劇情之匹配的短視頻,并于機(jī)器拍攝視頻相結(jié)合,形成互動劇情線。
在國內(nèi),智能影像技術(shù)提出者和深耕者影譜科技認(rèn)為,互動視頻本質(zhì)是人與機(jī)器的互動,提出未來互動視覺的三種主流技術(shù)發(fā)展方向,并在多業(yè)務(wù)場景得以校驗(yàn)。
第一種,是根據(jù)需要在視頻幀內(nèi)寫入合適內(nèi)容以增強(qiáng)視頻內(nèi)容,目前主要通過動態(tài)浮層技術(shù)實(shí)現(xiàn),已經(jīng)實(shí)現(xiàn)了大規(guī)模成熟運(yùn)用,如去年兩會期間,央媒推出的、由影譜科技技術(shù)實(shí)施的“委員全息履職”節(jié)目,以及由影譜科技承擔(dān)的《幻樂之城》實(shí)時場景搭建任務(wù)。
第二種方式,是基于人的交互動作捕捉,通過視頻合成技術(shù)組合進(jìn)入原有視頻內(nèi),主要應(yīng)用在多場景理解及內(nèi)容替換、體育直播等;如近期“Young視頻”播出線上訪談節(jié)目《云快訪》,借助影譜科技的視頻差異化提取技術(shù),實(shí)現(xiàn)中國登山隊(duì)的“實(shí)景采訪”;去年,《大畫CBA》節(jié)目通過運(yùn)用影譜科技智能視頻生產(chǎn)系統(tǒng),使上傳圖片文字能夠自動生成視頻,減少人工后期編輯的復(fù)雜工作,有效解決低效率視頻生產(chǎn)方式、復(fù)雜內(nèi)容審核機(jī)制等問題。
第三種則是數(shù)字人物主題的應(yīng)用,例如源于日本的Vtuber,表現(xiàn)在與一對一或一對多的交互形式上,除了IP本身以外,技術(shù)也是制約虛擬主播發(fā)展的因素之一,這種虛擬直播對人工智能技術(shù)的要求非常高,要想實(shí)現(xiàn)良好的直播效果,就需要具有過硬的面部表情識別、3D人物/人臉重建、AR融合以及端推理引擎等技術(shù),同時需要對應(yīng)用場景的理解和行業(yè)積累。目前國內(nèi)一些頭部企業(yè)如科大訊飛、影譜科技等提供了開放平臺針對直播產(chǎn)業(yè)的虛擬主播,以提供API接口等模式,幫助直播平臺或團(tuán)隊(duì)做到以虛擬主持人的形象與用戶進(jìn)行互動。

(歐洲的交互型視頻項(xiàng)目ACTION-TV)
影譜科技認(rèn)為,隨著AI多模態(tài)識別分析技術(shù)越來越成熟,視頻內(nèi)容實(shí)現(xiàn)更細(xì)顆粒(像素級)的結(jié)構(gòu)化處理,動態(tài)浮層互動形式也變得更加豐富,互動的深度也進(jìn)一步增加。同時,智能影像技術(shù)對于嵌入式互動視頻的制作帶來了更多的優(yōu)勢,對于拓展性更強(qiáng)的浮層互動技術(shù)其在在應(yīng)用上也有著更明顯的優(yōu)勢,由此也帶來了AI自動掃描及視頻幀內(nèi)置入、視頻內(nèi)服務(wù)模式的蓬勃發(fā)展,有助于智能影像技術(shù)在多個商業(yè)場景中落地,并成為底層主流支撐技術(shù)之一。
隨著5G的普及將進(jìn)一步推動人工智能、云計(jì)算、IoT和VR技術(shù)的綜合運(yùn)用,不僅可以提升用戶多重互動體驗(yàn),通過智能影像技術(shù)還可以幫助內(nèi)容運(yùn)營平臺提高內(nèi)容制作和變現(xiàn)效率。隨著互動視頻技術(shù)開放平臺的出現(xiàn)和發(fā)展,降低參與方的門檻可以使其更加專注在內(nèi)容和創(chuàng)意本身,帶來更加個性化、場景化的多重互動體驗(yàn),催生應(yīng)用的創(chuàng)新并帶動產(chǎn)業(yè)形態(tài)上更深刻的變革。