索尼數(shù)字人研究:畫(huà)質(zhì)超逼真,面部表情與身體動(dòng)作保持協(xié)調(diào)
近年來(lái),3D動(dòng)捕、數(shù)字虛擬人等技術(shù)受到越來(lái)越多關(guān)注,它不僅可以應(yīng)用于電影場(chǎng)景,游戲、社交等領(lǐng)域也開(kāi)始采用。相比于過(guò)去高成本、高門(mén)檻的全身動(dòng)捕技術(shù),現(xiàn)在制作基于動(dòng)捕的虛擬人越來(lái)越容易,不需要過(guò)高的成本或是專(zhuān)業(yè)技術(shù)知識(shí),一些簡(jiǎn)易、自動(dòng)化的動(dòng)捕方案就足夠普通創(chuàng)作者使用。
近期,索尼也公布了一項(xiàng)基于機(jī)器學(xué)習(xí)的3D虛擬人和動(dòng)捕方案,該方案可逼真模擬人類(lèi)面部表情和行為的3D建模技術(shù),通過(guò)忠實(shí)重現(xiàn)人類(lèi)特征,來(lái)推動(dòng)虛擬社交。
索尼指出,數(shù)字人是基于真人特征的3D模型,它在虛擬場(chǎng)景中可模擬人的自然外觀(guān)和行為。近年來(lái),越來(lái)越多的企業(yè)開(kāi)始接觸數(shù)字人技術(shù),并將它用于廣告、客服、游戲等場(chǎng)景。當(dāng)然,并不是所有數(shù)字人都能完全還原人的特征,它們的還原程度取決于用途,比如在CG電影中,對(duì)于數(shù)字人的逼真度會(huì)要求更高。索尼認(rèn)為,隨著CG渲染技術(shù)不斷提升,虛擬化身的質(zhì)量越來(lái)越好,因此恐怖谷問(wèn)題正在得到解決。
(資料圖)
索尼的目標(biāo),是開(kāi)發(fā)一種仿佛真實(shí)存在的數(shù)字人,這種數(shù)字人具有存在感,讓人感覺(jué)它仿佛就在身邊。換句話(huà)說(shuō),就是利用數(shù)字技術(shù)來(lái)復(fù)制真人。結(jié)合AI算法后,它可以和真人互動(dòng),甚至和真人難以區(qū)分。其研發(fā)重點(diǎn)是突出數(shù)字人的個(gè)性表達(dá),比如重現(xiàn)人臉皺紋和表情的特征變化,抓住人獨(dú)一無(wú)二的特點(diǎn)。從自然交互的角度來(lái)看,索尼也注重?cái)?shù)字人的眼神與用戶(hù)的互動(dòng),數(shù)字人不會(huì)盯著用戶(hù),而是模仿人眼和頭部自然動(dòng)作。
數(shù)字人核心技術(shù)
構(gòu)成數(shù)字人的核心技術(shù)包括:面部動(dòng)捕、面部肌肉模擬、面部肌肉動(dòng)作和身體協(xié)調(diào)性?;谌四樈壎ǖ拿娌縿?dòng)畫(huà)也需要這些步驟,模擬人臉表情變化是一個(gè)復(fù)雜的過(guò)程,要想忠實(shí)重現(xiàn)、綁定人臉面部動(dòng)作,需要高端的面部動(dòng)捕技術(shù)。而且,復(fù)雜的面部動(dòng)捕難以控制,在制作動(dòng)畫(huà)時(shí)將需要高超的技術(shù)。為了簡(jiǎn)化基于動(dòng)捕的人臉表情模擬過(guò)程,索尼研發(fā)了一種更加智能的工作流程,特點(diǎn)是無(wú)需傳統(tǒng)的面部綁定方案,并降低了制作動(dòng)畫(huà)的工作量。
據(jù)了解,面部動(dòng)捕技術(shù)可準(zhǔn)確追蹤表演者臉部各部分運(yùn)動(dòng),并驅(qū)動(dòng)CG模型去模擬這種運(yùn)動(dòng)。捕捉面部變形數(shù)據(jù)需要詳細(xì)的三位信息,才能準(zhǔn)確呈現(xiàn)肌肉伸展、收縮,以及由此產(chǎn)生的皺紋等細(xì)微運(yùn)動(dòng)。
而索尼的方案,簡(jiǎn)單來(lái)講就是用動(dòng)捕技術(shù)捕捉真人演員的表情,并根據(jù)捕捉到的數(shù)據(jù)生成人臉CG模型,以及面部動(dòng)態(tài)變形效果。此外,還分析了各種面部表情模式,并提取了重現(xiàn)這些表情需要運(yùn)動(dòng)的面部區(qū)域。這些區(qū)域大約有100個(gè),包括眼睛和嘴唇輪廓部位,在捕捉這些區(qū)域的3D信息后,索尼對(duì)它們的位置進(jìn)行了標(biāo)記。
在捕捉人臉3D信息時(shí),索尼使用了多臺(tái)同步的攝像機(jī)從多角度拍攝,并推算3D運(yùn)動(dòng)信息。不過(guò),部分面部表情變化可能會(huì)導(dǎo)致標(biāo)記檢測(cè)失敗或遮擋,因此該系統(tǒng)還利用光流,以及不同的攝像頭角度來(lái)提升信息獲取的穩(wěn)定性。
接下來(lái),索尼使用真人表演視頻作為訓(xùn)練數(shù)據(jù),培訓(xùn)了可精準(zhǔn)檢測(cè)眼睛、嘴唇運(yùn)動(dòng)的系統(tǒng)。索尼指出,每一幀動(dòng)捕的準(zhǔn)確性都決定了下一幀的準(zhǔn)確性,因此該系統(tǒng)還需要不斷完善,提高整體水平。
索尼開(kāi)始使用頭戴式攝像頭(HMC)來(lái)拍攝演員的面部表情,相比于傳統(tǒng)的固定機(jī)位拍攝,HMC的好處是可以追隨演員,演員無(wú)需尋找攝像頭,可以更加自由、靈活的運(yùn)動(dòng)。索尼表示:捕捉到自然運(yùn)動(dòng)的人體姿態(tài)后,才能渲染出完整的數(shù)字人,因此HMC是捕捉自然運(yùn)動(dòng)數(shù)據(jù)不可缺少的工具。
不過(guò),演員可戴在頭上的HMC攝像頭數(shù)量有限,面部捕捉的角度、覆蓋面積比固定機(jī)位更少。因此,準(zhǔn)確捕捉3D面部數(shù)據(jù)、識(shí)別3D標(biāo)記則尤為重要。為了訓(xùn)練良好的3D預(yù)測(cè)算法,索尼使用固定機(jī)位和HMC預(yù)先捕捉人臉數(shù)據(jù),其中包括面部表情、3D標(biāo)記等等。算法通過(guò)這些數(shù)據(jù)去學(xué)習(xí)表情和面部運(yùn)動(dòng)之間的相關(guān)性,后續(xù)只需要HMC的數(shù)據(jù)就可預(yù)測(cè)3D面部運(yùn)動(dòng),準(zhǔn)確性足夠接近傳統(tǒng)的固定機(jī)位方案。
模擬面部變形
在捕捉人臉3D標(biāo)記信息后,索尼的動(dòng)捕系統(tǒng)根據(jù)眼瞼、嘴唇輪廓信息來(lái)模擬面部變形,并動(dòng)態(tài)渲染在3D模型上。渲染面部變形的流程是:根據(jù)幾何函數(shù)模擬面部表情、用機(jī)器學(xué)習(xí)模型將面部表情個(gè)性化、細(xì)節(jié)微調(diào)、疊加紋理。首先第一步,3D面部動(dòng)作、眼瞼輪廓需要準(zhǔn)確定位,才能確保后續(xù)面部變形合理。因此,索尼設(shè)定了一個(gè)具有幾何約束的能量函數(shù),可根據(jù)3D面部數(shù)據(jù)來(lái)調(diào)整面部模型的整體形態(tài)。
另外,由于人臉表情變化引起的皮膚拉伸、收縮、皺紋和肌肉隆起程度因人而異,因此索尼利用十幾種面部表情模式來(lái)訓(xùn)練個(gè)性化的機(jī)器學(xué)習(xí)模型,這些模型可根據(jù)人臉特征,來(lái)將3D面部表情個(gè)性化,重現(xiàn)用戶(hù)的個(gè)人特征。
細(xì)節(jié)方面,該機(jī)器學(xué)習(xí)模型將人臉區(qū)域的伸長(zhǎng)、收縮程度作為特征值,并根據(jù)幾何變形模型與真實(shí)值之間的差距回歸,從而輸出具有個(gè)人特征的面部變形。
面部變形的最后一步,就是引入眼瞼、嘴唇、口腔形狀變形算法,對(duì)面部模型進(jìn)行額外處理。這一步是為了糾正面部變形可能產(chǎn)生的誤差,確保眼瞼覆蓋眼球(避免眼球和眼瞼出現(xiàn)間隙,或眼球穿模眼皮)、自然的口腔形狀變化等特征。在眼瞼處理部分,該算法重點(diǎn)是避免眼瞼接觸眼球,而嘴唇處理部分,則側(cè)重于幾何約束,確保面部捕捉到的嘴唇輪廓與3D模型的嘴唇形狀匹配。
面部和身體集成
完成3D面部動(dòng)作模擬后,下一步便是將面部與身體姿態(tài)集成,并協(xié)調(diào)面部表情和身體動(dòng)作。如果面部和身體分開(kāi)運(yùn)動(dòng),會(huì)顯得不自然,因此索尼開(kāi)發(fā)了面部和身體一體化算法,可模擬全身自然運(yùn)動(dòng)。
索尼指出,目前市面上的動(dòng)捕方案主要用于模擬人體模型的運(yùn)動(dòng)和變形,人體3D信息通過(guò)光學(xué)方案捕捉,并且在頸部、腿部、手臂等處添加標(biāo)記來(lái)定位骨骼姿態(tài),生成人體網(wǎng)格,從而模擬人體形狀。相比之下,索尼的方案?jìng)?cè)重于模擬頸部形狀,頸部的動(dòng)作會(huì)同時(shí)受到面部和身體運(yùn)動(dòng)影響,比如頸骨運(yùn)動(dòng)決定面部方向,下頜運(yùn)動(dòng)決定嘴巴運(yùn)動(dòng)。
于是,索尼構(gòu)建了一個(gè)全身姿態(tài)模擬系統(tǒng),將HMC數(shù)據(jù)和身體動(dòng)作捕捉同步,并根據(jù)這些數(shù)據(jù)來(lái)預(yù)測(cè)頸部形狀。據(jù)悉,索尼預(yù)先創(chuàng)建了結(jié)合多種嘴型、面部方位的大量訓(xùn)練數(shù)據(jù),并從中提取了潛在的頸部形狀。在實(shí)際預(yù)測(cè)中,頸部模型組合了多種數(shù)據(jù),包括下頜運(yùn)動(dòng)、頸部方向。
索尼表示:該頸部模擬模型可重現(xiàn)自然的面部和身體動(dòng)作,目前訓(xùn)練改模型需要大量訓(xùn)練數(shù)據(jù),后續(xù)將想辦法減少對(duì)數(shù)據(jù)的依賴(lài)。
總之,索尼的數(shù)字人模擬方案實(shí)現(xiàn)了自動(dòng)化的人臉表情模擬,這大大減少了前期創(chuàng)作工作,允許創(chuàng)作者交付更高質(zhì)量產(chǎn)品。更重要的是,該方案可根據(jù)不同人的特征去模擬運(yùn)動(dòng),好處是看起來(lái)非常自然。索尼表示:隨著3D虛擬技術(shù)發(fā)展,數(shù)字人將會(huì)被更多人所熟知,輕松創(chuàng)建Avatar的需求將逐步增加。未來(lái),希望可以將這項(xiàng)幾乎應(yīng)用于消費(fèi)級(jí)市場(chǎng),比如電影、游戲等領(lǐng)域。參考:sony
關(guān)鍵詞: 索尼數(shù)字人研究畫(huà)質(zhì)超逼真 面部表情與身體動(dòng)作保持協(xié)調(diào) 動(dòng)作捕捉
相關(guān)閱讀
-
索尼數(shù)字人研究:畫(huà)質(zhì)超逼真,面部表情...
索尼數(shù)字人研究:畫(huà)質(zhì)超逼真,面部表情與身體動(dòng)作保持協(xié)調(diào) -
疑似大疆2023新品路線(xiàn)圖曝光 3月或?qū)⑼?..
疑似大疆2023新品路線(xiàn)圖曝光3月或?qū)⑼瞥鯥nspire3 -
OPPO Watch 3大更新:全系迎來(lái)微信手表版
OPPOWatch3大更新:全系迎來(lái)微信手表版 -
OPPO Watch 3 系列現(xiàn)已全面支持微信手表版
OPPOWatch3系列現(xiàn)已全面支持微信手表版 -
兩周續(xù)航,全天候監(jiān)測(cè)血氧 六大理由推...
兩周續(xù)航,全天候監(jiān)測(cè)血氧六大理由推薦1 47英寸大屏榮耀手環(huán)7 -
Meta:3月起Quest 1不再推送新功能、不...
Meta:3月起Quest1不再推送新功能、不支持Home社交功能