最新四色米奇影视777在线看_暴躁少女csgo视频一_中文字幕乱码中文乱码_有什么好看的小说推荐_亚洲一卡2卡三卡4卡高清_国产成人精品无码免费看_成人免费120分钟啪啪_两性午夜刺激爽爽视频_国产成人av在线免播放app

首頁 > 企業(yè)

Oculus分享Lipsync工作原理 如何讓虛擬角色唇部說話栩栩如生

2018/08/22 13:44      yivian [No.L001]


  2018年08月22日,在今年的Facebook開發(fā)者大會上,Oculus展示了音頻到面部動畫技術(shù)的最新進展。這項功能允許我們通過任何語言的口語來實時驅(qū)動面部動畫。Oculus日前正式宣布,這項技術(shù)將在最新的Oculus Lipsync Unity集成更新中向開發(fā)者開放。

  1. Oculus Lipsync的工作原理

  Oculus Lipsync是一種Unity集成,用于將虛擬角色的唇部動作同步至語音。它主要是離線或?qū)崟r分析音頻輸入,然后預(yù)測可用于令虛擬角色或非玩家角色(NPC)嘴唇動畫化的一組發(fā)音嘴形。視覺音素/視素(visual phoneme/viseme)是嘴唇和面部的姿勢或表達,其對應(yīng)于特定的語音(音素)。例如在討論讀唇術(shù)時,我們常常使用這個術(shù)語,其概念類似于音素,并且是具備可理解度的基本視覺單元。在計算機動畫中,我們可以使用視覺音素來制作虛擬角色的動作,令它們看起來像是在說話。

  Oculus Lipsync將音頻輸入映射至一個包含15個視覺音素目標的空間:sil,PP,F(xiàn)F,TH,DD,kk,CH,SS,nn,RR,aa,E,ih,oh和ou。視素描述了在發(fā)出相應(yīng)語音時產(chǎn)生的面部表情。例如,視素sil對應(yīng)于silent/neutral表達;PP對應(yīng)于在“popcorn(爆米花)”發(fā)音的第一個音節(jié);FF是“fish(魚)”的第一個音節(jié),諸如此類。選擇上述目標是為了給出最大范圍的唇部運動,并且支持盡可能多的語言。有關(guān)這15個視素及其選擇方式的更多信息,請參閱本文最后的文檔:Viseme MPEG-4 Standard。盡管本文檔包含了視素的參考圖像,但Oculus發(fā)現(xiàn)藝術(shù)家難以從中復(fù)制精確的幾何圖形。為了克服這個問題,Oculus從多個角度制作了一組更高分辨率的視素參考圖:Oculus Viseme Reference Images(Oculus視素參考圖像)。

  2. Oculus Lipsync的演變

  當Oculus第一次發(fā)布LipSync時,他們專注于支持Facebook Spaces等應(yīng)用程序。在這種情況下,它用于生成靜態(tài)唇形張開和閉合的粗略動畫。對于這一點,實現(xiàn)方式是使用Lipsync插件來驅(qū)動所謂的Texture-Flip風(fēng)格面部動畫,如上面的機器人動圖所示。這里每個視素都映射到單個紋理,并且每幀顯示最大活動視素的紋理。最近的社交VR發(fā)展(包括2018年初的Spaces更新)都使用了更高保真度,基于混合形狀的面部模型,而這需要更高質(zhì)量的面部動畫。對于基于混合形狀的模型,其需要對相同拓撲的不同幾何形狀(或混合形狀)進行加權(quán)組合,并將它們相加以創(chuàng)建動態(tài)形狀輸出。這樣的模型不僅需要預(yù)測最大活動的視素,而且要求所有視素的權(quán)重,從而能夠流暢地為模型設(shè)置動畫,結(jié)果如下圖所示。為了實現(xiàn)如此高保真的面部動畫,Oculus的研究團隊采用了一種新穎的方法,將深度學(xué)習(xí)的進步與人類語音生成的知識結(jié)合了起來。

  3. 以更高的精度預(yù)測視素

  最初通過SDK 1.16.0推出的原版Oculus Lipsync采用一個小而淺薄的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)一小段語音音頻輸入和音素(構(gòu)成人類語音的聲音單位)之間的映射。盡管這個模型在英語方面的效果相當好,但它在其他語言方面效果不佳,而且容易受背景噪音的影響。作為研究和產(chǎn)品之間的合作,Oculus投資了更新的機器學(xué)習(xí)模型,即時間卷積網(wǎng)絡(luò)(TCN)。對于時間卷積網(wǎng)絡(luò),它們已經(jīng)能夠在其他領(lǐng)域的任務(wù)中實現(xiàn)顯著更高的性能和穩(wěn)定性,如視覺和語言。在內(nèi)部測試中,這種TCN模型能夠?qū)⒂⒄Z語音的視素準確度提高30%以上,并且在重口音和大量背景噪音方面優(yōu)于先前的模型。在Speech Processing社區(qū)中,它們被稱為聲學(xué)模型,并且經(jīng)常用作語音識別管道的輸入。

  下圖描述了一般的TCN架構(gòu)。這個模型使用過去的low-level音頻特征數(shù)據(jù)流來作為輸入,以及在某些情況下(如對于離線應(yīng)用而言),使用來自“未來”的信息來預(yù)測一組視素?梢哉{(diào)整架構(gòu)的精確參數(shù)來優(yōu)化計算效率和性能,但總體布局屬于原樣。

  盡管模型比先前的Lipsync方法復(fù)雜得多,但Oculus能夠使用類似于Fast WaveNet Generation Algorithm的緩存技術(shù)來非常有效地執(zhí)行處理。

  這項研究源于Facebook Reality Labs的一系列工作(在pyTorch中完成)。研究人員使用ONNX將模型轉(zhuǎn)換為Caffe2以進行實時處理,并由Oculus進行優(yōu)化和集成以包含在Oculus Lipsync中。

  4. 制作逼真的面部動畫

  Oculus表示,這個全新的優(yōu)化模型使他們意識到需要大量的努力來制作高質(zhì)量的視素混合形狀,從而驅(qū)動富有表現(xiàn)力的虛擬角色面部表情。Oculus的美術(shù)和面部姿勢專家共同解決了這個問題,并制作了一套新的視素參考圖像。借助這些參考圖像,Oculus為虛擬角色,以及為演示幾何創(chuàng)建了新的面部動畫混合形狀,具體可通過這個頁面進行下載。

  5. 總結(jié)

  在這個版本中,Oculus為開發(fā)者提供了利用最先進唇形技術(shù)來驅(qū)動實時虛擬角色和非玩家角色的能力。這是Oculus和Facebook Reality Labs的研究科學(xué)家,機器學(xué)習(xí)工程師,產(chǎn)品管理,圖形藝術(shù)家和面部姿勢專家的共同努力。Oculus已經(jīng)更新了Unity插件和演示內(nèi)容,目標是令Oculus Lipsync更強大,更具表現(xiàn)力,更易于使用。

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復(fù)制
標題鏈接已成功復(fù)制

最新新聞

熱門新聞