Oculus分享Lipsync工作原理如何讓虛擬角色唇部說話栩栩如生

2018/08/22 13:44 yivian [No.L001]

　　2018年08月22日，在今年的Facebook開發(fā)者大會上，Oculus展示了音頻到面部動畫技術(shù)的最新進展。這項功能允許我們通過任何語言的口語來實時驅(qū)動面部動畫。Oculus日前正式宣布，這項技術(shù)將在最新的Oculus Lipsync Unity集成更新中向開發(fā)者開放。

　　1. Oculus Lipsync的工作原理

　　Oculus Lipsync是一種Unity集成，用于將虛擬角色的唇部動作同步至語音。它主要是離線或?qū)崟r分析音頻輸入，然后預(yù)測可用于令虛擬角色或非玩家角色(NPC)嘴唇動畫化的一組發(fā)音嘴形。視覺音素/視素(visual phoneme/viseme)是嘴唇和面部的姿勢或表達，其對應(yīng)于特定的語音(音素)。例如在討論讀唇術(shù)時，我們常常使用這個術(shù)語，其概念類似于音素，并且是具備可理解度的基本視覺單元。在計算機動畫中，我們可以使用視覺音素來制作虛擬角色的動作，令它們看起來像是在說話。

　　Oculus Lipsync將音頻輸入映射至一個包含15個視覺音素目標的空間：sil，PP，F(xiàn)F，TH，DD，kk，CH，SS，nn，RR，aa，E，ih，oh和ou。視素描述了在發(fā)出相應(yīng)語音時產(chǎn)生的面部表情。例如，視素sil對應(yīng)于silent/neutral表達;PP對應(yīng)于在“popcorn(爆米花)”發(fā)音的第一個音節(jié);FF是“fish(魚)”的第一個音節(jié)，諸如此類。選擇上述目標是為了給出最大范圍的唇部運動，并且支持盡可能多的語言。有關(guān)這15個視素及其選擇方式的更多信息，請參閱本文最后的文檔：Viseme MPEG-4 Standard。盡管本文檔包含了視素的參考圖像，但Oculus發(fā)現(xiàn)藝術(shù)家難以從中復(fù)制精確的幾何圖形。為了克服這個問題，Oculus從多個角度制作了一組更高分辨率的視素參考圖：Oculus Viseme Reference Images(Oculus視素參考圖像)。

　　2. Oculus Lipsync的演變

　　當Oculus第一次發(fā)布LipSync時，他們專注于支持Facebook Spaces等應(yīng)用程序。在這種情況下，它用于生成靜態(tài)唇形張開和閉合的粗略動畫。對于這一點，實現(xiàn)方式是使用Lipsync插件來驅(qū)動所謂的Texture-Flip風(fēng)格面部動畫，如上面的機器人動圖所示。這里每個視素都映射到單個紋理，并且每幀顯示最大活動視素的紋理。最近的社交VR發(fā)展(包括2018年初的Spaces更新)都使用了更高保真度，基于混合形狀的面部模型，而這需要更高質(zhì)量的面部動畫。對于基于混合形狀的模型，其需要對相同拓撲的不同幾何形狀(或混合形狀)進行加權(quán)組合，并將它們相加以創(chuàng)建動態(tài)形狀輸出。這樣的模型不僅需要預(yù)測最大活動的視素，而且要求所有視素的權(quán)重，從而能夠流暢地為模型設(shè)置動畫，結(jié)果如下圖所示。為了實現(xiàn)如此高保真的面部動畫，Oculus的研究團隊采用了一種新穎的方法，將深度學(xué)習(xí)的進步與人類語音生成的知識結(jié)合了起來。

　　3. 以更高的精度預(yù)測視素

　　最初通過SDK 1.16.0推出的原版Oculus Lipsync采用一個小而淺薄的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)一小段語音音頻輸入和音素(構(gòu)成人類語音的聲音單位)之間的映射。盡管這個模型在英語方面的效果相當好，但它在其他語言方面效果不佳，而且容易受背景噪音的影響。作為研究和產(chǎn)品之間的合作，Oculus投資了更新的機器學(xué)習(xí)模型，即時間卷積網(wǎng)絡(luò)(TCN)。對于時間卷積網(wǎng)絡(luò)，它們已經(jīng)能夠在其他領(lǐng)域的任務(wù)中實現(xiàn)顯著更高的性能和穩(wěn)定性，如視覺和語言。在內(nèi)部測試中，這種TCN模型能夠?qū)⒂⒄Z語音的視素準確度提高30%以上，并且在重口音和大量背景噪音方面優(yōu)于先前的模型。在Speech Processing社區(qū)中，它們被稱為聲學(xué)模型，并且經(jīng)常用作語音識別管道的輸入。

　　下圖描述了一般的TCN架構(gòu)。這個模型使用過去的low-level音頻特征數(shù)據(jù)流來作為輸入，以及在某些情況下(如對于離線應(yīng)用而言)，使用來自“未來”的信息來預(yù)測一組視素�？梢哉{(diào)整架構(gòu)的精確參數(shù)來優(yōu)化計算效率和性能，但總體布局屬于原樣。

　　盡管模型比先前的Lipsync方法復(fù)雜得多，但Oculus能夠使用類似于Fast WaveNet Generation Algorithm的緩存技術(shù)來非常有效地執(zhí)行處理。

　　這項研究源于Facebook Reality Labs的一系列工作(在pyTorch中完成)。研究人員使用ONNX將模型轉(zhuǎn)換為Caffe2以進行實時處理，并由Oculus進行優(yōu)化和集成以包含在Oculus Lipsync中。

　　4. 制作逼真的面部動畫

　　Oculus表示，這個全新的優(yōu)化模型使他們意識到需要大量的努力來制作高質(zhì)量的視素混合形狀，從而驅(qū)動富有表現(xiàn)力的虛擬角色面部表情。Oculus的美術(shù)和面部姿勢專家共同解決了這個問題，并制作了一套新的視素參考圖像。借助這些參考圖像，Oculus為虛擬角色，以及為演示幾何創(chuàng)建了新的面部動畫混合形狀，具體可通過這個頁面進行下載。

　　5. 總結(jié)

　　在這個版本中，Oculus為開發(fā)者提供了利用最先進唇形技術(shù)來驅(qū)動實時虛擬角色和非玩家角色的能力。這是Oculus和Facebook Reality Labs的研究科學(xué)家，機器學(xué)習(xí)工程師，產(chǎn)品管理，圖形藝術(shù)家和面部姿勢專家的共同努力。Oculus已經(jīng)更新了Unity插件和演示內(nèi)容，目標是令Oculus Lipsync更強大，更具表現(xiàn)力，更易于使用。

　　榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復(fù)制

標題鏈接已成功復(fù)制

最新四色米奇影视777在线看_暴躁少女csgo视频一_中文字幕乱码中文乱码_有什么好看的小说推荐_亚洲一卡2卡三卡4卡高清_国产成人精品无码免费看_成人免费120分钟啪啪_两性午夜刺激爽爽视频_国产成人av在线免播放app

Oculus分享Lipsync工作原理如何讓虛擬角色唇部說話栩栩如生

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

最新四色米奇影视777在线看_暴躁少女csgo视频一_中文字幕乱码中文乱码_有什么好看的小说推荐_亚洲一卡2卡三卡4卡高清_国产成人精品无码免费看_成人免费120分钟啪啪_两性午夜刺激爽爽视频_国产成人av在线免播放app

Oculus分享Lipsync工作原理 如何讓虛擬角色唇部說話栩栩如生

相關(guān)閱讀

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

Oculus分享Lipsync工作原理如何讓虛擬角色唇部說話栩栩如生