" />

最新四色米奇影视777在线看_暴躁少女csgo视频一_中文字幕乱码中文乱码_有什么好看的小说推荐_亚洲一卡2卡三卡4卡高清_国产成人精品无码免费看_成人免费120分钟啪啪_两性午夜刺激爽爽视频_国产成人av在线免播放app

首頁 > 資訊 > 數(shù)字化

創(chuàng)新3D虛擬人交互方案受認(rèn)可,Soul App多模驅(qū)動研究論文入選ICCGV 2025

2024/11/21 12:36      IT產(chǎn)業(yè)網(wǎng) [No.S073]


  近日,2025年第八屆計算機(jī)圖形和虛擬國際會議(ICCGV 2025)公布論文收錄結(jié)果,社交平臺Soul App研究成果《LLM Gesticulator: Leveraging Large Language Models for Scalable and Controllable Co-Speech Gesture Synthesis》(LLM Gesticulator:利用大語言模型實現(xiàn)可擴(kuò)展且可控的協(xié)同手勢合成)入選。

  計算機(jī)圖形和虛擬國際會議聚焦計算機(jī)圖形學(xué)與虛擬現(xiàn)實技術(shù)。在人工智能技術(shù)實現(xiàn)突破式發(fā)展,推動虛擬現(xiàn)實方向進(jìn)入新階段的當(dāng)下,大會關(guān)注虛擬現(xiàn)實環(huán)境/增強(qiáng)現(xiàn)實/混合現(xiàn)實、人機(jī)交互和高級交互等領(lǐng)域,計算機(jī)圖形學(xué)與虛擬現(xiàn)實技術(shù)的最新科研成果和產(chǎn)業(yè)發(fā)展對人類認(rèn)知世界、交互體驗的深刻影響,也吸引了全球頂尖學(xué)者、行業(yè)精英及創(chuàng)新先鋒,共同探討技術(shù)的進(jìn)步,攜手助力產(chǎn)學(xué)研聯(lián)動。

  Soul論文核心亮點(diǎn)為在行業(yè)內(nèi)首次提出使用大模型作為基底模型實現(xiàn)虛擬人的多模態(tài)驅(qū)動,并實現(xiàn)了各項指標(biāo)超過之前的最佳方案。此次論文入選,也意味著作為致力于以技術(shù)和產(chǎn)品模式創(chuàng)新提升年輕一代交互體驗的社交平臺,Soul的底層技術(shù)能力建設(shè)和探索方向得到了行業(yè)和學(xué)界的認(rèn)可。

  事實上,堅持以技術(shù)驅(qū)動創(chuàng)新,Soul自2016年上線后便注重AI、虛擬人、虛擬與現(xiàn)實融合等方向的技術(shù)能力建設(shè)。

  特別是為了降低用戶社交壓力,Soul不支持用戶上傳真實頭像,年輕人通過平臺提供的捏臉系統(tǒng),自主創(chuàng)造個性化虛擬形象。

  此前,Soul集成AI、渲染和圖像處理等技術(shù),推出了自研的NAWA引擎,為用戶創(chuàng)建個性化的3D社交形象和場景提供技術(shù)支持。2020年,Soul正式啟動對AIGC的技術(shù)研發(fā)工作,系統(tǒng)推進(jìn)在智能對話、語音技術(shù)、3D虛擬人等AIGC關(guān)鍵技術(shù)能力研發(fā)工作,并推動AI能力在社交場景的快速落地。

  目前,Soul已先后上線了自研語言大模型Soul X,以及語音生成大模型、語音識別大模型、語音對話大模型、音樂生成大模型等語音大模型能力。2024年,Soul AI大模型能力整體升級為多模態(tài)端到端大模型,支持文字對話、語音通話、多語種、多模態(tài)理解、真實擬人等特性,真正實現(xiàn)更接近生活日常的交互對話和“類真人”的情感陪伴體驗。

  沿著多模態(tài)融合的方向,Soul團(tuán)隊希望能夠集成3D虛擬人能力創(chuàng)新多模態(tài)AI交互方案,為用戶提供更加沉浸、自然、流暢、智能的互動體驗。相關(guān)負(fù)責(zé)人表示,“3D虛擬人是多模態(tài)中的重要組成部分和效果的豐富化呈現(xiàn),社交則是3D虛擬人落地的最佳自然場景之一,Soul自身具備完整的多模態(tài)團(tuán)隊、3D虛擬人/AI能力積累和深耕社交場景的洞察,團(tuán)隊有機(jī)會在此領(lǐng)域形成創(chuàng)新方案和競爭壁壘。”

  《LLM Gesticulator: Leveraging Large Language Models for Scalable and Controllable Co-Speech Gesture Synthesis》一文中匯聚了Soul在此方向的最新研究成果,展現(xiàn)了3D虛擬形象、肢體動作、文字、語言、視覺等多維度真正多模態(tài)融合實現(xiàn)的可能性。

  首先,團(tuán)隊首次提出使用大語言模型作為基座模型實現(xiàn)3D虛擬人的多模態(tài)驅(qū)動方案,其展現(xiàn)出了極高的可控性和可拓展性,并且實驗表明該模型在動畫質(zhì)量、動畫相關(guān)性、節(jié)奏匹配度和文本匹配度等多個指標(biāo)上都超過了以往方案。

  此外,過往行業(yè)方案中大多只支持單一模態(tài)的驅(qū)動,Soul團(tuán)隊對模型進(jìn)行了特殊設(shè)計,使得模型可以同時支持文本+音頻的輸入,并能夠生成和音頻節(jié)奏和文本語意都符合的動畫數(shù)據(jù)。

  最后,團(tuán)隊還探索了一種基于視覺大模型的自動化數(shù)據(jù)標(biāo)注范式,提供了新的數(shù)據(jù)標(biāo)注思路。

  高度重視技術(shù)能力建設(shè),2024年Soul多個技術(shù)研究成果獲得學(xué)界和行業(yè)肯定。8月,平臺研究成果《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(基于視覺語言提示與模態(tài)暫退的多模態(tài)情感識別),入選ACM國際多媒體會議(ACM MM 2024)上組織的多模態(tài)與可靠性情感計算研討會MRAC 24(Multimodal, Generative and Responsible Affective Computing 2024),該論文重點(diǎn)介紹了Soul團(tuán)隊為提高情緒識別的準(zhǔn)確性和泛化性能,提出的多模態(tài)情緒識別方法。

  夯實技術(shù)基建的同時,Soul始終強(qiáng)調(diào)推動AI能力在社交場景的快速落地,目前Soul大模型能力和創(chuàng)新互動方案已在智能對話機(jī)器人“AI茍蛋”、狼人殺Agent、數(shù)字分身和最新的AI虛擬人智能陪伴功能等場景應(yīng)用。

  在今年10月舉辦的全球三大IT展之一—— GITEX GLOBAL海灣信息技術(shù)博覽會上,Soul攜集成3D虛擬人能力的多模態(tài)AI交互方案亮相,在活動現(xiàn)場,觀眾可以通過數(shù)字裝置即時生成3D虛擬數(shù)字分身,通過實時動作捕捉與還原,體驗自然、流暢、沉浸式的多模態(tài)互動。

  接下來,Soul集合了3D虛擬人的多模態(tài)交互能力將陸續(xù)在站內(nèi)虛擬陪伴、群聊派對、游戲等多個場景落地,讓用戶通過創(chuàng)新技術(shù)的應(yīng)用在社交中充分展現(xiàn)自身鮮明的個性,精準(zhǔn)傳遞情緒溫度,在各種虛實融合的場景中與他人自在交流、互動,感受全新的互動體驗。

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復(fù)制
標(biāo)題鏈接已成功復(fù)制

最新新聞

熱門新聞