創(chuàng)新3D虛擬人交互方案受認(rèn)可，Soul App多模驅(qū)動研究論文入選ICCGV 2025

2024/11/21 12:36 IT產(chǎn)業(yè)網(wǎng) [No.S073]

　　近日，2025年第八屆計算機(jī)圖形和虛擬國際會議(ICCGV 2025)公布論文收錄結(jié)果，社交平臺Soul App研究成果《LLM Gesticulator: Leveraging Large Language Models for Scalable and Controllable Co-Speech Gesture Synthesis》(LLM Gesticulator：利用大語言模型實現(xiàn)可擴(kuò)展且可控的協(xié)同手勢合成)入選。

　　計算機(jī)圖形和虛擬國際會議聚焦計算機(jī)圖形學(xué)與虛擬現(xiàn)實技術(shù)。在人工智能技術(shù)實現(xiàn)突破式發(fā)展，推動虛擬現(xiàn)實方向進(jìn)入新階段的當(dāng)下，大會關(guān)注虛擬現(xiàn)實環(huán)境/增強(qiáng)現(xiàn)實/混合現(xiàn)實、人機(jī)交互和高級交互等領(lǐng)域，計算機(jī)圖形學(xué)與虛擬現(xiàn)實技術(shù)的最新科研成果和產(chǎn)業(yè)發(fā)展對人類認(rèn)知世界、交互體驗的深刻影響，也吸引了全球頂尖學(xué)者、行業(yè)精英及創(chuàng)新先鋒，共同探討技術(shù)的進(jìn)步，攜手助力產(chǎn)學(xué)研聯(lián)動。

　　Soul論文核心亮點(diǎn)為在行業(yè)內(nèi)首次提出使用大模型作為基底模型實現(xiàn)虛擬人的多模態(tài)驅(qū)動，并實現(xiàn)了各項指標(biāo)超過之前的最佳方案。此次論文入選，也意味著作為致力于以技術(shù)和產(chǎn)品模式創(chuàng)新提升年輕一代交互體驗的社交平臺，Soul的底層技術(shù)能力建設(shè)和探索方向得到了行業(yè)和學(xué)界的認(rèn)可。

　　事實上，堅持以技術(shù)驅(qū)動創(chuàng)新，Soul自2016年上線后便注重AI、虛擬人、虛擬與現(xiàn)實融合等方向的技術(shù)能力建設(shè)。

　　特別是為了降低用戶社交壓力，Soul不支持用戶上傳真實頭像，年輕人通過平臺提供的捏臉系統(tǒng)，自主創(chuàng)造個性化虛擬形象。

　　此前，Soul集成AI、渲染和圖像處理等技術(shù)，推出了自研的NAWA引擎，為用戶創(chuàng)建個性化的3D社交形象和場景提供技術(shù)支持。2020年，Soul正式啟動對AIGC的技術(shù)研發(fā)工作，系統(tǒng)推進(jìn)在智能對話、語音技術(shù)、3D虛擬人等AIGC關(guān)鍵技術(shù)能力研發(fā)工作，并推動AI能力在社交場景的快速落地。

　　目前，Soul已先后上線了自研語言大模型Soul X，以及語音生成大模型、語音識別大模型、語音對話大模型、音樂生成大模型等語音大模型能力。2024年，Soul AI大模型能力整體升級為多模態(tài)端到端大模型，支持文字對話、語音通話、多語種、多模態(tài)理解、真實擬人等特性，真正實現(xiàn)更接近生活日常的交互對話和“類真人”的情感陪伴體驗。

　　沿著多模態(tài)融合的方向，Soul團(tuán)隊希望能夠集成3D虛擬人能力創(chuàng)新多模態(tài)AI交互方案，為用戶提供更加沉浸、自然、流暢、智能的互動體驗。相關(guān)負(fù)責(zé)人表示，“3D虛擬人是多模態(tài)中的重要組成部分和效果的豐富化呈現(xiàn)，社交則是3D虛擬人落地的最佳自然場景之一，Soul自身具備完整的多模態(tài)團(tuán)隊、3D虛擬人/AI能力積累和深耕社交場景的洞察，團(tuán)隊有機(jī)會在此領(lǐng)域形成創(chuàng)新方案和競爭壁壘。”

　　《LLM Gesticulator: Leveraging Large Language Models for Scalable and Controllable Co-Speech Gesture Synthesis》一文中匯聚了Soul在此方向的最新研究成果，展現(xiàn)了3D虛擬形象、肢體動作、文字、語言、視覺等多維度真正多模態(tài)融合實現(xiàn)的可能性。

　　首先，團(tuán)隊首次提出使用大語言模型作為基座模型實現(xiàn)3D虛擬人的多模態(tài)驅(qū)動方案，其展現(xiàn)出了極高的可控性和可拓展性，并且實驗表明該模型在動畫質(zhì)量、動畫相關(guān)性、節(jié)奏匹配度和文本匹配度等多個指標(biāo)上都超過了以往方案。

　　此外，過往行業(yè)方案中大多只支持單一模態(tài)的驅(qū)動，Soul團(tuán)隊對模型進(jìn)行了特殊設(shè)計，使得模型可以同時支持文本+音頻的輸入，并能夠生成和音頻節(jié)奏和文本語意都符合的動畫數(shù)據(jù)。

　　最后，團(tuán)隊還探索了一種基于視覺大模型的自動化數(shù)據(jù)標(biāo)注范式，提供了新的數(shù)據(jù)標(biāo)注思路。

　　高度重視技術(shù)能力建設(shè)，2024年Soul多個技術(shù)研究成果獲得學(xué)界和行業(yè)肯定。8月，平臺研究成果《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(基于視覺語言提示與模態(tài)暫退的多模態(tài)情感識別)，入選ACM國際多媒體會議(ACM MM 2024)上組織的多模態(tài)與可靠性情感計算研討會MRAC 24(Multimodal, Generative and Responsible Affective Computing 2024)，該論文重點(diǎn)介紹了Soul團(tuán)隊為提高情緒識別的準(zhǔn)確性和泛化性能，提出的多模態(tài)情緒識別方法。

　　夯實技術(shù)基建的同時，Soul始終強(qiáng)調(diào)推動AI能力在社交場景的快速落地，目前Soul大模型能力和創(chuàng)新互動方案已在智能對話機(jī)器人“AI茍蛋”、狼人殺Agent、數(shù)字分身和最新的AI虛擬人智能陪伴功能等場景應(yīng)用。

　　在今年10月舉辦的全球三大IT展之一—— GITEX GLOBAL海灣信息技術(shù)博覽會上，Soul攜集成3D虛擬人能力的多模態(tài)AI交互方案亮相，在活動現(xiàn)場，觀眾可以通過數(shù)字裝置即時生成3D虛擬數(shù)字分身，通過實時動作捕捉與還原，體驗自然、流暢、沉浸式的多模態(tài)互動。

　　接下來，Soul集合了3D虛擬人的多模態(tài)交互能力將陸續(xù)在站內(nèi)虛擬陪伴、群聊派對、游戲等多個場景落地，讓用戶通過創(chuàng)新技術(shù)的應(yīng)用在社交中充分展現(xiàn)自身鮮明的個性，精準(zhǔn)傳遞情緒溫度，在各種虛實融合的場景中與他人自在交流、互動，感受全新的互動體驗。

　　榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復(fù)制

標(biāo)題鏈接已成功復(fù)制

最新四色米奇影视777在线看_暴躁少女csgo视频一_中文字幕乱码中文乱码_有什么好看的小说推荐_亚洲一卡2卡三卡4卡高清_国产成人精品无码免费看_成人免费120分钟啪啪_两性午夜刺激爽爽视频_国产成人av在线免播放app

創(chuàng)新3D虛擬人交互方案受認(rèn)可，Soul App多模驅(qū)動研究論文入選ICCGV 2025

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

最新四色米奇影视777在线看_暴躁少女csgo视频一_中文字幕乱码中文乱码_有什么好看的小说推荐_亚洲一卡2卡三卡4卡高清_国产成人精品无码免费看_成人免费120分钟啪啪_两性午夜刺激爽爽视频_国产成人av在线免播放app

創(chuàng)新3D虛擬人交互方案受認(rèn)可，Soul App多模驅(qū)動研究論文入選ICCGV 2025

相關(guān)閱讀

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題