基于深度學(xué)習(xí)的語音驅(qū)動(dòng)3D虛擬人表情音畫同步方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN202010633313.6 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN112001992A | 公開(公告)日 | 2020-11-27 |
申請(qǐng)公布號(hào) | CN112001992A | 申請(qǐng)公布日 | 2020-11-27 |
分類號(hào) | G06T13/40(2011.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 梁宏華;彭超 | 申請(qǐng)(專利權(quán))人 | 超維視界(北京)傳媒科技有限公司 |
代理機(jī)構(gòu) | 北京君尚知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 邱曉鋒 |
地址 | 100123北京市朝陽區(qū)望京東園四區(qū)13號(hào)樓-4至33層101內(nèi)17層17B8001室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于深度學(xué)習(xí)的語音驅(qū)動(dòng)3D虛擬人表情音畫同步方法及系統(tǒng)。該方法包括:提取語音信號(hào)中的對(duì)數(shù)幅度譜,作為語音信號(hào)特征;將語音信號(hào)特征輸入訓(xùn)練完成的參數(shù)預(yù)測(cè)模型,該參數(shù)預(yù)測(cè)模型輸出表情參數(shù)值;其中的參數(shù)預(yù)測(cè)模型是利用視頻數(shù)據(jù)中語音信號(hào)與圖像信號(hào)的天然的標(biāo)簽對(duì)關(guān)系訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型;對(duì)參數(shù)預(yù)測(cè)模型輸出的表情參數(shù)值進(jìn)行濾波;利用濾波后的表情參數(shù)值進(jìn)行3D人物模型的圖像渲染,實(shí)現(xiàn)3D虛擬人表情音畫同步。該系統(tǒng)包括視頻解析模塊、參數(shù)提取模塊、語音合成模塊、語音信號(hào)處理模塊、參數(shù)預(yù)測(cè)模塊、參數(shù)濾波模塊和渲染模塊。本發(fā)明通過學(xué)習(xí)大量的人臉視頻數(shù)據(jù)提升了虛擬人口唇效果,使得其更加自然,更像人。?? |
