具有三維骨架正則化和表示性身體姿勢(shì)的個(gè)性化語(yǔ)音到視頻
基本信息
申請(qǐng)?zhí)?/td> | CN202080005083.7 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN114144790A | 公開(kāi)(公告)日 | 2022-03-04 |
申請(qǐng)公布號(hào) | CN114144790A | 申請(qǐng)公布日 | 2022-03-04 |
分類(lèi)號(hào) | G06K9/00(2006.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G10L21/10(2013.01)I;G10L25/30(2013.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 廖淼;張思博;王鵬;楊睿剛 | 申請(qǐng)(專(zhuān)利權(quán))人 | 百度時(shí)代網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
代理機(jī)構(gòu) | 北京英賽嘉華知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 | 代理人 | 王達(dá)佐;王艷春 |
地址 | 100080北京市海淀區(qū)東北旺西路8號(hào)中關(guān)村軟件園17號(hào)樓二層A2 | ||
法律狀態(tài) | - |
摘要
摘要 | 本文提出了是用于將給定的語(yǔ)音音頻或文本轉(zhuǎn)換為具有同步的、真實(shí)的、具有表現(xiàn)性的身體動(dòng)力學(xué)的人逼真說(shuō)話(huà)的視頻的新穎的實(shí)施例。在一個(gè)或多個(gè)實(shí)施例中,使用遞歸神經(jīng)網(wǎng)絡(luò)從音頻序列生成3D骨架運(yùn)動(dòng),并且經(jīng)由有條件的生成對(duì)抗網(wǎng)絡(luò)合成輸出視頻。為了使運(yùn)動(dòng)逼真和具有表現(xiàn)性,可以在學(xué)習(xí)和測(cè)試管道中的生成過(guò)程中嵌入對(duì)關(guān)節(jié)式3D人體骨架和個(gè)人語(yǔ)音標(biāo)志性姿勢(shì)的學(xué)習(xí)字典的知識(shí)。前者防止產(chǎn)生不合理的身體變形,后者幫助模型利用較少的視頻來(lái)快速學(xué)習(xí)有意義的身體運(yùn)動(dòng)。為了產(chǎn)生具有運(yùn)動(dòng)細(xì)節(jié)的逼真的高分辨率視頻,在有條件的GAN中插入部分注意機(jī)制,其中每個(gè)具體部分被自動(dòng)放大以具有它們自己的鑒別器。 |
