一種多模態(tài)樂(lè)曲標(biāo)題生成方法、裝置及存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202110217438.5 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN112905835A | 公開(kāi)(公告)日 | 2021-06-04 |
申請(qǐng)公布號(hào) | CN112905835A | 申請(qǐng)公布日 | 2021-06-04 |
分類號(hào) | G06F16/683;G06F16/35;G06F16/65;G06N3/04 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 尹學(xué)淵;馬星宇;江天宇 | 申請(qǐng)(專利權(quán))人 | 成都潛在人工智能科技有限公司 |
代理機(jī)構(gòu) | 成都睿道專利代理事務(wù)所(普通合伙) | 代理人 | 賀理興 |
地址 | 610000 四川省成都市高新區(qū)益州大道中段722號(hào)1棟1單元12層1210號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種多模態(tài)樂(lè)曲標(biāo)題生成方法、裝置及存儲(chǔ)介質(zhì),包括:獲取待生成標(biāo)題的樂(lè)曲文件中的音頻數(shù)據(jù)對(duì)應(yīng)的梅爾頻譜特征;通過(guò)樂(lè)曲特征提取器根據(jù)所述梅爾頻譜特征生成對(duì)應(yīng)的音頻特征向量矩陣;獲取所述樂(lè)曲文件的文本數(shù)據(jù),并輸入自回歸語(yǔ)言模型;通過(guò)特征融合模塊獲取所述自回歸語(yǔ)言模型中預(yù)設(shè)卷積塊層輸出的文本向量矩陣,對(duì)所述音頻特征向量矩陣和所述文本向量矩陣進(jìn)行幾何特性對(duì)齊,并映射到同一分布空間后進(jìn)行拼接,得到對(duì)應(yīng)的融合向量矩陣;通過(guò)所述自回歸語(yǔ)言模型中預(yù)設(shè)卷積塊層后的各個(gè)卷積塊層對(duì)所述融合向量矩陣進(jìn)行處理后從輸出層輸出若干個(gè)樂(lè)曲標(biāo)題,所述輸出層包括概率輸出層和采樣算法處理層。 |
