一種語料獲取方法及裝置
基本信息
申請?zhí)?/td> | CN202110019112.1 | 申請日 | - |
公開(公告)號 | CN112863490A | 公開(公告)日 | 2021-05-28 |
申請公布號 | CN112863490A | 申請公布日 | 2021-05-28 |
分類號 | G10L25/51(2013.01)I;G10L15/04(2013.01)I;G10L15/26(2006.01)I;G10L15/06(2013.01)I | 分類 | 樂器;聲學(xué); |
發(fā)明人 | 馬金龍;熊佳;汪暾;羅簫;焦南凱;徐志堅(jiān);謝睿;陳光堯 | 申請(專利權(quán))人 | 廣州歡城文化傳媒有限公司 |
代理機(jī)構(gòu) | 北京集佳知識產(chǎn)權(quán)代理有限公司 | 代理人 | 楊小紅 |
地址 | 510000廣東省廣州市天河區(qū)黃埔大道西122號之二1901房 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請公開了一種語料獲取方法及裝置,方法包括:獲取語音樣本;過濾語音樣本中的截?cái)嗾Z音以及無效語音,獲取合格的語音樣本;對合格的語音樣本進(jìn)行多次語音識別,得到多個對應(yīng)的語音文本;將多個語音文本進(jìn)行比對,得到相似度得分;若相似度得分大于預(yù)設(shè)的相似度閾值,則將大于相似度閾值的語音樣本作為待標(biāo)注語音樣本,并將文字內(nèi)容最長的語音文本作為待標(biāo)注語音文本;將待標(biāo)注語音文本進(jìn)行人工標(biāo)注,得到標(biāo)注樣本。解決了現(xiàn)有技術(shù)獲取訓(xùn)練用的語音樣本時(shí)間周期長,花費(fèi)成本高的技術(shù)問題。?? |
