迭代式大規(guī)模發(fā)音詞典構(gòu)建方法及裝置

基本信息

申請?zhí)?/td> CN202110178948.6 申請日 -
公開(公告)號 CN112530414B 公開(公告)日 2021-05-25
申請公布號 CN112530414B 申請公布日 2021-05-25
分類號 G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L15/16(2006.01)I 分類 -
發(fā)明人 王治愚;王大亮;王麗媛;齊紅威 申請(專利權(quán))人 數(shù)據(jù)堂(北京)科技股份有限公司
代理機(jī)構(gòu) 北京三友知識產(chǎn)權(quán)代理有限公司 代理人 侯天印;郝博
地址 100192北京市海淀區(qū)寶盛南路1號院11號樓1層101-01
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種迭代式大規(guī)模發(fā)音詞典構(gòu)建方法及裝置,其中該方法包括:根據(jù)文本生數(shù)據(jù)生成詞條序列;根據(jù)音頻生數(shù)據(jù)生成音標(biāo)序列;根據(jù)詞條序列,利用G2P模型生成二元組<詞條,音標(biāo)>;根據(jù)音標(biāo)序列,利用P2G模型生成二元組<音標(biāo),詞條>;計(jì)算兩個二元組之間的匹配度,并與預(yù)設(shè)匹配度進(jìn)行比較,對匹配度小于預(yù)設(shè)匹配度對應(yīng)的二元組<詞條,音標(biāo)>和二元組<音標(biāo),詞條>進(jìn)行鑒別性樣本抽取,獲得鑒別性樣本;獲取領(lǐng)域?qū)<覍﹁b別性樣本的標(biāo)注和校正,將標(biāo)注和校正后的二元組<詞條,音標(biāo)>和二元組<音標(biāo),詞條>存入多層次大規(guī)模發(fā)音詞典。本發(fā)明能夠快速有效地構(gòu)建大規(guī)模發(fā)音詞典,提升語音識別系統(tǒng)的工作效率并降低人工成本。??