一種適用于法律熱線語音識(shí)別的文本糾錯(cuò)和補(bǔ)全方法
基本信息
申請?zhí)?/td> | CN202011357749.3 | 申請日 | - |
公開(公告)號(hào) | CN112183073A | 公開(公告)日 | 2021-01-05 |
申請公布號(hào) | CN112183073A | 申請公布日 | 2021-01-05 |
分類號(hào) | G06F40/232(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 鄭茂盛 | 申請(專利權(quán))人 | 北京擎盾信息科技有限公司 |
代理機(jī)構(gòu) | 北京中政聯(lián)科專利代理事務(wù)所(普通合伙) | 代理人 | 北京擎盾信息科技有限公司 |
地址 | 100070北京市豐臺(tái)區(qū)南四環(huán)西路188號(hào)十八區(qū)25號(hào)樓101內(nèi)6層601室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種適用于法律熱線語音識(shí)別的文本糾錯(cuò)和補(bǔ)全方法,包括:對語音識(shí)別的初始文本分詞并注音,得到待糾錯(cuò)文本;計(jì)算待糾錯(cuò)文本與法律詞匯的編輯距離,將待糾錯(cuò)文本進(jìn)行預(yù)測,得到第一概率預(yù)測值;將編輯距離值、關(guān)聯(lián)語義權(quán)重值和第一概率預(yù)測值使用打分法進(jìn)行加權(quán)打分,得到第一分?jǐn)?shù)和第二分?jǐn)?shù);根據(jù)第一分?jǐn)?shù)判斷是否需要糾錯(cuò),并進(jìn)行糾正;根據(jù)第二分?jǐn)?shù)判斷是否需要補(bǔ)全,并補(bǔ)全文本。采用預(yù)訓(xùn)練語言模型和編輯距離的計(jì)算,可以針對性解決法律領(lǐng)域的語音識(shí)別錯(cuò)漏問題,進(jìn)行有效的糾錯(cuò)。另外,本發(fā)明在進(jìn)行語音識(shí)別糾錯(cuò)的同時(shí),對法律領(lǐng)域的語音識(shí)別文本進(jìn)行補(bǔ)全,將語音識(shí)別文本的語義補(bǔ)充完整,方便后續(xù)的理解與使用。?? |
