一種海量音頻數(shù)據(jù)中的字符串快速模糊匹配算法

基本信息

申請?zhí)?/td> CN201610848974.4 申請日 -
公開(公告)號 CN106528599B 公開(公告)日 2019-05-14
申請公布號 CN106528599B 申請公布日 2019-05-14
分類號 G06F16/683(2019.01)I; G06F16/9032(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 田學(xué)紅; 朱曉明; 于拾全 申請(專利權(quán))人 深圳凡豆信息科技有限公司
代理機(jī)構(gòu) 廣州恒華智信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 深圳凡豆信息科技有限公司
地址 518000 廣東省深圳市南山區(qū)前海深港青年夢工場7棟110室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種字符串的快速模糊匹配算法。本發(fā)明首先對數(shù)據(jù)庫中的文本進(jìn)行數(shù)據(jù)的預(yù)處理,從而獲得統(tǒng)計模型,并通過Hash建立索引。輸入文本是一個較短的字符串,本發(fā)明遍歷其中所有漢字,激活有限字符全集中對應(yīng)漢字的位置。將有限字符全集的激活狀態(tài)映射到每一個標(biāo)簽上,從而達(dá)到過濾標(biāo)簽的目的。對過濾出來的少量標(biāo)簽進(jìn)行與文本的匹配,用DTW算法進(jìn)行近似字符串匹配。根據(jù)匹配近似度結(jié)果進(jìn)行打分,并排序,返回搜索到的結(jié)果。本發(fā)明通過高效的標(biāo)簽過濾方法,大幅度地提升了字符串匹配算法的計算效率;同時在對輸入文本進(jìn)行匹配的過程中,達(dá)到模糊匹配的效果,對于模糊語言也具有很好的匹配性能。