基于特征關(guān)聯(lián)的公文文本識別方法和裝置

基本信息

申請?zhí)?/td> CN202011551817.X 申請日 -
公開(公告)號 CN112507968A 公開(公告)日 2021-03-16
申請公布號 CN112507968A 申請公布日 2021-03-16
分類號 G06F40/289(2020.01)I;G06K9/00(2006.01)I;G06F40/12(2020.01)I;G06F40/216(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 李巧;朱永強 申請(專利權(quán))人 成都網(wǎng)安科技發(fā)展有限公司
代理機構(gòu) 成都極刻智慧知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 唐維虎
地址 610000四川省成都市青羊區(qū)廣富路218號G區(qū)6棟C座
法律狀態(tài) -

摘要

摘要 本申請?zhí)峁┑幕谔卣麝P(guān)聯(lián)的公文文本識別方法和裝置,涉及文本識別技術(shù)領(lǐng)域。在本申請中,首先,基于公文文本具有的識別要素對待識別文本進行識別處理得到每一個識別要素的識別結(jié)果。其次,基于得到的識別結(jié)果構(gòu)建目標文本向量。然后,基于目標位置信息和權(quán)重系數(shù)分別對目標文本向量進行更新處理得到第一文本向量和第二文本向量,其中,目標位置信息包括目標文本向量中每一個第一識別值對應(yīng)的識別要素在待識別文本中的位置信息,權(quán)重系數(shù)基于對公文文本樣本進行處理得到。最后,基于第一文本向量、第二文本向量和文本概率閾值,確定待識別文本是否屬于公文文本。基于上述方法,可以改善基于現(xiàn)有技術(shù)難以對公文文本進行有效識別的問題。??