電子文件的頁眉頁腳識別方法、裝置、設備和介質
基本信息
申請?zhí)?/td> | CN202011262354.5 | 申請日 | - |
公開(公告)號 | CN112329426A | 公開(公告)日 | 2021-02-05 |
申請公布號 | CN112329426A | 申請公布日 | 2021-02-05 |
分類號 | G06F40/194(2020.01)I;G06F16/903(2019.01)I | 分類 | 計算;推算;計數; |
發(fā)明人 | 王雪峰;林好;謝浩 | 申請(專利權)人 | 北京方正印捷數碼技術有限公司 |
代理機構 | 北京同立鈞成知識產權代理有限公司 | 代理人 | 張寧;臧建明 |
地址 | 100089北京市海淀區(qū)上地五街9號1號方正大廈211 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請?zhí)峁┮环N電子文件的頁眉頁腳識別方法、裝置、設備和介質,通過獲取待分析的兩個文件,兩個文件中的一個文件是基于兩個文件中的另一個文件得到的;之后對文件集合中的每一文件中跨頁的字符進行多次剔除處理,得到每一文件中跨頁的每一剩余字符串;確定文件集合中一個文件中跨頁的每一剩余字符串、文件集合中另一個文件中跨頁的每一剩余字符串,兩者之間的相似度;確定各相似度中的最大相似度,并確定每一文件中跨頁中與最大相似度對應的剔除掉的字符,為每一文件中跨頁的頁眉頁腳,重復上述步驟對每一跨頁進行識別。通過上述方法,可以提高頁眉頁腳識別的速度,節(jié)省系統(tǒng)占用資源,提高識別的準確度。?? |
