電子文件的頁(yè)眉頁(yè)腳識(shí)別方法、裝置、設(shè)備和介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202011262354.5 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN112329426A | 公開(kāi)(公告)日 | 2021-02-05 |
申請(qǐng)公布號(hào) | CN112329426A | 申請(qǐng)公布日 | 2021-02-05 |
分類(lèi)號(hào) | G06F40/194(2020.01)I;G06F16/903(2019.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王雪峰;林好;謝浩 | 申請(qǐng)(專(zhuān)利權(quán))人 | 北京方正印捷數(shù)碼技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 張寧;臧建明 |
地址 | 100089北京市海淀區(qū)上地五街9號(hào)1號(hào)方正大廈211 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請(qǐng)?zhí)峁┮环N電子文件的頁(yè)眉頁(yè)腳識(shí)別方法、裝置、設(shè)備和介質(zhì),通過(guò)獲取待分析的兩個(gè)文件,兩個(gè)文件中的一個(gè)文件是基于兩個(gè)文件中的另一個(gè)文件得到的;之后對(duì)文件集合中的每一文件中跨頁(yè)的字符進(jìn)行多次剔除處理,得到每一文件中跨頁(yè)的每一剩余字符串;確定文件集合中一個(gè)文件中跨頁(yè)的每一剩余字符串、文件集合中另一個(gè)文件中跨頁(yè)的每一剩余字符串,兩者之間的相似度;確定各相似度中的最大相似度,并確定每一文件中跨頁(yè)中與最大相似度對(duì)應(yīng)的剔除掉的字符,為每一文件中跨頁(yè)的頁(yè)眉頁(yè)腳,重復(fù)上述步驟對(duì)每一跨頁(yè)進(jìn)行識(shí)別。通過(guò)上述方法,可以提高頁(yè)眉頁(yè)腳識(shí)別的速度,節(jié)省系統(tǒng)占用資源,提高識(shí)別的準(zhǔn)確度。?? |
