一種文件檢測方法及其裝置
基本信息
申請?zhí)?/td> | CN201711344713.X | 申請日 | - |
公開(公告)號 | CN107908602A | 公開(公告)日 | 2018-04-13 |
申請公布號 | CN107908602A | 申請公布日 | 2018-04-13 |
分類號 | G06F17/22;G06Q10/10 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王爽;鄭錦光;張夢迪;吳珂皓;張白駒;社會(huì)芳 | 申請(專利權(quán))人 | 北京文因互聯(lián)科技有限公司 |
代理機(jī)構(gòu) | 北京中企鴻陽知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 郭鴻雁 |
地址 | 100016 北京市朝陽區(qū)向軍北里28號院圣世一品B5-6A | ||
法律狀態(tài) | - |
摘要
摘要 | 一種文件檢測方法,包括:S1:通過解析二進(jìn)制指令,將PDF文件的內(nèi)容解析為帶標(biāo)記的文本、表格和圖片,同時(shí)記錄文字的字體和字號信息,表格和圖片的位置信息;S2:根據(jù)解析后的文檔的字號大小得到相應(yīng)章節(jié)的層級,根據(jù)層級的高低配置章節(jié)的層級根節(jié)點(diǎn)及子節(jié)點(diǎn)建立文檔章節(jié)樹;S3:根據(jù)監(jiān)管機(jī)構(gòu)要求披露的信息建立規(guī)則執(zhí)行庫;S4:根據(jù)監(jiān)管機(jī)構(gòu)要求披露的信息的章節(jié)建立根節(jié)點(diǎn)及子節(jié)點(diǎn),并根據(jù)相應(yīng)節(jié)點(diǎn)下的規(guī)則執(zhí)行庫的信息建立文檔規(guī)則樹;S5:將文檔規(guī)則樹與文檔章節(jié)樹進(jìn)行匹配,對文本內(nèi)容按照相應(yīng)的規(guī)則樹下的根節(jié)點(diǎn)及子節(jié)點(diǎn)的規(guī)則執(zhí)行庫進(jìn)行比對;S6:輸出文檔中與規(guī)則執(zhí)行庫不符的內(nèi)容。 |
