一種文檔解析方法與裝置

基本信息

申請?zhí)?/td> CN201510556440.X 申請日 -
公開(公告)號 CN106445910B 公開(公告)日 2019-04-12
申請公布號 CN106445910B 申請公布日 2019-04-12
分類號 G06F17/27;G06F16/332 分類 計算;推算;計數(shù);
發(fā)明人 張海東;莊秋敏 申請(專利權(quán))人 深圳市一覽網(wǎng)絡(luò)股份有限公司
代理機構(gòu) 深圳新創(chuàng)友知識產(chǎn)權(quán)代理有限公司 代理人 深圳市一覽網(wǎng)絡(luò)股份有限公司
地址 518000 廣東省深圳市南山區(qū)高新區(qū)高新南七道006號深圳市數(shù)字技術(shù)園B2棟四樓A區(qū)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種文檔解析方法與裝置,該文檔解析方法包括以下步驟:S1、從原始文檔中提取文本內(nèi)容;S2、根據(jù)預(yù)設(shè)的分段識別符對文本內(nèi)容進行分段,將分段后的文本內(nèi)容放入原始內(nèi)容堆棧;S3、依次取出原始內(nèi)容堆棧的棧點內(nèi)容,作為當(dāng)前棧點內(nèi)容;若當(dāng)前棧點內(nèi)容滿足某個匹配項對應(yīng)關(guān)鍵詞的匹配條件,稱當(dāng)前棧點為當(dāng)前匹配棧點,當(dāng)前棧點作為某個匹配項的匹配起點,當(dāng)前棧點內(nèi)容除去關(guān)鍵詞后的內(nèi)容以及往下遍歷的棧點內(nèi)容作為某個匹配項的匹配內(nèi)容,直到遇到下一匹配棧點時,下一匹配棧點的上一棧點作為某個匹配項的匹配終點。本文檔解析方法能適應(yīng)多種格式文檔的內(nèi)容解析,提高了文檔解析精度,降低人工維護成本。