一種文檔解析方法與裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201510556440.X | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN106445910B | 公開(kāi)(公告)日 | 2019-04-12 |
申請(qǐng)公布號(hào) | CN106445910B | 申請(qǐng)公布日 | 2019-04-12 |
分類號(hào) | G06F17/27;G06F16/332 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張海東;莊秋敏 | 申請(qǐng)(專利權(quán))人 | 深圳市一覽網(wǎng)絡(luò)股份有限公司 |
代理機(jī)構(gòu) | 深圳新創(chuàng)友知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 深圳市一覽網(wǎng)絡(luò)股份有限公司 |
地址 | 518000 廣東省深圳市南山區(qū)高新區(qū)高新南七道006號(hào)深圳市數(shù)字技術(shù)園B2棟四樓A區(qū) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種文檔解析方法與裝置,該文檔解析方法包括以下步驟:S1、從原始文檔中提取文本內(nèi)容;S2、根據(jù)預(yù)設(shè)的分段識(shí)別符對(duì)文本內(nèi)容進(jìn)行分段,將分段后的文本內(nèi)容放入原始內(nèi)容堆棧;S3、依次取出原始內(nèi)容堆棧的棧點(diǎn)內(nèi)容,作為當(dāng)前棧點(diǎn)內(nèi)容;若當(dāng)前棧點(diǎn)內(nèi)容滿足某個(gè)匹配項(xiàng)對(duì)應(yīng)關(guān)鍵詞的匹配條件,稱當(dāng)前棧點(diǎn)為當(dāng)前匹配棧點(diǎn),當(dāng)前棧點(diǎn)作為某個(gè)匹配項(xiàng)的匹配起點(diǎn),當(dāng)前棧點(diǎn)內(nèi)容除去關(guān)鍵詞后的內(nèi)容以及往下遍歷的棧點(diǎn)內(nèi)容作為某個(gè)匹配項(xiàng)的匹配內(nèi)容,直到遇到下一匹配棧點(diǎn)時(shí),下一匹配棧點(diǎn)的上一棧點(diǎn)作為某個(gè)匹配項(xiàng)的匹配終點(diǎn)。本文檔解析方法能適應(yīng)多種格式文檔的內(nèi)容解析,提高了文檔解析精度,降低人工維護(hù)成本。 |
