目標對象用內(nèi)容過濾方法

基本信息

申請?zhí)?/td> CN202210093056.0 申請日 -
公開(公告)號 CN114417820A 公開(公告)日 2022-04-29
申請公布號 CN114417820A 申請公布日 2022-04-29
分類號 G06F40/205(2020.01)I;G06F16/35(2019.01)I;G06K9/62(2022.01)I 分類 計算;推算;計數(shù);
發(fā)明人 金虎杰;陳德全 申請(專利權(quán))人 盟浪可持續(xù)數(shù)字科技(深圳)有限責任公司
代理機構(gòu) 深圳市博太聯(lián)眾專利代理事務(wù)所(特殊普通合伙) 代理人 任轉(zhuǎn)英
地址 518000廣東省深圳市前海深港合作區(qū)前灣一路1號A棟201室(入駐深圳市前海商務(wù)秘書有限公司)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了目標對象用內(nèi)容過濾方法,涉及文檔內(nèi)容提取技術(shù)領(lǐng)域,解決了現(xiàn)有技術(shù)不能實現(xiàn)對PDF文檔進行針對性分析,導(dǎo)致無法從PDF文檔中快速提取有效內(nèi)容的技術(shù)問題;為目標文檔匹配設(shè)置目標要素,根據(jù)目標要素對目標文檔進行劃分過濾,獲取目標內(nèi)容;本發(fā)明在讀取目標文檔后,結(jié)合目標文檔的類型標簽為其設(shè)置目標要素,既可以通過人工設(shè)定,也可以通過關(guān)聯(lián)關(guān)系進行自動設(shè)定,能夠滿足不同場景下對目標文檔的提取過濾要求,使得提取內(nèi)容更加符合用戶需求;本發(fā)明中的目標要素包括段落、章節(jié)、頁眉、頁腳等,針對不同類型標簽的目標文檔,設(shè)置了不同目標要素的組合,并為各要素匹配了對應(yīng)的處理方式,能夠保證對目標文檔提取的準確性。