目標對象用內(nèi)容過濾方法
基本信息
申請?zhí)?/td> | CN202210093056.0 | 申請日 | - |
公開(公告)號 | CN114417820A | 公開(公告)日 | 2022-04-29 |
申請公布號 | CN114417820A | 申請公布日 | 2022-04-29 |
分類號 | G06F40/205(2020.01)I;G06F16/35(2019.01)I;G06K9/62(2022.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 金虎杰;陳德全 | 申請(專利權(quán))人 | 盟浪可持續(xù)數(shù)字科技(深圳)有限責任公司 |
代理機構(gòu) | 深圳市博太聯(lián)眾專利代理事務(wù)所(特殊普通合伙) | 代理人 | 任轉(zhuǎn)英 |
地址 | 518000廣東省深圳市前海深港合作區(qū)前灣一路1號A棟201室(入駐深圳市前海商務(wù)秘書有限公司) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了目標對象用內(nèi)容過濾方法,涉及文檔內(nèi)容提取技術(shù)領(lǐng)域,解決了現(xiàn)有技術(shù)不能實現(xiàn)對PDF文檔進行針對性分析,導(dǎo)致無法從PDF文檔中快速提取有效內(nèi)容的技術(shù)問題;為目標文檔匹配設(shè)置目標要素,根據(jù)目標要素對目標文檔進行劃分過濾,獲取目標內(nèi)容;本發(fā)明在讀取目標文檔后,結(jié)合目標文檔的類型標簽為其設(shè)置目標要素,既可以通過人工設(shè)定,也可以通過關(guān)聯(lián)關(guān)系進行自動設(shè)定,能夠滿足不同場景下對目標文檔的提取過濾要求,使得提取內(nèi)容更加符合用戶需求;本發(fā)明中的目標要素包括段落、章節(jié)、頁眉、頁腳等,針對不同類型標簽的目標文檔,設(shè)置了不同目標要素的組合,并為各要素匹配了對應(yīng)的處理方式,能夠保證對目標文檔提取的準確性。 |
