一種網(wǎng)頁表格數(shù)據(jù)通用抓取方法
基本信息
申請?zhí)?/td> | CN202011599380.7 | 申請日 | - |
公開(公告)號 | CN112685619A | 公開(公告)日 | 2021-04-20 |
申請公布號 | CN112685619A | 申請公布日 | 2021-04-20 |
分類號 | G06F16/951(2019.01)I;G06F16/955(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 曹肖林;許琳逸 | 申請(專利權(quán))人 | 江蘇樂道胡巴投資管理有限公司 |
代理機構(gòu) | 北京艾皮專利代理有限公司 | 代理人 | 馬小輝 |
地址 | 214000江蘇省無錫市濱湖區(qū)建筑西路599號A幢1226室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明適用于計算機技術(shù)領(lǐng)域,提供了一種網(wǎng)頁表格數(shù)據(jù)通用抓取方法;其應(yīng)用于網(wǎng)頁表格數(shù)據(jù)通用抓取系統(tǒng),包括以下處理步驟:獲取用戶輸入的自定義抓取內(nèi)容特征;獲取網(wǎng)站的配置文件信息,通過網(wǎng)站的配置文件信息獲取個頁面的URL路徑信息,進一步的獲取各頁面的數(shù)據(jù);對頁面信息進行解析,獲取表格數(shù)據(jù),將表格數(shù)據(jù)和含有表格數(shù)據(jù)的該頁面網(wǎng)絡(luò)鏈接儲存至數(shù)據(jù)庫中;對數(shù)據(jù)庫中的表格數(shù)據(jù)進行比對,將相同數(shù)據(jù)進行剔除;然后對剔除后的表格數(shù)據(jù)進行分類排列、展示。?? |
