一種自動化網(wǎng)絡數(shù)據(jù)采集方法
基本信息
申請?zhí)?/td> | CN202210003707.2 | 申請日 | - |
公開(公告)號 | CN114329145A | 公開(公告)日 | 2022-04-12 |
申請公布號 | CN114329145A | 申請公布日 | 2022-04-12 |
分類號 | G06F16/951(2019.01)I;G06F16/955(2019.01)I;G06F16/27(2019.01)I;G06F16/2455(2019.01)I;G06F16/23(2019.01)I;G06F9/48(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 武亞洲;王治勝;童曦 | 申請(專利權)人 | 陜西數(shù)圖行信息科技有限公司 |
代理機構 | - | 代理人 | - |
地址 | 710000陜西省西安市高新區(qū)丈八一路10號中鐵西安中心1棟29層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及網(wǎng)絡數(shù)據(jù)技術領域,公開了一種自動化網(wǎng)絡數(shù)據(jù)采集方法,所述采集方法包括:S1、對網(wǎng)絡數(shù)據(jù)進行采集,得到原始網(wǎng)頁;S2、對原始網(wǎng)頁進行數(shù)據(jù)提取,得到解析后網(wǎng)頁;S3、對解析后網(wǎng)頁進行去空、去錯、去重復、歸一化及殘缺值補充處理,得到處理后數(shù)據(jù);S4、對處理后數(shù)據(jù)進行存儲;S5、對存儲的數(shù)據(jù)進行處理。本發(fā)明的自動化網(wǎng)絡數(shù)據(jù)采集方法能夠對第三平臺公開的數(shù)據(jù)進行24小時不間斷采集,支持分鐘級別第三方平臺數(shù)據(jù)檢索同步,多個站點增量部分數(shù)據(jù)更新能做到秒級更新,無需人工監(jiān)管,同時通過關鍵詞檢索配置,可實現(xiàn)自動化檢索的同時過濾掉無關內(nèi)容,提高精準度,實現(xiàn)無監(jiān)督、無遺漏、快速可迭代式數(shù)據(jù)采集。 |
