一種網(wǎng)絡數(shù)據(jù)采集、存儲及處理方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201710302930.6 申請日 -
公開(公告)號 CN107273409B 公開(公告)日 2020-12-15
申請公布號 CN107273409B 申請公布日 2020-12-15
分類號 G06F16/951;G06F16/955 分類 計算;推算;計數(shù);
發(fā)明人 劉冶;張允聰;莫偉鑄;曾廣健;林志遠;李宏浩;鄭燕璇;印鑒 申請(專利權)人 廣州赫炎大數(shù)據(jù)科技有限公司
代理機構 廣州駿思知識產(chǎn)權代理有限公司 代理人 廣州赫炎大數(shù)據(jù)科技有限公司;中山大學
地址 510000 廣東省廣州市天河區(qū)棠東橫嶺一路3號A座四樓之二
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種網(wǎng)絡數(shù)據(jù)采集、存儲及處理方法,包括以下步驟:S1:對網(wǎng)絡數(shù)據(jù)進行采集;S2:對采集到的數(shù)據(jù)進行存儲;S3:將存儲的數(shù)據(jù)進行處理。其中,所述步驟S1中具體包括:S11:對URL進行存儲管理分析;S12:進行自動化任務調度;S13:生成并行化爬取任務,將抓取的HTML文件進行保存;S14:解析HTML文檔樹,提取需要的字段信息。本發(fā)明還提供了一種用于實現(xiàn)上述方法的網(wǎng)絡數(shù)據(jù)采集、存儲及處理系統(tǒng)。相比于現(xiàn)有技術,本發(fā)明可以實現(xiàn)了對網(wǎng)絡信息中有價值數(shù)據(jù)的采集,并通過離線解析文檔提取結構化信息,比現(xiàn)有的網(wǎng)絡數(shù)據(jù)采集裝置有更好的采集效率和穩(wěn)定性。