一種網(wǎng)絡數(shù)據(jù)采集、存儲及處理方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201710302930.6 | 申請日 | - |
公開(公告)號 | CN107273409B | 公開(公告)日 | 2020-12-15 |
申請公布號 | CN107273409B | 申請公布日 | 2020-12-15 |
分類號 | G06F16/951;G06F16/955 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 劉冶;張允聰;莫偉鑄;曾廣健;林志遠;李宏浩;鄭燕璇;印鑒 | 申請(專利權)人 | 廣州赫炎大數(shù)據(jù)科技有限公司 |
代理機構 | 廣州駿思知識產(chǎn)權代理有限公司 | 代理人 | 廣州赫炎大數(shù)據(jù)科技有限公司;中山大學 |
地址 | 510000 廣東省廣州市天河區(qū)棠東橫嶺一路3號A座四樓之二 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種網(wǎng)絡數(shù)據(jù)采集、存儲及處理方法,包括以下步驟:S1:對網(wǎng)絡數(shù)據(jù)進行采集;S2:對采集到的數(shù)據(jù)進行存儲;S3:將存儲的數(shù)據(jù)進行處理。其中,所述步驟S1中具體包括:S11:對URL進行存儲管理分析;S12:進行自動化任務調度;S13:生成并行化爬取任務,將抓取的HTML文件進行保存;S14:解析HTML文檔樹,提取需要的字段信息。本發(fā)明還提供了一種用于實現(xiàn)上述方法的網(wǎng)絡數(shù)據(jù)采集、存儲及處理系統(tǒng)。相比于現(xiàn)有技術,本發(fā)明可以實現(xiàn)了對網(wǎng)絡信息中有價值數(shù)據(jù)的采集,并通過離線解析文檔提取結構化信息,比現(xiàn)有的網(wǎng)絡數(shù)據(jù)采集裝置有更好的采集效率和穩(wěn)定性。 |
