一種基于網(wǎng)絡(luò)爬蟲(chóng)的數(shù)據(jù)處理方法、系統(tǒng)及云平臺(tái)
基本信息
申請(qǐng)?zhí)?/td> | CN202011618649.1 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN112380418A | 公開(kāi)(公告)日 | 2021-07-16 |
申請(qǐng)公布號(hào) | CN112380418A | 申請(qǐng)公布日 | 2021-07-16 |
分類(lèi)號(hào) | G06F16/951;G06F16/27 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 詹能勇;劉振宇 | 申請(qǐng)(專(zhuān)利權(quán))人 | 廣州智云尚大數(shù)據(jù)科技有限公司 |
代理機(jī)構(gòu) | 東莞市浩宇專(zhuān)利代理事務(wù)所(普通合伙) | 代理人 | 石巖麗 |
地址 | 510700 廣東省廣州市黃埔區(qū)豐樂(lè)中路68號(hào)7樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及互聯(lián)網(wǎng)與數(shù)據(jù)處理技術(shù)領(lǐng)域,具體而言,涉及一種基于網(wǎng)絡(luò)爬蟲(chóng)的數(shù)據(jù)處理方法、系統(tǒng)及云平臺(tái)。本發(fā)明通過(guò)獲取用戶(hù)輸入的網(wǎng)頁(yè)爬蟲(chóng)指令,網(wǎng)頁(yè)爬蟲(chóng)指令包括目標(biāo)網(wǎng)頁(yè)信息和爬取對(duì)象集合,然后獲取與目標(biāo)網(wǎng)頁(yè)信息和爬取對(duì)象集合對(duì)應(yīng)的目標(biāo)爬蟲(chóng)數(shù)據(jù),并將目標(biāo)爬蟲(chóng)數(shù)據(jù)保存至目標(biāo)分布式保存節(jié)點(diǎn)中,其中,目標(biāo)分布式保存節(jié)點(diǎn)是分布式存儲(chǔ)系統(tǒng)中與網(wǎng)頁(yè)對(duì)象集合對(duì)應(yīng)的保存節(jié)點(diǎn);相比于現(xiàn)有技術(shù),本發(fā)明能夠提升大規(guī)模數(shù)據(jù)爬取時(shí)爬蟲(chóng)數(shù)據(jù)保存的可靠性,并通過(guò)針對(duì)當(dāng)前網(wǎng)頁(yè)內(nèi)容數(shù)據(jù)和歷史網(wǎng)頁(yè)內(nèi)容數(shù)據(jù)進(jìn)行爬取,能夠充分的爬取用戶(hù)所需的數(shù)據(jù),提高數(shù)據(jù)爬取的完整性。 |
