Web數(shù)據(jù)采集方法和Web數(shù)據(jù)采集系統(tǒng)

基本信息

申請?zhí)?/td> CN201711174715.9 申請日 -
公開(公告)號 CN108011931B 公開(公告)日 2021-06-11
申請公布號 CN108011931B 申請公布日 2021-06-11
分類號 H04L29/08;G06F16/951;G06F16/955 分類 電通信技術(shù);
發(fā)明人 韋立鵬 申請(專利權(quán))人 用友金融信息技術(shù)股份有限公司
代理機(jī)構(gòu) 北京友聯(lián)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 尚志峰;汪海屏
地址 100094 北京市海淀區(qū)北清路68號院8號樓101房間
法律狀態(tài) -

摘要

摘要 本發(fā)明提出了一種Web數(shù)據(jù)采集方法、Web數(shù)據(jù)采集系統(tǒng)、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲介質(zhì)。其中,Web數(shù)據(jù)采集方法包括:布置待加入虛擬機(jī)的爬蟲環(huán)境;獲取待加入虛擬機(jī)的IP地址,并將IP地址添加至主節(jié)點(diǎn)配置中;控制主機(jī)更新運(yùn)行腳本,以使待加入虛擬機(jī)和已加入虛擬機(jī)獲取最新運(yùn)行代碼;當(dāng)接收到待加入虛擬機(jī)的任務(wù)啟動指令,根據(jù)最新運(yùn)行代碼執(zhí)行任務(wù)啟動指令,以使待加入虛擬機(jī)加入至爬取網(wǎng)站的集群中并開始Web數(shù)據(jù)采集。本發(fā)明實(shí)現(xiàn)了數(shù)據(jù)源大量增加時(shí),Web數(shù)據(jù)爬取上和存儲上的橫向擴(kuò)展,提高了爬取數(shù)據(jù)和存儲數(shù)據(jù)的效率,在有限的時(shí)間內(nèi)完成數(shù)據(jù)的采集。