Web數(shù)據(jù)采集方法和Web數(shù)據(jù)采集系統(tǒng)
基本信息
申請?zhí)?/td> | CN201711174715.9 | 申請日 | - |
公開(公告)號 | CN108011931B | 公開(公告)日 | 2021-06-11 |
申請公布號 | CN108011931B | 申請公布日 | 2021-06-11 |
分類號 | H04L29/08;G06F16/951;G06F16/955 | 分類 | 電通信技術(shù); |
發(fā)明人 | 韋立鵬 | 申請(專利權(quán))人 | 用友金融信息技術(shù)股份有限公司 |
代理機(jī)構(gòu) | 北京友聯(lián)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 尚志峰;汪海屏 |
地址 | 100094 北京市海淀區(qū)北清路68號院8號樓101房間 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出了一種Web數(shù)據(jù)采集方法、Web數(shù)據(jù)采集系統(tǒng)、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲介質(zhì)。其中,Web數(shù)據(jù)采集方法包括:布置待加入虛擬機(jī)的爬蟲環(huán)境;獲取待加入虛擬機(jī)的IP地址,并將IP地址添加至主節(jié)點(diǎn)配置中;控制主機(jī)更新運(yùn)行腳本,以使待加入虛擬機(jī)和已加入虛擬機(jī)獲取最新運(yùn)行代碼;當(dāng)接收到待加入虛擬機(jī)的任務(wù)啟動指令,根據(jù)最新運(yùn)行代碼執(zhí)行任務(wù)啟動指令,以使待加入虛擬機(jī)加入至爬取網(wǎng)站的集群中并開始Web數(shù)據(jù)采集。本發(fā)明實(shí)現(xiàn)了數(shù)據(jù)源大量增加時(shí),Web數(shù)據(jù)爬取上和存儲上的橫向擴(kuò)展,提高了爬取數(shù)據(jù)和存儲數(shù)據(jù)的效率,在有限的時(shí)間內(nèi)完成數(shù)據(jù)的采集。 |
