Web數(shù)據(jù)采集方法和Web數(shù)據(jù)采集系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201711174715.9 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN108011931A | 公開(kāi)(公告)日 | 2021-06-11 |
申請(qǐng)公布號(hào) | CN108011931A | 申請(qǐng)公布日 | 2021-06-11 |
分類(lèi)號(hào) | H04L29/08;G06F17/30 | 分類(lèi) | 電通信技術(shù); |
發(fā)明人 | 韋立鵬 | 申請(qǐng)(專(zhuān)利權(quán))人 | 用友金融信息技術(shù)股份有限公司 |
代理機(jī)構(gòu) | 北京友聯(lián)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 尚志峰;汪海屏 |
地址 | 100094 北京市海淀區(qū)北清路68號(hào)院8號(hào)樓101房間 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出了一種Web數(shù)據(jù)采集方法、Web數(shù)據(jù)采集系統(tǒng)、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。其中,Web數(shù)據(jù)采集方法包括:布置待加入虛擬機(jī)的爬蟲(chóng)環(huán)境;獲取待加入虛擬機(jī)的IP地址,并將IP地址添加至主節(jié)點(diǎn)配置中;控制主機(jī)更新運(yùn)行腳本,以使待加入虛擬機(jī)和已加入虛擬機(jī)獲取最新運(yùn)行代碼;當(dāng)接收到待加入虛擬機(jī)的任務(wù)啟動(dòng)指令,根據(jù)最新運(yùn)行代碼執(zhí)行任務(wù)啟動(dòng)指令,以使待加入虛擬機(jī)加入至爬取網(wǎng)站的集群中并開(kāi)始Web數(shù)據(jù)采集。本發(fā)明實(shí)現(xiàn)了數(shù)據(jù)源大量增加時(shí),Web數(shù)據(jù)爬取上和存儲(chǔ)上的橫向擴(kuò)展,提高了爬取數(shù)據(jù)和存儲(chǔ)數(shù)據(jù)的效率,在有限的時(shí)間內(nèi)完成數(shù)據(jù)的采集。 |
