Web數(shù)據(jù)采集方法和Web數(shù)據(jù)采集系統(tǒng)
基本信息
申請?zhí)?/td> | CN201711174715.9 | 申請日 | - |
公開(公告)號 | CN108011931A | 公開(公告)日 | 2021-06-11 |
申請公布號 | CN108011931A | 申請公布日 | 2021-06-11 |
分類號 | H04L29/08;G06F17/30 | 分類 | 電通信技術(shù); |
發(fā)明人 | 韋立鵬 | 申請(專利權(quán))人 | 用友金融信息技術(shù)股份有限公司 |
代理機構(gòu) | 北京友聯(lián)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 尚志峰;汪海屏 |
地址 | 100094 北京市海淀區(qū)北清路68號院8號樓101房間 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出了一種Web數(shù)據(jù)采集方法、Web數(shù)據(jù)采集系統(tǒng)、計算機設(shè)備、計算機可讀存儲介質(zhì)。其中,Web數(shù)據(jù)采集方法包括:布置待加入虛擬機的爬蟲環(huán)境;獲取待加入虛擬機的IP地址,并將IP地址添加至主節(jié)點配置中;控制主機更新運行腳本,以使待加入虛擬機和已加入虛擬機獲取最新運行代碼;當接收到待加入虛擬機的任務(wù)啟動指令,根據(jù)最新運行代碼執(zhí)行任務(wù)啟動指令,以使待加入虛擬機加入至爬取網(wǎng)站的集群中并開始Web數(shù)據(jù)采集。本發(fā)明實現(xiàn)了數(shù)據(jù)源大量增加時,Web數(shù)據(jù)爬取上和存儲上的橫向擴展,提高了爬取數(shù)據(jù)和存儲數(shù)據(jù)的效率,在有限的時間內(nèi)完成數(shù)據(jù)的采集。 |
