信息的分布式采集方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN200710120326.8 申請(qǐng)日 -
公開(公告)號(hào) CN101370024B 公開(公告)日 2012-10-31
申請(qǐng)公布號(hào) CN101370024B 申請(qǐng)公布日 2012-10-31
分類號(hào) H04L29/08(2006.01)I;G06F17/30(2006.01)I;G06F17/40(2006.01)I 分類 電通信技術(shù);
發(fā)明人 孫亞夫;張高峰;吳運(yùn)超 申請(qǐng)(專利權(quán))人 北京靈圖軟件技術(shù)有限公司
代理機(jī)構(gòu) 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 代理人 北京靈圖軟件技術(shù)有限公司
地址 100094 北京市海淀區(qū)東北旺西路8號(hào)中關(guān)村軟件園5號(hào)樓漢王大廈2層
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種信息的分布式采集方法及系統(tǒng),解決太長(zhǎng)的采集周期無(wú)法保證信息采集的及時(shí)性和有效性的問題,提高信息采集和更新的速度,降低采集成本。所述方法包括:通過(guò)配置采集參數(shù),編制采集任務(wù);根據(jù)所述采集參數(shù),將任務(wù)分解為多個(gè)任務(wù)包;服務(wù)端調(diào)度分布式客戶端,將采集參數(shù)和任務(wù)包分發(fā)給請(qǐng)求的客戶端;客戶端執(zhí)行采集任務(wù),根據(jù)采集參數(shù)獲取網(wǎng)頁(yè)并采集需要的信息。所述方法利用了網(wǎng)絡(luò)上分布的空間信息量,將信息抽取技術(shù)和分布式技術(shù)結(jié)合起來(lái),提供一種高效穩(wěn)定的信息采集方案和任務(wù)調(diào)度方案,可以充分利用網(wǎng)絡(luò)資源和計(jì)算資源,有效地提高信息采集的效率和數(shù)據(jù)更新的速度,從而保證采集信息的有效性。