信息的分布式采集方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN200710120326.8 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN101370024B | 公開(公告)日 | 2012-10-31 |
申請(qǐng)公布號(hào) | CN101370024B | 申請(qǐng)公布日 | 2012-10-31 |
分類號(hào) | H04L29/08(2006.01)I;G06F17/30(2006.01)I;G06F17/40(2006.01)I | 分類 | 電通信技術(shù); |
發(fā)明人 | 孫亞夫;張高峰;吳運(yùn)超 | 申請(qǐng)(專利權(quán))人 | 北京靈圖軟件技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 北京靈圖軟件技術(shù)有限公司 |
地址 | 100094 北京市海淀區(qū)東北旺西路8號(hào)中關(guān)村軟件園5號(hào)樓漢王大廈2層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種信息的分布式采集方法及系統(tǒng),解決太長(zhǎng)的采集周期無(wú)法保證信息采集的及時(shí)性和有效性的問題,提高信息采集和更新的速度,降低采集成本。所述方法包括:通過(guò)配置采集參數(shù),編制采集任務(wù);根據(jù)所述采集參數(shù),將任務(wù)分解為多個(gè)任務(wù)包;服務(wù)端調(diào)度分布式客戶端,將采集參數(shù)和任務(wù)包分發(fā)給請(qǐng)求的客戶端;客戶端執(zhí)行采集任務(wù),根據(jù)采集參數(shù)獲取網(wǎng)頁(yè)并采集需要的信息。所述方法利用了網(wǎng)絡(luò)上分布的空間信息量,將信息抽取技術(shù)和分布式技術(shù)結(jié)合起來(lái),提供一種高效穩(wěn)定的信息采集方案和任務(wù)調(diào)度方案,可以充分利用網(wǎng)絡(luò)資源和計(jì)算資源,有效地提高信息采集的效率和數(shù)據(jù)更新的速度,從而保證采集信息的有效性。 |
