一種基于異步aiohttp多平臺(tái)分布式數(shù)據(jù)爬取方法
基本信息
申請(qǐng)?zhí)?/td> | CN202110029155.8 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN112732996A | 公開(公告)日 | 2021-04-30 |
申請(qǐng)公布號(hào) | CN112732996A | 申請(qǐng)公布日 | 2021-04-30 |
分類號(hào) | G06F16/951;G06F16/955;G06F16/27 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 廖杰;李林渡;張衍彬 | 申請(qǐng)(專利權(quán))人 | 深圳市洪堡智慧餐飲科技有限公司 |
代理機(jī)構(gòu) | 深圳市深聯(lián)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 張琪 |
地址 | 518000 廣東省深圳市福田區(qū)梅林街道孖嶺社區(qū)凱豐路10號(hào)翠林大廈8層808A | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及數(shù)據(jù)爬取技術(shù)領(lǐng)域,具體為一種基于異步aiohttp多平臺(tái)分布式數(shù)據(jù)爬取方法,該方法的步驟如下:步驟一、服務(wù)中心分發(fā)url任務(wù)到客戶端;步驟二、客戶端從配置中心讀取配置;步驟三、多個(gè)客戶端對(duì)多個(gè)url任務(wù)進(jìn)行下載內(nèi)容;步驟四、對(duì)下載的內(nèi)容進(jìn)行解析并清洗存入數(shù)據(jù)庫;步驟五、利用日志中心收集日志;步驟六、打開監(jiān)控中心查看資源情況、查看結(jié)果。本發(fā)明通過任務(wù)多平臺(tái)分發(fā)利用kafka發(fā)布?訂閱消息傳遞模式,只有訂閱了topic的訂閱者才會(huì)收到消息,這樣可以把多平臺(tái)進(jìn)行區(qū)分,任務(wù)去重原理利用redis的set集合特性自帶去重功能;本發(fā)明利用async異步特性進(jìn)行發(fā)送請(qǐng)求,網(wǎng)絡(luò)io不會(huì)造成阻塞,實(shí)現(xiàn)高并發(fā),高可用,通過上述方式可有效提高數(shù)據(jù)爬取速度。 |
