HTML網(wǎng)頁數(shù)據(jù)采集方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN201711094091.X 申請(qǐng)日 -
公開(公告)號(hào) CN107784113A 公開(公告)日 2018-03-09
申請(qǐng)公布號(hào) CN107784113A 申請(qǐng)公布日 2018-03-09
分類號(hào) G06F17/30 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張帥 申請(qǐng)(專利權(quán))人 深圳市科盾科技有限公司
代理機(jī)構(gòu) 北京超凡志成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 逯恒
地址 518000 廣東省深圳市福田區(qū)益田路1006號(hào)益田花園二期20棟13樓1301室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種HTML網(wǎng)頁數(shù)據(jù)采集方法,包括:判斷當(dāng)前頁面是否包括列表頁面;若是,則根據(jù)所述列表頁面對(duì)所述當(dāng)前頁面生成目標(biāo)列表模塊;采集所述目標(biāo)列表模塊的詳細(xì)頁信息,并生成詳細(xì)頁路徑規(guī)則。本發(fā)明還提供一種HTML網(wǎng)頁數(shù)據(jù)采集裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。本發(fā)明通過對(duì)目標(biāo)頁面包含的列表頁面的詳細(xì)頁路徑規(guī)則進(jìn)行直接抓取,從而在方法上簡(jiǎn)化了對(duì)HTML網(wǎng)頁數(shù)據(jù)采集的步驟,由原來的由上到下的逐漸層級(jí)的去擊中目標(biāo)數(shù)據(jù),改為了通過對(duì)當(dāng)前頁面的列表頁面的詳細(xì)頁信息直接采集,從而使采集數(shù)據(jù)的用戶直接面對(duì)目標(biāo)數(shù)據(jù),抓取過程中不會(huì)產(chǎn)生大量垃圾信息,數(shù)據(jù)抓取方法簡(jiǎn)便,提高了數(shù)據(jù)抓取效率,省時(shí)省力。