HTML網(wǎng)頁數(shù)據(jù)采集方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN201711094091.X | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN107784113A | 公開(公告)日 | 2018-03-09 |
申請(qǐng)公布號(hào) | CN107784113A | 申請(qǐng)公布日 | 2018-03-09 |
分類號(hào) | G06F17/30 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張帥 | 申請(qǐng)(專利權(quán))人 | 深圳市科盾科技有限公司 |
代理機(jī)構(gòu) | 北京超凡志成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 逯恒 |
地址 | 518000 廣東省深圳市福田區(qū)益田路1006號(hào)益田花園二期20棟13樓1301室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種HTML網(wǎng)頁數(shù)據(jù)采集方法,包括:判斷當(dāng)前頁面是否包括列表頁面;若是,則根據(jù)所述列表頁面對(duì)所述當(dāng)前頁面生成目標(biāo)列表模塊;采集所述目標(biāo)列表模塊的詳細(xì)頁信息,并生成詳細(xì)頁路徑規(guī)則。本發(fā)明還提供一種HTML網(wǎng)頁數(shù)據(jù)采集裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。本發(fā)明通過對(duì)目標(biāo)頁面包含的列表頁面的詳細(xì)頁路徑規(guī)則進(jìn)行直接抓取,從而在方法上簡(jiǎn)化了對(duì)HTML網(wǎng)頁數(shù)據(jù)采集的步驟,由原來的由上到下的逐漸層級(jí)的去擊中目標(biāo)數(shù)據(jù),改為了通過對(duì)當(dāng)前頁面的列表頁面的詳細(xì)頁信息直接采集,從而使采集數(shù)據(jù)的用戶直接面對(duì)目標(biāo)數(shù)據(jù),抓取過程中不會(huì)產(chǎn)生大量垃圾信息,數(shù)據(jù)抓取方法簡(jiǎn)便,提高了數(shù)據(jù)抓取效率,省時(shí)省力。 |
