網(wǎng)頁信息的獲取方法、裝置、計算機設(shè)備和存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202011376054.X 申請日 -
公開(公告)號 CN112347394A 公開(公告)日 2021-02-09
申請公布號 CN112347394A 申請公布日 2021-02-09
分類號 G06F16/955(2019.01)I;G06F16/951(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 曾文清;陳立彬;楊濠興;朱光岳;虞孝偉 申請(專利權(quán))人 廣州至真信息科技有限公司
代理機構(gòu) 廣州華進聯(lián)合專利商標代理有限公司 代理人 陳金普
地址 510665廣東省廣州市天河區(qū)建工路4號5樓
法律狀態(tài) -

摘要

摘要 本申請涉及一種網(wǎng)頁信息的獲取方法、裝置、計算機設(shè)備和存儲介質(zhì),所述方法包括:獲取具有不同集合優(yōu)先級的多個種子集合;其中,至少一個種子集合包含具有不同爬取優(yōu)先級的多個URL種子;從所述多個種子集合中,獲取集合優(yōu)先級最高的目標種子集合;當所述目標種子集合中包括具有不同爬取優(yōu)先級的多個URL種子時,從所述多個URL種子中,提取爬取優(yōu)先級最高的待爬取URL種子,并根據(jù)所述待爬取URL種子抓取網(wǎng)頁信息,實現(xiàn)了根據(jù)集合間和集合內(nèi)的兩層優(yōu)先級對URL種子進行爬取,可以根據(jù)不同爬取需求設(shè)置種子優(yōu)先級并進行種子爬取,同時,采用該方法,在爬蟲資源有限的情況下,可以優(yōu)先爬取具有高優(yōu)先級的URL種子。??