網(wǎng)頁信息的獲取方法、裝置、計算機設(shè)備和存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202011376054.X | 申請日 | - |
公開(公告)號 | CN112347394A | 公開(公告)日 | 2021-02-09 |
申請公布號 | CN112347394A | 申請公布日 | 2021-02-09 |
分類號 | G06F16/955(2019.01)I;G06F16/951(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 曾文清;陳立彬;楊濠興;朱光岳;虞孝偉 | 申請(專利權(quán))人 | 廣州至真信息科技有限公司 |
代理機構(gòu) | 廣州華進聯(lián)合專利商標代理有限公司 | 代理人 | 陳金普 |
地址 | 510665廣東省廣州市天河區(qū)建工路4號5樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請涉及一種網(wǎng)頁信息的獲取方法、裝置、計算機設(shè)備和存儲介質(zhì),所述方法包括:獲取具有不同集合優(yōu)先級的多個種子集合;其中,至少一個種子集合包含具有不同爬取優(yōu)先級的多個URL種子;從所述多個種子集合中,獲取集合優(yōu)先級最高的目標種子集合;當所述目標種子集合中包括具有不同爬取優(yōu)先級的多個URL種子時,從所述多個URL種子中,提取爬取優(yōu)先級最高的待爬取URL種子,并根據(jù)所述待爬取URL種子抓取網(wǎng)頁信息,實現(xiàn)了根據(jù)集合間和集合內(nèi)的兩層優(yōu)先級對URL種子進行爬取,可以根據(jù)不同爬取需求設(shè)置種子優(yōu)先級并進行種子爬取,同時,采用該方法,在爬蟲資源有限的情況下,可以優(yōu)先爬取具有高優(yōu)先級的URL種子。?? |
