一種爬蟲系統(tǒng)的URL爬取方法、裝置、介質(zhì)及電子設(shè)備
基本信息
申請(qǐng)?zhí)?/td> | CN202110176855.X | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN112836111A | 公開(公告)日 | 2021-05-25 |
申請(qǐng)公布號(hào) | CN112836111A | 申請(qǐng)公布日 | 2021-05-25 |
分類號(hào) | G06F16/951;G06F16/955 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 馮煜博;陳偉成 | 申請(qǐng)(專利權(quán))人 | 沈陽麟龍科技股份有限公司 |
代理機(jī)構(gòu) | 北京國(guó)昊天誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 南霆 |
地址 | 110117 遼寧省沈陽市渾南區(qū)白塔二南街18-2號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明實(shí)施例公開了一種爬蟲系統(tǒng)的URL爬取方法、裝置、介質(zhì)及電子設(shè)備。該方法包括:獲取爬蟲系統(tǒng)的目標(biāo)網(wǎng)頁;采用部署價(jià)值評(píng)估模型的爬蟲系統(tǒng),對(duì)所述目標(biāo)網(wǎng)頁中的錨文本和錨文本對(duì)應(yīng)的URL進(jìn)行價(jià)值估計(jì);所述價(jià)值評(píng)估模型是基于訓(xùn)練網(wǎng)頁的錨文本和錨文本對(duì)應(yīng)的URL的價(jià)值函數(shù)進(jìn)行訓(xùn)練得到的;根據(jù)價(jià)值估計(jì)結(jié)果進(jìn)行爬取順序的排序,然后根據(jù)URL的順序進(jìn)行爬取操作,并在滿足爬取終止條件時(shí),終止所述URL爬取操作,得到網(wǎng)頁集合。通過采用本申請(qǐng)所提供的技術(shù)方案,可以針對(duì)現(xiàn)有的爬蟲系統(tǒng)的爬取效率低,真正有效的網(wǎng)頁內(nèi)容較少的問題,采用基于深度學(xué)習(xí)的爬取策略,可以得到在一定的時(shí)間內(nèi)將爬蟲系統(tǒng)爬取的網(wǎng)頁價(jià)值最大化的目的。 |
