一種網(wǎng)頁爬取的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
基本信息
申請(qǐng)?zhí)?/td> | CN201811467095.2 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN109582850A | 公開(公告)日 | 2021-07-02 |
申請(qǐng)公布號(hào) | CN109582850A | 申請(qǐng)公布日 | 2021-07-02 |
分類號(hào) | G06F16/951 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 陳耽思 | 申請(qǐng)(專利權(quán))人 | 金瓜子科技發(fā)展(北京)有限公司 |
代理機(jī)構(gòu) | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 羅滿 |
地址 | 100085 北京市海淀區(qū)清河安寧莊東路18號(hào)23號(hào)樓二層2356 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種網(wǎng)頁爬取的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備,其中,該方法包括:獲取目標(biāo)網(wǎng)頁的樣式數(shù)據(jù),樣式數(shù)據(jù)為對(duì)目標(biāo)網(wǎng)頁的源數(shù)據(jù)基于反爬策略生成的數(shù)據(jù);根據(jù)預(yù)先生成的樣式數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系確定與樣式數(shù)據(jù)對(duì)應(yīng)的真實(shí)數(shù)據(jù),并將樣式數(shù)據(jù)替換為相應(yīng)的真實(shí)數(shù)據(jù);確定目標(biāo)網(wǎng)頁所有的真實(shí)內(nèi)容。通過本發(fā)明實(shí)施例提供的一種網(wǎng)頁爬取的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備,根據(jù)預(yù)先生成的樣式數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系確定與該樣式數(shù)據(jù)對(duì)應(yīng)的真實(shí)數(shù)據(jù),從而可以快速、準(zhǔn)確地獲取網(wǎng)頁的所有真實(shí)數(shù)據(jù);該方式不需要重復(fù)使用圖像識(shí)別技術(shù)識(shí)別網(wǎng)頁中的數(shù)據(jù),節(jié)省了大量的處理資源,大大提高了抓取速度和抓取效率。 |
