一種基于selenium的爬蟲(chóng)抓取方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201610818690.0 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN106484775A 公開(kāi)(公告)日 2017-03-08
申請(qǐng)公布號(hào) CN106484775A 申請(qǐng)公布日 2017-03-08
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 周灝;王雪飛 申請(qǐng)(專利權(quán))人 北京量科邦信息技術(shù)有限公司
代理機(jī)構(gòu) 北京和信華成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 胡劍輝
地址 100080 北京市海淀區(qū)丹棱街甲1號(hào)互聯(lián)網(wǎng)金融中心11層1102
法律狀態(tài) -

摘要

摘要 一種基于selenium的爬蟲(chóng)抓取方法,其能夠解決數(shù)據(jù)抓取中遇到難破解的網(wǎng)頁(yè)/網(wǎng)站,并且抓取效率有所提高,開(kāi)發(fā)者無(wú)需關(guān)注破解js如何加密,是否丟請(qǐng)求、丟參數(shù),大大減少開(kāi)發(fā)人員的工作時(shí)間和出錯(cuò)概率。該方法包括步驟:(1)執(zhí)行初始url;(2)通過(guò)selenium驅(qū)動(dòng)系統(tǒng)瀏覽器執(zhí)行url地址;(3)當(dāng)頁(yè)面加載完畢后,獲取頁(yè)面進(jìn)行頁(yè)面數(shù)據(jù)解析。還提供了一種基于selenium的爬蟲(chóng)抓取系統(tǒng)。