一種基于selenium的爬蟲(chóng)抓取方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201610818690.0 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN106484775A | 公開(kāi)(公告)日 | 2017-03-08 |
申請(qǐng)公布號(hào) | CN106484775A | 申請(qǐng)公布日 | 2017-03-08 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 周灝;王雪飛 | 申請(qǐng)(專利權(quán))人 | 北京量科邦信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京和信華成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 胡劍輝 |
地址 | 100080 北京市海淀區(qū)丹棱街甲1號(hào)互聯(lián)網(wǎng)金融中心11層1102 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種基于selenium的爬蟲(chóng)抓取方法,其能夠解決數(shù)據(jù)抓取中遇到難破解的網(wǎng)頁(yè)/網(wǎng)站,并且抓取效率有所提高,開(kāi)發(fā)者無(wú)需關(guān)注破解js如何加密,是否丟請(qǐng)求、丟參數(shù),大大減少開(kāi)發(fā)人員的工作時(shí)間和出錯(cuò)概率。該方法包括步驟:(1)執(zhí)行初始url;(2)通過(guò)selenium驅(qū)動(dòng)系統(tǒng)瀏覽器執(zhí)行url地址;(3)當(dāng)頁(yè)面加載完畢后,獲取頁(yè)面進(jìn)行頁(yè)面數(shù)據(jù)解析。還提供了一種基于selenium的爬蟲(chóng)抓取系統(tǒng)。 |
