一種自動(dòng)獲取xpath生成爬蟲腳本的方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201711034452.1 申請(qǐng)日 -
公開(公告)號(hào) CN107943838A 公開(公告)日 2018-04-20
申請(qǐng)公布號(hào) CN107943838A 申請(qǐng)公布日 2018-04-20
分類號(hào) G06F17/30;G06F8/30 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 姬永杰;陳國強(qiáng);王長勇;任建新 申請(qǐng)(專利權(quán))人 北京大數(shù)元科技發(fā)展有限公司
代理機(jī)構(gòu) 北京天悅專利代理事務(wù)所(普通合伙) 代理人 北京大數(shù)元科技發(fā)展有限公司
地址 100094 北京市海淀區(qū)西北旺東路10號(hào)院新興產(chǎn)業(yè)聯(lián)盟大廈4層4-17室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種自動(dòng)獲取xpath生成爬蟲腳本的方法及系統(tǒng),所述方法包括以下步驟:(1)通過url地址打開網(wǎng)頁,遍歷網(wǎng)頁中所有的標(biāo)簽;(2)取出每個(gè)標(biāo)簽對(duì)應(yīng)的xpath路徑;(3)按xpath路徑相同劃分為一組;然后,統(tǒng)計(jì)分組后標(biāo)簽個(gè)數(shù);(4)取出每組中的一個(gè)標(biāo)簽,打開該鏈接網(wǎng)頁;(5)對(duì)于步驟4中每個(gè)被打開的網(wǎng)頁,統(tǒng)計(jì)網(wǎng)頁中的標(biāo)簽個(gè)數(shù)以及文字個(gè)數(shù);(6)取出文字個(gè)數(shù)最多且標(biāo)簽個(gè)數(shù)最少的一組,記錄其對(duì)應(yīng)的xpath路徑;(7)基于Scrapy框架,根據(jù)對(duì)應(yīng)的xpath路徑生成爬蟲腳本。該方法能夠基于Scrapy框架對(duì)政府網(wǎng)站公開信息進(jìn)行爬取,可以自動(dòng)解析出網(wǎng)頁中所需內(nèi)容的xpath路徑,提升爬蟲管理的自動(dòng)化水平。