一種自動獲取xpath生成爬蟲腳本的方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201711034452.1 申請日 -
公開(公告)號 CN107943838B 公開(公告)日 2021-09-07
申請公布號 CN107943838B 申請公布日 2021-09-07
分類號 G06F16/951;G06F8/30 分類 計算;推算;計數;
發(fā)明人 姬永杰;陳國強;任建新 申請(專利權)人 北京大數元科技發(fā)展有限公司
代理機構 北京天悅專利代理事務所(普通合伙) 代理人 田明;任曉航
地址 100094 北京市海淀區(qū)西北旺東路10號院新興產業(yè)聯(lián)盟大廈4層4-17室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種自動獲取xpath生成爬蟲腳本的方法及系統(tǒng),所述方法包括以下步驟:(1)通過url地址打開網頁,遍歷網頁中所有的標簽;(2)取出每個標簽對應的xpath路徑;(3)按xpath路徑相同劃分為一組;然后,統(tǒng)計分組后標簽個數;(4)取出每組中的一個標簽,打開該鏈接網頁;(5)對于步驟4中每個被打開的網頁,統(tǒng)計網頁中的標簽個數以及文字個數;(6)取出文字個數最多且標簽個數最少的一組,記錄其對應的xpath路徑;(7)基于Scrapy框架,根據對應的xpath路徑生成爬蟲腳本。該方法能夠基于Scrapy框架對政府網站公開信息進行爬取,可以自動解析出網頁中所需內容的xpath路徑,提升爬蟲管理的自動化水平。