一種自動獲取xpath生成爬蟲腳本的方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201711034452.1 | 申請日 | - |
公開(公告)號 | CN107943838B | 公開(公告)日 | 2021-09-07 |
申請公布號 | CN107943838B | 申請公布日 | 2021-09-07 |
分類號 | G06F16/951;G06F8/30 | 分類 | 計算;推算;計數; |
發(fā)明人 | 姬永杰;陳國強;任建新 | 申請(專利權)人 | 北京大數元科技發(fā)展有限公司 |
代理機構 | 北京天悅專利代理事務所(普通合伙) | 代理人 | 田明;任曉航 |
地址 | 100094 北京市海淀區(qū)西北旺東路10號院新興產業(yè)聯(lián)盟大廈4層4-17室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種自動獲取xpath生成爬蟲腳本的方法及系統(tǒng),所述方法包括以下步驟:(1)通過url地址打開網頁,遍歷網頁中所有的標簽;(2)取出每個標簽對應的xpath路徑;(3)按xpath路徑相同劃分為一組;然后,統(tǒng)計分組后標簽個數;(4)取出每組中的一個標簽,打開該鏈接網頁;(5)對于步驟4中每個被打開的網頁,統(tǒng)計網頁中的標簽個數以及文字個數;(6)取出文字個數最多且標簽個數最少的一組,記錄其對應的xpath路徑;(7)基于Scrapy框架,根據對應的xpath路徑生成爬蟲腳本。該方法能夠基于Scrapy框架對政府網站公開信息進行爬取,可以自動解析出網頁中所需內容的xpath路徑,提升爬蟲管理的自動化水平。 |
