www久久伊人网|无码 av 一区|精品国产污污网站|欧美日韩无码一区|九九精品视在线看|久久人人爽人人骑|亚洲色图激情人妻|玖玖九九无码视频|AV天堂亚洲欧洲|日韩内射人妻

請輸入想查詢的關鍵字

查詢

退出

頭部vip圖標

瀏覽歷史

清除

首頁/ 北京大數元科技發(fā)展有限公司/ 專利詳情

一種自動獲取xpath生成爬蟲腳本的方法及系統(tǒng)

基本信息

申請?zhí)?/td>	CN201711034452.1	申請日	-
公開（公告）號	CN107943838B	公開（公告）日	2021-09-07
申請公布號	CN107943838B	申請公布日	2021-09-07
分類號	G06F16/951;G06F8/30	分類	計算；推算；計數;
發(fā)明人	姬永杰;陳國強;任建新	申請（專利權）人	北京大數元科技發(fā)展有限公司
代理機構	北京天悅專利代理事務所（普通合伙）	代理人	田明;任曉航
地址	100094 北京市海淀區(qū)西北旺東路10號院新興產業(yè)聯(lián)盟大廈4層4-17室
法律狀態(tài)	-

摘要

摘要

本發(fā)明公開了一種自動獲取xpath生成爬蟲腳本的方法及系統(tǒng)，所述方法包括以下步驟：(1)通過url地址打開網頁，遍歷網頁中所有的標簽；(2)取出每個標簽對應的xpath路徑；(3)按xpath路徑相同劃分為一組；然后，統(tǒng)計分組后標簽個數；(4)取出每組中的一個標簽，打開該鏈接網頁；(5)對于步驟4中每個被打開的網頁，統(tǒng)計網頁中的標簽個數以及文字個數；(6)取出文字個數最多且標簽個數最少的一組，記錄其對應的xpath路徑；(7)基于Scrapy框架，根據對應的xpath路徑生成爬蟲腳本。該方法能夠基于Scrapy框架對政府網站公開信息進行爬取，可以自動解析出網頁中所需內容的xpath路徑，提升爬蟲管理的自動化水平。