基于pythonQT及智能算法的快速規(guī)則定制方法

基本信息

申請?zhí)?/td> CN201811019150.1 申請日 -
公開(公告)號 CN109271145B 公開(公告)日 2021-12-14
申請公布號 CN109271145B 申請公布日 2021-12-14
分類號 G06F8/20(2018.01)I;G06F16/9535(2019.01)I;G06F16/954(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 邢航;李森;汪明 申請(專利權(quán))人 科大國創(chuàng)軟件股份有限公司
代理機(jī)構(gòu) 上海精晟知識產(chǎn)權(quán)代理有限公司 代理人 馮子玲
地址 230000安徽省合肥市高新區(qū)文曲路355號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了基于pythonQT及智能算法的快速規(guī)則定制方法,涉及網(wǎng)頁規(guī)則定制技術(shù)領(lǐng)域。本發(fā)明包括輸入待爬取頁面的URL,客戶端通過URL加載頁面;基于selenium提取頁面中導(dǎo)航列表項;通過智能算法提取詳情頁正文部分;通過js技術(shù)從頁面中獲取頁面元素規(guī)則,返回客戶端;規(guī)則上傳服務(wù)端,后臺爬蟲程序根據(jù)規(guī)則進(jìn)行爬取。本發(fā)明通過selenium提取頁面中導(dǎo)航列表項并過濾掉縱坐標(biāo)大于瀏覽器高度的