基于pythonQT及智能算法的快速規(guī)則定制方法
基本信息
申請?zhí)?/td> | CN201811019150.1 | 申請日 | - |
公開(公告)號 | CN109271145B | 公開(公告)日 | 2021-12-14 |
申請公布號 | CN109271145B | 申請公布日 | 2021-12-14 |
分類號 | G06F8/20(2018.01)I;G06F16/9535(2019.01)I;G06F16/954(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 邢航;李森;汪明 | 申請(專利權(quán))人 | 科大國創(chuàng)軟件股份有限公司 |
代理機(jī)構(gòu) | 上海精晟知識產(chǎn)權(quán)代理有限公司 | 代理人 | 馮子玲 |
地址 | 230000安徽省合肥市高新區(qū)文曲路355號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了基于pythonQT及智能算法的快速規(guī)則定制方法,涉及網(wǎng)頁規(guī)則定制技術(shù)領(lǐng)域。本發(fā)明包括輸入待爬取頁面的URL,客戶端通過URL加載頁面;基于selenium提取頁面中導(dǎo)航列表項;通過智能算法提取詳情頁正文部分;通過js技術(shù)從頁面中獲取頁面元素規(guī)則,返回客戶端;規(guī)則上傳服務(wù)端,后臺爬蟲程序根據(jù)規(guī)則進(jìn)行爬取。本發(fā)明通過selenium提取頁面中導(dǎo)航列表項并過濾掉縱坐標(biāo)大于瀏覽器高度的 |
