網(wǎng)頁信息提取的方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201810164501.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN108334480A | 公開(公告)日 | 2018-07-27 |
申請(qǐng)公布號(hào) | CN108334480A | 申請(qǐng)公布日 | 2018-07-27 |
分類號(hào) | G06F17/22 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 周柳陽;許煒;蔣林林 | 申請(qǐng)(專利權(quán))人 | 智言科技(深圳)有限公司 |
代理機(jī)構(gòu) | 深圳市中科創(chuàng)為專利代理有限公司 | 代理人 | 智言科技(深圳)有限公司 |
地址 | 518000 廣東省深圳市寶安區(qū)新安街道創(chuàng)業(yè)二路139號(hào)新一代信息技術(shù)產(chǎn)業(yè)園C座318 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了網(wǎng)頁信息提取的方法及裝置,該方法包括:步驟S10,獲取關(guān)于相同網(wǎng)頁但數(shù)據(jù)不同的兩個(gè)頁面;步驟S20,將兩個(gè)頁面的內(nèi)容進(jìn)行差異比較,并對(duì)差異處進(jìn)行標(biāo)記;以生成網(wǎng)頁模板;步驟S30,將網(wǎng)頁模板與其他頁面進(jìn)行比對(duì),基于差異部分,提取信息,并對(duì)提取的信息進(jìn)行標(biāo)記命名。本發(fā)明通過頁面差異比較算法逆向生成網(wǎng)頁模板,通過網(wǎng)頁模板與待提取的頁面進(jìn)行比對(duì)提取信息,無須人工干預(yù),從而提高了提取的智能化以及提取效率。 |
