基于結(jié)構(gòu)相似網(wǎng)頁集的信息抽取方法
基本信息
申請?zhí)?/td> | CN201610204047.9 | 申請日 | - |
公開(公告)號(hào) | CN105824966A | 公開(公告)日 | 2016-08-03 |
申請公布號(hào) | CN105824966A | 申請公布日 | 2016-08-03 |
分類號(hào) | G06F17/30(2006.01)I;G06F17/22(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 任龍;王儒敬;王偉;汪六三 | 申請(專利權(quán))人 | 安徽中科物聯(lián)科技有限公司 |
代理機(jī)構(gòu) | 無錫市大為專利商標(biāo)事務(wù)所(普通合伙) | 代理人 | 無錫中科富農(nóng)物聯(lián)科技有限公司;安徽中科物聯(lián)科技有限公司;江蘇物聯(lián)網(wǎng)研究發(fā)展中心 |
地址 | 214135 江蘇省無錫市新區(qū)菱湖大道200號(hào)江蘇物聯(lián)網(wǎng)研究與發(fā)展中心C座3樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及了一種基于結(jié)構(gòu)相似網(wǎng)頁集的信息抽取方法,分為去噪階段,匹配階段以及信息抽取階段。去噪階段負(fù)責(zé)將相似網(wǎng)頁集中的網(wǎng)頁規(guī)范,使得相似網(wǎng)頁集中的網(wǎng)頁完全符合W3C的XHTML標(biāo)準(zhǔn)。在進(jìn)入匹配階段后,從網(wǎng)頁集中隨機(jī)選擇兩個(gè)網(wǎng)頁,比較兩個(gè)網(wǎng)頁DOM樹中不匹配的部分;會(huì)出現(xiàn)三種不匹配狀態(tài),分別對(duì)三種不匹配狀態(tài)加以處理,生成一個(gè)包裝器。在信息抽取階段,用包裝器抽取相似網(wǎng)頁集中的數(shù)據(jù),生成一個(gè)XML文件,保存著從相似網(wǎng)頁集中得到的數(shù)據(jù)。本發(fā)明的優(yōu)點(diǎn)是:基于相似網(wǎng)頁的信息抽取可以根據(jù)相似網(wǎng)頁結(jié)構(gòu)相似性的特點(diǎn)自動(dòng)生成包裝器,不需要人工參與以及先驗(yàn)知識(shí)的指導(dǎo),適用于數(shù)據(jù)比較密集型的網(wǎng)頁,能夠很好地從相似網(wǎng)頁集中生成數(shù)據(jù)。 |
