一種智能化網(wǎng)頁內(nèi)容自動模糊抽取系統(tǒng)
基本信息
申請?zhí)?/td> | CN201811511109.6 | 申請日 | - |
公開(公告)號 | CN109657180A | 公開(公告)日 | 2019-04-19 |
申請公布號 | CN109657180A | 申請公布日 | 2019-04-19 |
分類號 | G06F16/958(2019.01)I; G06F16/951(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 符建輝; 張燎 | 申請(專利權(quán))人 | 中科國力(鎮(zhèn)江)智能技術(shù)有限公司 |
代理機構(gòu) | 南京知識律師事務(wù)所 | 代理人 | 中科國力(鎮(zhèn)江)智能技術(shù)有限公司 |
地址 | 212000 江蘇省鎮(zhèn)江市高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)經(jīng)十二路668號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種智能化網(wǎng)頁內(nèi)容模糊抽取系統(tǒng),包括模塊A:HTML網(wǎng)頁語料庫的預(yù)處理;模塊B:HTML網(wǎng)頁內(nèi)容的快速多重索引的自動生成;模塊C:候選業(yè)務(wù)主題的生成;模塊D:候選業(yè)務(wù)主題的模糊驗證;模塊E:候選業(yè)務(wù)主題與對應(yīng)的XPath關(guān)聯(lián);模塊F:HTML網(wǎng)頁內(nèi)容的抽取。這種方法具有兩個優(yōu)勢:(1)不依賴網(wǎng)頁內(nèi)容抽取模板。(2)對網(wǎng)頁中的業(yè)務(wù)主題進行自動模糊識別,準確判斷它們的含義。上述兩個特點,確保了本發(fā)明的網(wǎng)頁內(nèi)容自動抽取的準確率和召回率。 |
