一種智能化網(wǎng)頁內(nèi)容自動模糊抽取系統(tǒng)

基本信息

申請?zhí)?/td> CN201811511109.6 申請日 -
公開(公告)號 CN109657180A 公開(公告)日 2019-04-19
申請公布號 CN109657180A 申請公布日 2019-04-19
分類號 G06F16/958(2019.01)I; G06F16/951(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 符建輝; 張燎 申請(專利權(quán))人 中科國力(鎮(zhèn)江)智能技術(shù)有限公司
代理機構(gòu) 南京知識律師事務(wù)所 代理人 中科國力(鎮(zhèn)江)智能技術(shù)有限公司
地址 212000 江蘇省鎮(zhèn)江市高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)經(jīng)十二路668號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種智能化網(wǎng)頁內(nèi)容模糊抽取系統(tǒng),包括模塊A:HTML網(wǎng)頁語料庫的預(yù)處理;模塊B:HTML網(wǎng)頁內(nèi)容的快速多重索引的自動生成;模塊C:候選業(yè)務(wù)主題的生成;模塊D:候選業(yè)務(wù)主題的模糊驗證;模塊E:候選業(yè)務(wù)主題與對應(yīng)的XPath關(guān)聯(lián);模塊F:HTML網(wǎng)頁內(nèi)容的抽取。這種方法具有兩個優(yōu)勢:(1)不依賴網(wǎng)頁內(nèi)容抽取模板。(2)對網(wǎng)頁中的業(yè)務(wù)主題進行自動模糊識別,準確判斷它們的含義。上述兩個特點,確保了本發(fā)明的網(wǎng)頁內(nèi)容自動抽取的準確率和召回率。