一種基于網(wǎng)頁主體特征和中介真值的網(wǎng)頁主體提取方法
基本信息
申請?zhí)?/td> | CN201310116907.X | 申請日 | - |
公開(公告)號 | CN103678432B | 公開(公告)日 | 2016-11-16 |
申請公布號 | CN103678432B | 申請公布日 | 2016-11-16 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 成衛(wèi)青;于靜;洪龍;楊庚;黃衛(wèi)東;梁勝 | 申請(專利權(quán))人 | 深圳采??萍加邢薰?/a> |
代理機構(gòu) | 南京知識律師事務(wù)所 | 代理人 | 南京郵電大學(xué);深圳財富農(nóng)場互聯(lián)網(wǎng)金融服務(wù)有限公司 |
地址 | 210003 江蘇省南京市鼓樓區(qū)新模范馬路66號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明基于網(wǎng)頁主體特征和中介真值的網(wǎng)頁主體識別和提取方法是一種Web信息抽取過程中進行主體識別的解決方案。主要用于解決主體識別存在的通用性不強、準(zhǔn)確度有待提高的問題,屬于Web信息處理領(lǐng)域。本發(fā)明的特征:通過考察網(wǎng)頁結(jié)點樹中每個結(jié)點的子樹數(shù)、平均子樹分支數(shù)、可顯示字符數(shù)和子樹分支數(shù)極差等屬性,從多角度判別每個結(jié)點是主體結(jié)點的真值程度,再綜合各個角度的評判結(jié)果識別出網(wǎng)頁的主體結(jié)點,從而具有較高的網(wǎng)頁主體識別準(zhǔn)確度;而且本發(fā)明能夠針對每個網(wǎng)頁自動設(shè)定中介真值程度計算所需要各個屬性的界值,多角度判別和自動設(shè)定界值一起使本發(fā)明通用性強,適用于各種類型網(wǎng)頁的主體識別和提取。 |
