一種基于網(wǎng)頁主體特征和中介真值的網(wǎng)頁主體提取方法
基本信息
申請(qǐng)?zhí)?/td> | CN201310116907.X | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN103678432A | 公開(公告)日 | 2014-03-26 |
申請(qǐng)公布號(hào) | CN103678432A | 申請(qǐng)公布日 | 2014-03-26 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 成衛(wèi)青;于靜;洪龍;楊庚;黃衛(wèi)東;梁勝 | 申請(qǐng)(專利權(quán))人 | 深圳采??萍加邢薰?/a> |
代理機(jī)構(gòu) | 南京知識(shí)律師事務(wù)所 | 代理人 | 南京郵電大學(xué);深圳財(cái)富農(nóng)場互聯(lián)網(wǎng)金融服務(wù)有限公司 |
地址 | 210003 江蘇省南京市鼓樓區(qū)新模范馬路66號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明基于網(wǎng)頁主體特征和中介真值的網(wǎng)頁主體識(shí)別和提取方法是一種Web信息抽取過程中進(jìn)行主體識(shí)別的解決方案。主要用于解決主體識(shí)別存在的通用性不強(qiáng)、準(zhǔn)確度有待提高的問題,屬于Web信息處理領(lǐng)域。本發(fā)明的特征:通過考察網(wǎng)頁結(jié)點(diǎn)樹中每個(gè)結(jié)點(diǎn)的子樹數(shù)、平均子樹分支數(shù)、可顯示字符數(shù)和子樹分支數(shù)極差等屬性,從多角度判別每個(gè)結(jié)點(diǎn)是主體結(jié)點(diǎn)的真值程度,再綜合各個(gè)角度的評(píng)判結(jié)果識(shí)別出網(wǎng)頁的主體結(jié)點(diǎn),從而具有較高的網(wǎng)頁主體識(shí)別準(zhǔn)確度;而且本發(fā)明能夠針對(duì)每個(gè)網(wǎng)頁自動(dòng)設(shè)定中介真值程度計(jì)算所需要各個(gè)屬性的界值,多角度判別和自動(dòng)設(shè)定界值一起使本發(fā)明通用性強(qiáng),適用于各種類型網(wǎng)頁的主體識(shí)別和提取。 |
