一種通用的網(wǎng)頁主題內(nèi)容提取方法和系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201810572726.0 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN108920434A | 公開(公告)日 | 2018-11-30 |
申請(qǐng)公布號(hào) | CN108920434A | 申請(qǐng)公布日 | 2018-11-30 |
分類號(hào) | G06F17/22 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 鐘剛 | 申請(qǐng)(專利權(quán))人 | 武漢酷犬?dāng)?shù)據(jù)科技有限公司 |
代理機(jī)構(gòu) | 北京一格知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 武漢酷犬?dāng)?shù)據(jù)科技有限公司 |
地址 | 430000 湖北省武漢市東湖高新技術(shù)開發(fā)區(qū)光谷軟件園A1-F10 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明特別涉及一種通用的網(wǎng)頁主題內(nèi)容提取方法和系統(tǒng),方法包括以下步驟:構(gòu)建目標(biāo)網(wǎng)頁的DOM樹,對(duì)DOM樹的節(jié)點(diǎn)進(jìn)行清理,并按照與正文內(nèi)容的相關(guān)性對(duì)剩余節(jié)點(diǎn)進(jìn)行屬性標(biāo)記;遍歷DOM樹,將DOM樹的剩余節(jié)點(diǎn)分類緩存;根據(jù)各個(gè)類別中節(jié)點(diǎn)與所述可視標(biāo)題節(jié)點(diǎn)的距離判斷所述節(jié)點(diǎn)的內(nèi)容是否為主題內(nèi)容,并根據(jù)判斷結(jié)果完成對(duì)目標(biāo)網(wǎng)頁主題內(nèi)容的提取。本發(fā)明提供了一種更為優(yōu)化的基于語義的網(wǎng)頁信息抽取方法,其基于頁面結(jié)構(gòu)上存在的強(qiáng)關(guān)聯(lián)關(guān)系,對(duì)DOM樹的正文可視標(biāo)題節(jié)點(diǎn)進(jìn)行識(shí)別并對(duì)其他節(jié)點(diǎn)進(jìn)行分類緩存,然后以DOM樹中其他類別節(jié)點(diǎn)與正文可視標(biāo)題節(jié)點(diǎn)的距離作為判定節(jié)點(diǎn)是否屬于主題內(nèi)容的重要依據(jù),從而提高了網(wǎng)頁信息抽取的精度和效率。 |
