應(yīng)用于網(wǎng)頁中DOM樹處理方法
基本信息
申請?zhí)?/td> | CN202010436191.1 | 申請日 | - |
公開(公告)號 | CN111651694A | 公開(公告)日 | 2020-09-11 |
申請公布號 | CN111651694A | 申請公布日 | 2020-09-11 |
分類號 | G06F16/955(2019.01)I;G06F16/958(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 詹錦州;杜衛(wèi)紅;謝立歐 | 申請(專利權(quán))人 | 深圳市比一比網(wǎng)絡(luò)科技有限公司 |
代理機(jī)構(gòu) | 深圳市科吉華烽知識產(chǎn)權(quán)事務(wù)所(普通合伙) | 代理人 | 深圳市比一比網(wǎng)絡(luò)科技有限公司 |
地址 | 518000廣東省深圳市南山區(qū)科苑北路訊美科技大廈1棟3樓306室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種應(yīng)用于網(wǎng)頁中DOM樹處理方法,包括以下步驟:步驟S10,獲取目標(biāo)網(wǎng)頁所對應(yīng)的DOM樹,刪除DOM樹中無效信息;步驟S20,計(jì)算目標(biāo)網(wǎng)頁中子節(jié)點(diǎn)的文本密度和鏈接密度;步驟S30,根據(jù)文本密度和鏈接密度計(jì)算第一權(quán)重,判斷第一權(quán)重是否大于第一預(yù)設(shè)閾值,若第一權(quán)重大于第一預(yù)設(shè)閾值,則確定對應(yīng)的子節(jié)點(diǎn)為正文標(biāo)簽;步驟S40,在DOM樹中根據(jù)正文標(biāo)簽確定標(biāo)題和作者;步驟S50,在DOM樹中對內(nèi)容節(jié)點(diǎn)進(jìn)行降噪處理;步驟S60,根據(jù)目標(biāo)網(wǎng)頁的網(wǎng)站域名保留DOM樹模型。本發(fā)明,能夠建立與目標(biāo)網(wǎng)頁匹配度高的DOM樹,以便于用戶在后續(xù)過程中的信息檢索,適應(yīng)不同類型的網(wǎng)站。?? |
