一種網(wǎng)頁(yè)去噪的方法
基本信息
申請(qǐng)?zhí)?/td> | CN202011229773.9 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN112347353A | 公開(kāi)(公告)日 | 2021-02-09 |
申請(qǐng)公布號(hào) | CN112347353A | 申請(qǐng)公布日 | 2021-02-09 |
分類(lèi)號(hào) | G06F16/9535(2019.01)I;G06F16/35(2019.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 鄒季英;吳濤;袁仁慧 | 申請(qǐng)(專(zhuān)利權(quán))人 | 《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)》電子雜志社有限公司 |
代理機(jī)構(gòu) | 北京天奇智新知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 王澤云 |
地址 | 100084北京市海淀區(qū)清華園清華大學(xué)36區(qū)華業(yè)大廈B1410、1412、1414室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)去噪的方法,包括:導(dǎo)入網(wǎng)頁(yè),獲取網(wǎng)頁(yè)的DOM樹(shù)結(jié)構(gòu)信息、視覺(jué)信息和文本內(nèi)容;判斷節(jié)點(diǎn)類(lèi)型,計(jì)算節(jié)點(diǎn)純度;拆分DOM樹(shù)提取初級(jí)視覺(jué)塊,對(duì)初級(jí)視覺(jué)塊集合進(jìn)行鄰域分析與融合,形成視覺(jué)塊集合,校驗(yàn)視覺(jué)塊集合,校驗(yàn)后輸出提取視覺(jué)塊;抽取視覺(jué)塊特征;對(duì)視覺(jué)塊進(jìn)行分類(lèi),將視覺(jué)塊的分類(lèi)標(biāo)簽以節(jié)點(diǎn)屬性的方式寫(xiě)入視覺(jué)塊所包含的DOM子樹(shù)的所有節(jié)點(diǎn),直至葉子節(jié)點(diǎn),檢查、修改標(biāo)注文件并輸出;從節(jié)點(diǎn)的類(lèi)別標(biāo)簽推導(dǎo)出視覺(jué)塊的類(lèi)別標(biāo)簽,使用視覺(jué)塊特征和視覺(jué)塊類(lèi)別標(biāo)簽訓(xùn)練分類(lèi)器,評(píng)估網(wǎng)頁(yè)去噪效果;采用分類(lèi)器對(duì)視覺(jué)塊分類(lèi),將分類(lèi)結(jié)果轉(zhuǎn)化為節(jié)點(diǎn)的分類(lèi)結(jié)果,根據(jù)節(jié)點(diǎn)的分類(lèi)結(jié)果剔除網(wǎng)頁(yè)中的無(wú)效內(nèi)容,輸出網(wǎng)頁(yè)去噪結(jié)果并保存。?? |
