一種基于網(wǎng)頁標(biāo)簽分布特征的網(wǎng)絡(luò)數(shù)據(jù)自動清洗方法和系統(tǒng)

基本信息

申請?zhí)?/td> 2020111300522 申請日 -
公開(公告)號 CN112270172A 公開(公告)日 2021-01-26
申請公布號 CN112270172A 申請公布日 2021-01-26
分類號 G06F40/216(2020.01)I; 分類 計算;推算;計數(shù);
發(fā)明人 朱俊杰 申請(專利權(quán))人 北京鈦氪新媒體科技有限公司
代理機(jī)構(gòu) 北京華際知識產(chǎn)權(quán)代理有限公司 代理人 葉宇
地址 100089北京市海淀區(qū)中關(guān)村大街1號11層1119-86
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于網(wǎng)頁標(biāo)簽分布特征的網(wǎng)絡(luò)新聞數(shù)據(jù)自動清洗的方法和系統(tǒng),利用離線爬蟲系統(tǒng)爬取網(wǎng)絡(luò)新聞數(shù)據(jù):對爬取的離線新聞數(shù)據(jù)進(jìn)行樹節(jié)點(diǎn)解析,提取節(jié)點(diǎn)當(dāng)中的標(biāo)簽名稱、屬性、文本、鏈接等屬性信息;采用基于n?gram2vec的思想通過當(dāng)前節(jié)點(diǎn)預(yù)測其他節(jié)點(diǎn)塊信息,通過訓(xùn)練得到標(biāo)簽的詞嵌入信息基于預(yù)訓(xùn)練的詞嵌入信息構(gòu)建智能模型判別系統(tǒng),決定平鋪的節(jié)點(diǎn)的去留:智能模型根據(jù)文章標(biāo)簽的類型分為文本判別模型和圖片判別模型,兩類模型采用不同特征工程進(jìn)行訓(xùn)練,最終進(jìn)行預(yù)測,將二者結(jié)果根據(jù)之前的節(jié)點(diǎn)序列組合起來。??