一種基于網(wǎng)頁標(biāo)簽分布特征的網(wǎng)絡(luò)數(shù)據(jù)自動清洗方法和系統(tǒng)
基本信息
申請?zhí)?/td> | 2020111300522 | 申請日 | - |
公開(公告)號 | CN112270172A | 公開(公告)日 | 2021-01-26 |
申請公布號 | CN112270172A | 申請公布日 | 2021-01-26 |
分類號 | G06F40/216(2020.01)I; | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 朱俊杰 | 申請(專利權(quán))人 | 北京鈦氪新媒體科技有限公司 |
代理機(jī)構(gòu) | 北京華際知識產(chǎn)權(quán)代理有限公司 | 代理人 | 葉宇 |
地址 | 100089北京市海淀區(qū)中關(guān)村大街1號11層1119-86 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于網(wǎng)頁標(biāo)簽分布特征的網(wǎng)絡(luò)新聞數(shù)據(jù)自動清洗的方法和系統(tǒng),利用離線爬蟲系統(tǒng)爬取網(wǎng)絡(luò)新聞數(shù)據(jù):對爬取的離線新聞數(shù)據(jù)進(jìn)行樹節(jié)點(diǎn)解析,提取節(jié)點(diǎn)當(dāng)中的標(biāo)簽名稱、屬性、文本、鏈接等屬性信息;采用基于n?gram2vec的思想通過當(dāng)前節(jié)點(diǎn)預(yù)測其他節(jié)點(diǎn)塊信息,通過訓(xùn)練得到標(biāo)簽的詞嵌入信息基于預(yù)訓(xùn)練的詞嵌入信息構(gòu)建智能模型判別系統(tǒng),決定平鋪的節(jié)點(diǎn)的去留:智能模型根據(jù)文章標(biāo)簽的類型分為文本判別模型和圖片判別模型,兩類模型采用不同特征工程進(jìn)行訓(xùn)練,最終進(jìn)行預(yù)測,將二者結(jié)果根據(jù)之前的節(jié)點(diǎn)序列組合起來。?? |
