一種抽取新聞網(wǎng)頁內(nèi)容的方法、裝置及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN201810863031.8 申請日 -
公開(公告)號 CN109271598B 公開(公告)日 2021-03-12
申請公布號 CN109271598B 申請公布日 2021-03-12
分類號 G06F16/958(2019.01)I;G06F16/953(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 陳賀 申請(專利權(quán))人 數(shù)地工場(南京)科技有限公司
代理機構(gòu) 廣州容大知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 劉新年
地址 511458廣東省廣州市南沙區(qū)環(huán)市大道中27號1920房
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種抽取新聞網(wǎng)頁內(nèi)容的方法、裝置及存儲介質(zhì),涉及新聞網(wǎng)頁內(nèi)容抽取技術(shù)領(lǐng)域,包括:獲取網(wǎng)頁HTML代碼、網(wǎng)頁HTML線性重構(gòu)、HTML噪聲標簽去除、數(shù)據(jù)集過濾劃分、吸收偽噪聲段落、生成正文段落;其中,網(wǎng)頁HTML線性重構(gòu)將相互嵌套的呈樹狀div標簽進行線性化,處理線性結(jié)構(gòu)方便定位當(dāng)個div標簽,消除嵌套標簽對后續(xù)步驟影響;HTML噪聲標簽去除將減少噪聲文字對段落聚類的影響;數(shù)據(jù)集過濾劃分進一步降低噪聲對正文段落的影響;吸收偽噪聲段落提高了正文段落的召回率。該方法克服了特定網(wǎng)站特定抓取的缺陷,增強了抽取新聞網(wǎng)頁內(nèi)容的通用性;對比已有技術(shù),能夠準確高效地抽取新聞內(nèi)容,具有良好的效果。??